Editoriali Intelligence Corso di perfezionamento Recensioni Summaries in English Scienze dell'Investigazione Bibliografia Forum Strumenti Cineteca Mappamondo Ultime notizie
Criminologia
e motori
di ricerca (Search Engine)
di Francesco Marinelli.
Appunti per la lezione, riportati allo scopo di fornire preventivamente agli ascoltatori qualche idea di carattere assai generale sull'argomento e su come sarà affrontato.
Per illustrare compiutamente questo argomento
dobbiamo innanzitutto parlare dell'informatica: la scienza che si occupa del
trattamento automatico delle informazioni, che stanno alla base di tutte le
attività umane. Automatizzarne la ricerca, la divulgazione e la fruizione
moltiplica in modo esponenziale l’acculturazione e la formazione
professionale.
Il progresso scientifico, tecnologico e strutturale attuato dall'umanità negli ultimi
due secoli ha portato ad accumulare un’enorme quantità di conoscenze ed alla
necessità di scambiarle, comprarle, venderle, proporle, aggiornarle, eccetera e
tutto ciò ha reso necessario la elaborazione di metodi che possono fare a meno,
nel processo di scambio o di fruizione, dell'intervento diretto di coloro che
forniscono le informazioni e di coloro che in qualche modo
le acquisiscono.
I metodi di scambio ormai sono innumerevoli, tanti
quanti sono i mezzi di supporto, ma tra essi prevale l'implementazione
comunemente riferita col nome di Internet.In
quest'ultimo caso il metodo di scambio richiede: un supporto virtuale, capace di immagazzinare enormi
quantità di dati in uno spazio ristretto: il computer;
un sistema di trasmissione dei dati molto veloce e
molto affidabile: la telematica;
un sistema di accreditamento che stabilisce quali informazioni un determinato soggetto è disposto a
fornire, a quali condizioni e a quale costo le fornisce, quali requisiti deve
avere il soggetto che li acquisisce; un protocollo
di trasmissione che stabilisce in quale formato avviene la trasmissione, a quale velocità,
con quale sistema di protezione e con quale garanzia di riservatezza.
L'informatica è quindi il moderno sistema di comunicazione, trasmissione, studio, ricerca e commercio che permette a ciascuno, come un novello Giano Bifronte, ora di produrre e immagazzinare le sue informazioni su un computer e di metterle a disposizione di qualcun altro, ora di fruire del lavoro accumulato da un altro soggetto attivo del sistema.
Il computer viene fornito di un set di istruzioni che gli permette di verificare automaticamente se i soggetti che richiedono le informazione sono accreditati a riceverla, cioè sono affidabili ed in grado di fornire in cambio la contropartita richiesta, per esempio il pagamento; infatti è lo stesso computer che si occupa sia di verificare la solvibilità dell'acquirente che di riscuotere per accreditamento.
A questo punto si comprende bene quante sfaccettature
ha il gioiello informatico, questo diamante che brilla all'inizio del III
millennio, questa nuova pietra filosofale: tutto quello che abbiamo detto avviene in differita
dal processo di produzione, senza l'intervento del venditore, senza
l'intervento dell'acquirente, senza che l'uno conosca l'altro, a qualsiasi ora
del giorno e della notte, a distanza di migliaia di chilometri, quasi senza
occupare spazio, quasi senza spese di trasporto, quasi senza rischi, senza
perdite e smarrimenti, in assoluto automatismo. Lo scambio quindi è ormai gestito da un sistema
robotico.
Anche la ricerca dei dati o degli acquisti può essere gestita da un sistema robotico di cui alcuni motori di ricerca, come vedremo in seguito, si servono per costruire ed aggiornare il proprio database, la propria banca dati di indirizzi internet e pagine del Web. In altre parole i motori di ricerca in questione operano attraverso l’invio di uno spider (il cosiddetto “ragnetto”, in quanto si muove virtualmente sulle maglie della grande Rete o Ragnatela che dir si voglia, altrimenti anche detto crawler dagli americani, o infine worm o Web robot), che analizza autonomamente e velocissimamente migliaia di siti web alla ricerca del maggior numero possibile di documenti da catalogare. Ma la catalogazione è opera di un ulteriore programma, detto indexer, che indicizza e classifica i documenti in base ad un algoritmo proprietario ed alle parole in esso contenute. Questi due software riescono ad aggiornare automaticamente le banche dati visitando milioni di siti Web al giorno inserendo le nuove pagine ed aggiornando le informazioni su quelle già censite.
Questo è ciò che si intende per trattamento automatico dell'informazione.
La trasmissione di informazioni attuata tramite computer e particolari periferiche è detta telematica. È ormai superato il modello di un centro di elaborazione dati come centro unico da cui attingere informazioni e si sta diffondendo sempre più una realtà informatica capillare in cui il computer rappresenta lo strumento di lavoro a tutti i livelli. Il vocabolo “rete” è usato per indicare strutture nelle quali sono presenti più elementi capaci di elaborazioni autonome ma che possono raggiungere una complessità molto elevata. Elementi costitutivi di una rete sono:
1. I
nodi
2.
I collegamenti
I nodi sono rappresentati da singoli computer,
l'insieme di più nodi costituisce una rete. I collegamenti rappresentano il
mezzo di connessione tra i singoli nodi; essi possono essere costituiti da cavi
(usati per la connessione all'interno di uno stesso edificio), da linee
telefoniche o onde radio. Esistono diversi tipi di rete.
Un’altra caratteristica delle reti, che merita di
essere però solo accennata è rappresentata dal protocollo di rete cioè da quell'insieme di regole relative al modo
in cui si accede e si trasmettono i
dati.
Per Internet il protocollo è chiamato TCP/IP
( Trasmission Control Protocol / Internet Protocol ).
Internet è la più grande rete di calcolatori del
mondo. Anzi più precisamente è un'immensa rete di reti di computer connessi
attraverso le linee telefoniche e apparecchi chiamati modem capaci di
trasformare le informazioni digitali in impulsi trasmissibili attraverso il
telefono. Se qualche filosofia o qualche massima potesse definire Internet,
questa potrebbe essere: “Se hai informazioni interessanti, condividile con gli
altri”. Questa filosofia
comunitaria ha riscosso molto successo tra i giovani unendoli in una sorta di
villaggio globale anche se virtuale; a minacciare questo sogno di utopia sembra
sia caduta, come un fulmine a cel sereno, la nuova legge sull'editoria, entrata
in vigore il 4 aprile 2001, essendo stata pubblicata nella gazzetta ufficiale
numero 67 del 21 marzo 2001 ; si tratta della legge numero 62 del
7 marzo 2001 " nuove norme sull'editoria e sui prodotti editoriali e
modifiche della legge 5 agosto 1981, numero 416”.
La legge considera prodotto editoriale quel prodotto,
sia realizzato su supporto cartaceo e sia su supporto informatico, destinato
comunque alla diffusione di informazioni presso il pubblico con ogni mezzo, ma
con caratteristiche di periodicità; sembrerebbero quindi esclusi quei siti
personali, magari anche divulgativi, ma che non vengono costantemente aggiornati
con le cosiddette news, che sono di taglio prettamente giornalistico e quindi
presupporrebbero perlomeno una ipotesi editoriale. Infatti il sottosegretario
alla presidenza del consiglio con delega per l’editoria, Vannino Chiti,
afferma che la nuova legge sull'editoria non deve preoccupare chi ha un sito:
“Si deve registrare solo chi chiede contributi; la norma non censura, offre
nuove possibilità”; si è comunque in attesa di ulteriori chiarimenti.
Ritornando ad Internet bisogna dire che esso
storicamente passa attraverso tre periodi: militare, universitario e
commerciale. Da Eniac, il primo vero calcolatore, a Internet la storia
dell’informatica ha tratto
impulso da progetti militari più ancora che da strategie commerciali. La storia
delle reti informatiche può iniziare negli anni 60 quando il mondo viveva sotto
la minaccia della guerra fredda tra USA ed URSS; in quel periodo nacque l'ARPA (Advanced
Research Projects Agency, un Dipartimento militare
americano) il cui scopo era quello di pianificare una rete di telecomunicazioni,
chiamata per l’appunto Arpanet (1957), in grado di resistere al caos nucleare
in caso di guerra: le informazioni in rete viaggiano in cosiddetti pacchetti
informativi, che si ricollegano tra
di loro una volta giunti a destinazione; anche se la guerra danneggiasse una
grande linea telefonica tra due metropoli, questi pacchetti informativi o di
ordini troverebbero comunque innumerevoli altre linee per giungere a
destinazione ed ivi ricomposti in un discorso compiuto. La nascita di Internet
avvenne nel 1970 quando l’ARPA sviluppò un sistema di collegamento tra
quattro computer dislocati in altrettante sedi universitarie degli USA,
progettato in modo che se un computer fosse venuto a trovarsi fuori uso le
informazioni potessero essere trasferite da uno qualsiasi degli altri tre (non
esisteva un computer in posizione dominante come tuttora non esiste nella Rete
Internet, non esiste infatti una Internet S.P.A. con sede in qualche luogo). Nel
1974 fu definito quale dovesse
essere il modo di trasmettere le informazione tra due computer e nacquero gli IP
(Internet Protocol) e i TCP (Trasmission
Control Protocol). A questo punto
ci chiediamo cos’è il protocollo TCP/IP?
I postulati
fondamentali dell’IP sono:
1. Ogni calcolatore presente su Internet è
individuato da un nome (hostname) cui corrisponde un indirizzo chiamato IP
adress rappresentato da un insieme
di quattro numeri (compresi tra 0 e 255) separati da un punto (un indirizzo
potrebbe essere 125.32.45.101)
2. Le
informazioni che devono essere trasferite sono suddivise in più parti
3. Ogni porzione di informazione
è contenuta in una specie di busta o capsula IP, in termini figurati,
che contiene l'indirizzo cui deve arrivare e quello di chi la manda per cui,
anche se essa si mescola con milioni di altre è sempre possibile sapere
dove deve andare e da dove viene
L’hostename è composto da una parte che identifica
il computer e da un altra chiamata dominio che identifica sia il paese e sia
l'organizzazione (mnvax.irfmn.mnegri.it
dove
mnvax = nome del computer e
irfmn.mnegri.it =
dominio).
Accanto
all’IP è stato elaborato un
altro protocollo chiamato TCP (Trasmission Control Protocol) e poiché essi
funzionano insieme il protocollo di trasmissione di Internet si chiama TCP/IP. In
sostanza il TCP permette un miglior controllo delle informazioni in quanto:
1. Aggiunge il numero di byte di cui è composta la
parte di informazione che si invia
2. Identifica di quante parti è composta l'intera
informazione
3. Indica dove si inserisce una determinata parte di
informazione nell'intera informazione
Quindi se l'informazione arriva sbagliata o
incompleta TCP è in grado di rilevarlo e chiedere al computer che la invia di
rispedire la parte che manca.
Questa particolare attenzione alla sicurezza dei dati
ed alla loro completezza ed autenticità è spiegata appunto dalle esigenze
militari a cui ottemperava il protocollo di comunicazione.
Per accedere ad Internet occorre:
1. Un computer
di qualsiasi tipo, ma ormai, anche a livello dei personal computer la
potenza è di tutto riguardo con le varie generazioni del Pentium, dalla prima
alla quarta
2. Un modem (
abbreviazione di modulatore/demodulatore ), dispositivo che permette di
trasferire le informazioni tramite le linee telefoniche
3. Una linea
telefonica
4. Un accesso
ad Internet fornito da un provider, cioè da una società proprietaria di un
computer collegato in maniera diretta e permanente ad Internet e che dietro
pagamento di un affitto, un canone, mette disposizione sia una parte del suo
computer e sia l'accesso ai servizi della rete
5. Un browser
cioè un software che permette il collegamento. I due attualmente più usati
sono Netscape ed Explorer, seguiti, ma a distanza, da Opera.
Internet offre i seguenti servizi :
1.
Posta
elettronica (e-mail:
electronic mail )
E’ possibile cioè
spedire messaggi, fax e lettere in pochi secondi, in tutto il mondo ed al
costo di una telefonata locale; è possibile mandare lo stesso messaggio a
centinaia di persone e rispondere automaticamente ai messaggi mediante testi
programmati; può essere utilizzata per inviare anche immagini e suoni e
qualsiasi file in allegato, sia eseguibile cioè .exe e sia
in formato multimediale cioè ipertesto; ciò è possibile fino a diversi
MB, a seconda del contratto di abbonamento con cui si accede ad Internet,
altrimenti bisogna alleggerire l’allegato zippandolo. È anche possibile
codificare le informazioni per tutelare la privacy attraverso dei programmi
chiamati criptatori ( per esempio PGP, forse il
miglior programma per criptare msg, immagini, documenti ed altro ancora; massima
sicurezza con il sistema della doppia chiave, pubblica e privata ) che rendono
illeggibili le informazioni tranne che per coloro che possiedono un software in
grado di decriptarli.
2. Partecipazione
a dibattiti tramite iscrizione alle cosiddette Mailing List o Listserv.
Sono costituite da più individui interessati ad un
tema particolare i cui messaggi sono trasmessi a tutti gli iscritti. Ciascuno,
osservando determinate regole che sono poi quelle della convivenza civile (Netiquette,
il Galateo che vige in Rete), può esprimere il proprio pensiero o le proprie
opinioni: dal contributo di tutti si crea il dibattito.
3. Newsgroup
Sono dei tabelloni di annunci in cui ciascuno può
esprimere il proprio parere, differiscono dalle Mailing List perché non c'è la
trasmissione automatica dei messaggi ma ciascuno deve andare a cercare ciò che
lo interessa.
4. Importare
un file da un qualsiasi
computer è possibile grazie ad un protocollo di trasmissione dei file chiamato
FTP
5. Uso di
altri computer a distanza
Mediante lo strumento Telnet è possibile collegarsi
con un computer remoto e utilizzarlo come se si trovasse a casa nostra
6. Ricerca di
informazioni tramite un menù
Gopher è un sistema di ricerca di informazioni
tramite un menù. Esso permette di risolvere uno dei maggiori problemi di
Internet: sapere dove si trova l'informazione per potervi accedere. Mediante
Gopher, infatti, è possibile collegarsi ad un server generale di informazioni
ed avanzare passo passo, mediante menù a tendina, fino ad arrivare
all'informazione che interessa.
7. Creazione
di gruppi di lavoro interattivi.
Mediante l'Internet Relay Chat (IRC) è possibile
organizzare riunioni tra diverse persone, anche se sparse in diverse parti del
mondo per lavorare contemporaneamente su un documento.
Infine la vera e propria grande rete interattiva del sapere ossia quella fitta trama elettronica che ci permette, come cibernauti naviganti nello scibile umano contenuto nel Web, di vivere le nostre notturne Odissee.
8. Il Web
browsing ovvero l’accesso ad
informazioni multimediali contenute nel World Wide Web ( comunemente detto
Web ossia Rete ) che costituisce la Raccolta di siti in Internet
La nascita del World
Wide Web (WWW.) ha permesso di trasmettere documenti multimediali con testi,
links (cioè rimandi ad altre pagine), immagini fisse o animate, suoni, musica e
video. Le caratteristiche fondamentali del WWW sono infatti due:
la possibilità di trasmettere documenti multimediali
e la possibilità di accedere ad altre fonti di informazioni in modo interattivo
cioè selezionando collegamenti ipertestuali nel documento. I collegamenti
ipertestuali o links solo frammenti di testo o di immagini del documento che,
qualora siano selezionati con il mouse, attivano una nuova ricerca di
informazione che ci porta in un altro documento collegato con il primo. Questa caratteristica ci permette di
fare un percorso magari non rettilineo e prevedibile, ma più simile alla
fisiologia del pensiero umano cioè con un iter associativo tra idee subentranti
l’una all’altra: perciò in questo modo possiamo partire con una ricerca per
esempio storica e ritrovarci a leggere un racconto o una poesia. Il World Widw
Web è una vastissima risorsa di
informazioni distribuita in tutto il mondo
su centinaia di migliaia di computer detti server Web; essi contengono i
siti web, costituiti da pagina - da una sola a molte migliaia – collegate
elettronicamente una all’altra. Il numero totale di pagine
oggi disponibili sul web è dell’ordine dei miliardi. Tali pagine
costituiscono nel loro insieme un archivio di informazioni cui si può accedere
da qualsiasi personal computer collegato ad Internet.
La nascita del WWW ha segnato una vera e propria
rivoluzione e l'inizio di una nuova era in Internet tenuto conto che il suo uso
ha aperto nuove prospettive all'utente offrendo una enorme funzionalità e un
ambiente estremamente intuitivo. Il suo funzionamento si basa su due concetti
fondamentali:
1.
Il nostro computer non riceve direttamente documenti ma l'informazione
minima per ricostruirlo;
2.
La comunicazione non è
continua: il nostro programma
raccoglie il file di testo in formato HTML
(Hypertest Mark Language), un linguaggio di programmazione, nello specifico
possiamo dire di formattazione, che
permette di condensare tutte le informazione relative al documento, alle
immagini e alla loro posizione in file di testo con estensione HTML.
Le caratteristiche fondamentali del WWW sono:
1.
Capacità multimediali, cioè i documenti acquisiti contengono elementi
multimediali. Facendo un ampio uso di suoni, filmati e grafica acquisiscono aspetti particolarmente accattivanti e
piacevoli.
2.
Possibilità di accesso a diverse risorse della rete da una stessa
piattaforma: si può infatti accedere ad altre risorse oltre a quelle pensate
espressamente per il Web come FTP, Gopher, Veronica, Telnet, Waiss.
3.
Uso di ipertesto: in una
videata di WWW ci sono zone di testo di colore differente o sottolineate che
rappresenta altrettante vie di accesso ad altre parti di documento o altri
documenti la cui consultazione può fornire informazioni aggiuntive e finalmente
esaustive.
Analizziamo ancora un attimo la nozione di HTLM cioè
di Hipertest Markup Language che in effetti è la chiave di funzionamento del
WWW, infatti questo linguaggio di programmazione aggiunge all'informazione
contenuta nel documento anche il modo in cui essa viene rappresentata
arricchendola di immagini, suoni e video. Permette di stabilire i cosiddetti
Hyperlink cioè parti del testo differenziate, cliccando le quali si raggiungono
altri documenti che possono provarsi anche su computer situati a migliaia di
chilometri dal primo.
Veniamo
ora finalmente ai motori
di ricerca
che
rappresentano l'altra grande rivoluzione nel mondo di internet:
a fianco all’Iperlink, sono l’altro modo di viaggiare nel mondo
virtuale seguendo il filo tematico della propria ricerca.
Possiamo quindi definire il motore di ricerca come un programma che ricerca
documenti in relazione a determinate parole chiave (o chiavi di ricerca ) che
possiamo definire tematiche (decise ed inserite da chi opera la ricerca) e che
offre come risultato finale un elenco di elementi associati in quanto attinenti
a quelle stesse parole chiave; questi elementi sono costituiti da rimandi
(indirizzi sensibili cioè cliccabili) a pagine del web in qualche modo
attinenti al tema e da un brevissimo sommario.
L'idea di creare motori di ricerca in grado di aiutare la navigazione di Internet nacque tra il 1993 ed il 1994, agli albori del fenomeno World Wide Web e proprio all'inizio del "grande caos", la crescita enorme e senza regole delle informazioni su Internet.
I motori di ricerca propriamente detti sono quelli automatici (Crawlers).
Tra questi si possono prima di tutto distinguere motori online e offline; ambedue possono effettuare la ricerca solo nel sito in cui si affaccia il modulo di ricerca, oppure in tutto il Web ( in realtà le opzioni prevedono anche la scelta di soli siti di lingua per esempio, “italiana”, di sole immagini o di sola musica, ecc.).
Per utilizzare i
motori di ricerca online è sufficiente inserire la parola che si sta
cercando in corrispondenza del motore desiderato e premere il tasto Cerca.
I motori di ricerca offline, anche detti programmi o
agenti di ricerca autonomi o tool di ricerca, sono programmi installati nel
proprio computer ( e non quindi in rete ) ed utilizzati come strumento di
ricerca principale, se non unico; i
principali funzionano per molti aspetti come motori di metaricerca e sono:
ForeFront
: nel campo
Keywords, si dovrà inserire la
parola o la frase da ricercare nei motori di ricerca precedentemente scelti
selezionando il folder Search Engine
(più di 20 motori di ricerca).
WebFerret : programma anch’esso in grado di interrogare più di 20 motori di
ricerca. Un modo rapido ed efficace per trovare in rete quasi tutto ciò che
serve.
UnMozify
: per navigate off-line all'interno della cache del
vostro browser recuperando immagini e collegamenti; si trovano versioni sia per
Netscape che per Explorer .
Una esecuzione di una ricerca semplice è anche possibile farla digitando la parola chiave nella barra di indirizzo di Internet Explorer dopo vai o trova o ? e poi premendo invio; oppure cliccando sull’icona “Cerca” di Internet Explorer si apre un Frame, a sinistra dello schermo, in cui si può impostare la ricerca.
Si potrebbero considerare un ibrido, tra i motori
offline ed online, i “programmi
di metaricerche” residenti online (metacrawlers), che consentono di
interrogare simultaneamente numerosi fornitori di ricerche e offrono sia motori
di ricerca sia directory Web; per
esempio il motore Metacrawler (www.metacrawler.com
) consulta automaticamente
12 motori di ricerca e
directory Web. I fornitori di metaricerche solitamente non possiedono né
producono propri database di siti ed URL. Forniscono il gateway (la porta di
accesso) per ricerche simultanee da eseguire sui servizi con cui trattano e da
salvare poi nel nostro computer in
una cartella di ricerca. Altro metacrawler è Dogpile
(www.dogpile.com
) che offre una grande varietà di fonti di informazione.
Il primo motore di ricerca
online in ordine di comparsa è Yahoo
il quale interroga a cadenze programmate i siti Web e cataloga le informazioni
per argomento inserendole nella sua
Banca Dati ( database ). Per effettuare le ricerche basta inserire la stringa di
testo in un apposita finestra ed inviare la richiesta al database. Ci viene
rimandata una lista dei documenti trovati e dei siti dai quali sono stati
estratti in ordine di concordanza (concordanza che ci viene quantificata in
“percentuale di concordanza”). Si può restringere la ricerca introducendo
gli operatori and e or (due delle quattro espressioni booleane ossia espressioni
logiche di cui diremo più dettagliatamente in seguito) o entrando nelle aree
tematiche di Yahoo. Per spiegare l'utilizzo degli operatori booleani, AND OR, ci serviremo di un esempio molto semplice:……………………………………………………..
volendo raccogliere tutte le informazioni presenti in Rete sulla coppia di
attori-ballerini formata da Gene Kelly e Fred Astaire dovremmo settare il
parametro AND, se invece l'obiettivo
della nostra ricerca fossero le informazioni
su l'una o l'altra
persona dovremmo settare il parametro OR.
Mentre nel primo caso (AND ,
operatore di intersezione
logica) ci verrebbero restituiti gli indirizzi dei siti in cui sono citati entrambi
gli attori, nel secondo caso (OR ,
operatore di unione logica)
sarebbe sufficiente che ne fosse citato uno
solo.
Gli altri operatori o modificatori booleani
sono anch’essi di uso frequente , ma solo come opzioni nelle ricerche
avanzate, appunto per modificarle secondo le esigenze, e sono NOT
(no, per escludere; operatore di
esclusione logica) e NEAR
(vicino; operatore di correlazione),
poi le parentesi ( ) che permettono
di raggruppare le parole tra loro; con questi operatori logici si possono
impostare richieste di ricerca anche molto complesse come un’espressione del
tipo:
(criminologia OR criminalistica OR vittimologia) AND NOT (sentenze OR diritto OR penale), con la quale si richiede un documento che contenga le parole criminologia, criminalistica e vittimologia ed invece non contenga sentenze, diritto e penale.
ALTRE OPZIONI DI RICERCA
Per esempio, è possibile digitare nic*el*
per comprendere le due ortografie nickel e "nichel" e per
includere le pagine dedicate ai termini derivati quali nichelio, nichelatura,
nichelcromo.
SIMBOLI MATEMATICI NEI MOTORI DI RICERCA
I simboli matematici sono il modo più semplice e più
efficace per ampliare o restringere la ricerca. Sono accettati in quasi tutti i
motori di ricerca nel Web.
I tre principali modificatori utilizzabili per le
ricerche sono:
+ (segno più)
- (segno meno)
"..." (virgolette doppie che circoscrivono
il termine da cercare; esse servono
per circoscrivere le parole che devono essere
raggruppate)
SEGNO +
II segno + serve per aggiungere all'interrogazione
altri termini da cercare.
Il segno + deve essere collocato subito prima del
termine aggiunto (senza lasciare spazi). Questo
semplice espediente riduce il numero di corrispondenze che verranno trovate, con
tutte le più pertinenti all'inizio.
SEGNO -
II segno - serve per escludere parole dalla ricerca,
e anche in questo modo si restringe la ricerca.
Torniamo ora a parlare di Yahoo che nacque da un'idea
di due studenti americani, ora plurimiliardari, che volevano creare uno
strumento che stupisse le persone facendo loro esclamare "Yahoo, l'ho
trovato"; un'onomatopea, più che un nome, che pare abbia colpito la
fantasia di molti vista l'incredibile mole di contatti (circa 160 milioni di
visite ogni giorno, in tutto il Mondo) che Yahoo registra, sicché potrebbe
ormai definirsi “il bollettino del villaggio globale”.
Yaoo, in effetti il più popolare sito web in
assoluto, presenta oltre alla maschera di ricerca con il modulo in cui inserire
la parola chiave, anche una directory dove sono raggruppati in macro-categorie
tipologiche, tutti i siti indicizzati dal crawler ; da queste macro-categorie si
può discendere, ad albero verso settori sempre più particolari ( come nel
cosiddetto arbor scientiae degli
Enciclopedisti ). Questa omogeneità
espressa in categorie si inizia a formare già nelle raccolte effettuate dagli
stessi spiders che trovano le pagine Web seguendo i collegamenti all'interno dei
documenti, quindi i collegamenti all'interno dei documenti collegati, e così
via; è ovvio che la maggior parte di questi collegamenti abbiano una qualche
omogeneità con le pagine nelle quali sono ospitati come links. Con questa
metodica agli spiders
non occorre molto tempo per accumulare una raccolta di molte migliaia di
URL.
I diversi spiders raccolgono però tipi diversi di
dati dalle pagine Web e da altre
fonti di informazioni secondo la loro intrinseca programmazione. Il minimo
comune denominatore di queste programmazioni è però la raccolta di determinate
parole inserite dagli autori dei
siti, nel linguaggio html (il linguaggio descrittore delle pagine Web), tra i
tag : tag meta
description (<meta description>) in cui il webmaster descrive brevemente
il contenuto del sito e tag title (<title>) in cui riporta il titolo del
sito stesso. Naturalmente i tag servono soprattutto a descrivere come deve
essere visualizzata la pagina dal browser.
Altri
grandi motori di ricerca sono:
Altavista
( www.altavista.diaital.com
) , Excite ( www.excite.com
), Infoseek
( www.infoseek.com ), Lycos ( www.lycos.com ), Ask Jeeves (www.askjeeves.com
), Google ( www.google.com ), HotBot
(www.hotbot.com ), Netscape
Search (http://search.netscape.com ) .
Altavista
( www.altavista.diaital.com ) permette di
effettuare una "Power Search" che consente di utilizzare operatori
come and, or, not, near. E' considerato lo strumento ideale per ricercare più
argomenti tra loro correlati; contrariamente ad altri motori manca il
"ranking" cioè l'indicazione di quanto il contenuto dei siti sia
pertinente alla richiesta effettuata.
Altavista è il motore di ricerca della Digital. La Digital è una società americana che costruisce computer. La sua idea fu abbastanza semplice: abbiamo le macchine, la potenza di calcolo, perché non fare un motore di ricerca in grado di catalogare tutto, ma proprio tutto ciò che è stato pubblicato su Internet? Idea entusiasmante, grande iniziativa, che ha fatto sì che Altavista sia ora il motore di ricerca più potente di Internet e la cui banca dati censisce oltre 250 milioni di pagine Web; un numero enorme di pagine, considerando che per ogni pagina Web censita, i motori di ricerca memorizzano gran parte del testo in essa contenuto, in modo tale che, ad ogni ricerca dell’utente, viene presentata una lista di tutte le pagine dove figura la o le parole ricercate.
Lycos
( www.lvcos.com
) non ricostruisce periodicamente il suo database ma lo aggiorna in modo
cumulativo, accodando via via voci in archivio. Le interrogazioni si possono
effettuare usando solo due operatori and e or, però si può raggiungere una
grande accuratezza specificando il tipo di ricerca: loose (slegato), fair
(abbastanza), good (buono), close (in senso stretto, letterale), strong (massima
concordanza).
Ask
Jeeves è uno dei numerosi motori di ricerca Internet che
supportano le interrogazioni in linguaggio naturale e risponde alle domande
restituendo un elenco di corrispondenze organizzate in menu a discesa di siti
correlati.
Google
dietro un interfaccia
semplice e stringata, ha un potente motore di ricerca che ha come sua
caratteristica quella di analizzare la pertinenza di una pagina osservando i
suoi collegamenti.
HotBot
che nato nel 1996 come motore di ricerca autonomo, è poi stato acquisito
da Lycos nel1998; presenta numerose opzioni di ricerca avanzate ed ha
nell’indice oltre 110 milioni di documenti; costruisce le ricerche in
linguaggio naturale.
Netscape
Search è un motore basato su indice e costruito da redattori
umani.
Poco pubblicizzato, ma estremamente efficiente
Northern Light Search ( www.nlsearch.com ) tanto da essere
ritenuto il più esteso della rete e quello che permette di raggiungere i
risultati migliori.
Tutti i motori di ricerca possono lavorare su due
archivi: l'archivio Web composto
dalle pagine pubblicate su Internet e l'archivio Usanet generato dai messaggi
che transitano nei newsgroup; questa duplice possibilità è utilissima perché
allarga il campo di ricerca dei motori.
In Italia abbiamo a disposizione due ottimi motori di
ricerca:
Arianna ( www.arianna.it
o http://arianna.iol.it ) e Virgilio ( www.virgilio.it
) che forti delle esperienze USA hanno adottato una forma di ricerca mista:
libera e per aree definite.
Arianna
è il motore prescelto da Italia On Line ; nella ricerca semplice della home
page non è possibile adoperare operatori logici e se vengono inserite più
parole viene automaticamente eseguita una ricerca di tipo AND; per la ricerca
avanzata c’è l’opzione a
destra che apre una pagina con cinque opzioni per restringere la ricerca. Infine
Arianna ospita un link alla comunità italiana telematica Digiland.
Virgilio quasi
certamente è il più popolare motore di ricerca, più precisamente portale,
italiano, presentando molti servizi utili. Nella ricerca semplice per parola
chiave inserita nella casella presente nel frame superiore della home page non
sono previsti operatori logici o qualificatori, per cui anche per Virgilio ci si
può attendere solo una ricerca di tipo AND. Per ricerche avanzate si deve
cliccare , sotto la casella di ricerca, sulla frase “Tutte le ricerche” :
apparirà allora il modulo per la ricerca avanzata ma in forma essenziale;
cliccando poi sulla frase [ricerca completa] comparirà il modulo in forma
espansa; qui è possibile orientare la ricerca verso il tipo AND ( Tutte le
parole ) o verso il tipo OR ( Almeno una parola ).Alla realizzazione delle varie
sezioni di Virgilio collabora una équipe di giornalisti-navigatori ( un
cosiddetto staff di surfers o crawler umano ) che setaccia quotidianamente la
Rete per trovare il meglio da offrire agli utenti italiani, ma il vero cuore di
Virgilio sono proprio gli utenti, che con le loro segnalazioni arricchiscono
ogni giorno di più il catalogo di siti italiani, che oggi sembrerebbe
il più ricco che si possa trovare sul Web.
Altro motore italiano è Il Trovatore ( www.iltrovatore.it
) che presenta, subito sotto il titolo, la casella di inserimento, seguita dal
pulsante trova e da un menù a
tendina per la scelta della condizione di ricerca; sotto figurano una serie di
pulsanti radio che identificano i vari cataloghi di ricerca.
Il pulsante +Opzioni attiva il pannello di ricerca avanzata dove, tra le tante opzioni, in modo peculiare si può effettuare la ricerca ristretta in ambienti Gopher ( come il motore Veronica ) cioè in ambienti di solo testo, sorti nel 1980 all’interno di reti universitarie ma ancora attivi.
Il secondo menù a tendina permette di restringere la
ricerca ad un singolo tipo di file. Inoltre questo motore offre un cerca Domini
ed un trovascanner per cercare
informazioni in circa 30.000 canali IRC (Internet Relay Chat) cioè nelle
chat-line.
Ancora italiano è Katalogo ( www.katalogo.it ) ,
il motore-portale del gruppo Repubblica-Espresso; anch’esso
presenta alcuni menù a tendina, ed alla fine della riga di ricerca mostra
l’opzione ricerca avanzata che è abbastanza raffinata.
C’è poi SuperEva
( www.supereva.it ) ,
che è il motore di ricerca di Dada.it ed ha un modulo simile a quello di
Arianna, con l’opzione “Ricerca avanzata” sopra la casella di ricerca
semplice. Comunque SuperEva privilegia i Repertori e la sua Comunità
telematica.
Infine ricordiamo Italian Web Space (http://italianwebspace.com/
) che è un repertorio di siti
italiani, e Shinyseek (www.shinyseek.it
) che, nonostante il nome, è un motore italiano di ricerca per parole chiave o
per categoria.
Esistono poi motori di ricerca
"dedicati" (motori specifici) solo alle ricerche settoriali,
specialistiche, per esempio in campo medico c’è Medline
( www.nlm.nih.gov/nlhome.html
), una enorme raccolta di abstracts con i rispettivi riferimenti bibliografici.
Rappresenta lo strumento sicuramente più usato in
medicina per effettuare ricerche bibliografiche, esso raccoglie infatti più di
18 milioni di referenze bibliografiche che si riferiscono agli articoli
pubblicati su oltre 3000 riviste
dal 1966.
E' stato creato negli anni '70 dalla NLM (National
Library of Medicine) e dal NIH (National Institute of Health) di Bethesda che ne
curano anche l'aggiornamento.
Attualmente il suo uso è soggetto al pagamento di una
quota di iscrizione, anche se esiste la possibilità di consultarlo in maniera
gratuita.
Alcuni
sistemi di ricerca sono completamente gratuiti altri richiedono una
registrazione con il proprio nome e cognome dopo la quale viene fornita una
password che consente l'accesso gratuito. Il sistema che offre le migliori
prestazioni pare essere PubMed per
la celerità di aggiornamento, per l'interfaccia utente, per la selezione e
stampa degli abstracts. In generale il sistema Medline non consente di ottenere
il testo completo degli articoli gratuitamente ma solo dietro pagamento di una
cifra che si aggira intorno ai 20 dollari.
Esistono
due diverse modalità di effettuare una ricerca:
1.
Vocabolario
controllato
Gli
organismi che producono gli archivi bibliografici creano elenchi di termini
chiamati “parole chiave” rappresentativi degli argomenti trattati dagli
autori negli articoli. Tali elenchi chiamati anche “thesaurus” rappresentano
uno strumento insostituibile per ottenere i migliori risultati
2.
Testo
libero
Si
adoperano alcune parole che verranno ricercate in ogni campo del
record bibliografico, per
cui si otterranno risultati solo se l'autore avrà espresso il contenuto con le
stesse parole adoperate per la ricerca.
Come
effettuare una ricerca ?
·
Digitare nel riquadro della Location l'indirizzo ad es .
Http://www.ncbi.nlm.nih.gov/pubMed/Medline.html
·
Immettere nella finestra di ricerca uno o più termini separati da
spazio
·
Premere Invio o il bottone Search
·
Comparirà un sommario indicante il numero di documenti trovati,
cliccando su di esso si accede ad una lista dalla quale è possibile selezionare
il documento cercato
·
Naturalmente il numero di documenti trovati sarà tanto minore
quanto più indicazioni di ricerca avremo immesse
Altri
motori di ricerca specializzati sono i seguenti:
Mailory:
ricerca di indirizzi di email
DejaNews:
ricerca di newsgroup
Bigfoot: ricerca di indirizzi di email
Whoopie!: ricerche di file audio e video
Discovery Online: ricerche sulle nuove
scoperte (natura, Tecnologia,
Scienza ecc.)
AstroWeb: ricerche
sull'Astronomia
HealthAtoZ: ricerche su Salute e
Medicina
Findlaw: leggi statunitensi ed
internazionali
Minerva: leggi italiane
Epicurious: ricerca in un archivio di
ricette internazionali
Logos: il Vocabolario Multilingue
Games Domain: ricerche e
informazioni sui Giochi
¡Olé!: ricerche specializzate sulla Spagna
Maple Square - Canadàs Internet
Directory: ricerche specializzate sul Canada
Naturalmente ce ne sono
una miriade di altri, tanto più che attualmente il significato di motore di
ricerca va sempre più confondendosi con quello di Portale, anche perché
l’obiettivo dell’uno e dell’altro è lo stesso
e cioè diventare il punto di partenza di ogni navigazione. Sta qui il
segreto di ogni possibile successo commerciale o culturale. Infatti oggi tutti i
motori di ricerca storici sono anche portali, e tutti i portali contengono anche
un motore di ricerca ed un catalogo sistematico di risorse ossia un indice Web.
Riassumendo quindi i motori di ricerca si possono così classificare:
i Motori automatici (Crawlers)
gli Indici (Directories o Index)
i Metamotori (Metacrawlers)
i Motori specifici o vortal o verticali
i Portali o motori generalisti od orizzontali
Ma come già detto in precedenza questa suddivisione serve solo per ordinare le nostre idee, la realtà del Web è invece sempre più ibrida e il sistema che si va sempre più affermando è quello del Portale, anzi della federazione tra portali in quanto si sta assistendo alla tendenza alle fusioni, come d’altronde in tutti gli altri ambiti dell’Industria e del Commercio.
La federazione tra portali in realtà supera anche la contrapposizione tra portali orizzontali ossia generalisti, che parlano di un po' di tutto, e portali verticali, i cosiddetti vortal, che hanno comunque funzioni e struttura molto simile a quelli orizzontali con un’unica differenza sostanziale: anziché essere aperti su tutto lo scibile, focalizzano l'offerta su settori specifici inseguendo i territori più disparati e quindi più esclusivi e liberi. Per esempio per interessarci e fare interessare altri alla criminologia e per offrire servizi utili e attinenti dovremmo realizzare un portale di tipo vortal cioè verticale nel sempre più lungo elenco delle specialità del sapere, che cioè non si allarghi troppo nelle competenze per non andare fuori tema; ma alla stessa criminologia, per contro, afferiscono d’obbligo tante altre materie:
antropologia criminale,
psicologia criminale,
sociologia criminale,
psichiatria forense,
diritto penale,
medicina legale,
criminalistica,
vittimologia
che diciamo sono le materie principali, ma in effetti gli interessano tutte le scienze forensi ed anche la filosofia del diritto, l'etica e la bioetica, la politica, in definitiva tutte le scienze dell'uomo in quanto gli studi criminologici riguardano tutte le condizioni in cui e per cui un uomo entra in conflitto con la società.
E d’altronde una eccessiva specificità andrebbe a ridurre il numero dei potenziali visitatori.
Per quanto riguarda la criminologia riportiamo i seguenti indirizzi da cui poi ci si può allargare nella ricerca e nella formazione:
http://members.xoom.it/criminologia
Problemi
di Psicologia e Criminologia
Rassegna Italiana di Criminologia
Riportiamo invece qui di seguito i più usati motori generalisti in ordine alfabetico:
About.com Ah-ha.com
All the web Altavista
Altavista.it Aol
Arianna AskJeeves.com
Azinet Britannica
Buone Idee Cerca.com
Cheopelive.com Direct
Hit dmoz.org/ Dog
Pile Excite Excite.it
Faroweb FindWhat
www.go.com/ Gogettem
Go to Google.it
highway61.com/
HotBot iAtlas
IGST Il
motore In Find InfoSeek
Italia-net.com infospace.com/
Italiamac Italian
Web Space Iwon Katalogo
Kataweb looksmart.com/
Lycos Magellan
Mamma.com Meta
Crawler metamonster.com/
Mp3box Msn
Msn.it National
Directory Netscape search Northernlight
Oingo
Savvy Search
searchengineguide.org/
www.search.com/ Search
the web Snap Spray
Virgilio Webcrawler
Yahoo
http://www.yahoo.com/Yep
Per la ricerca di persone o fornitori si può utilizzare Outlook Express, che
contiene una funzione di Trova contatti : cliccare
sull’icona Rubrica e poi sul pulsante Trova contatti, scegliere dall’elenco
a discesa un fornitore di ricerche e poi digitare il nome della persona, infine
cliccare su trova.
Oppure andare sulle pagine bianche (www.paginebianche.it
) o nel sito www.bigfoot.com
e impostare la ricerca di una persona possibilmente restringendo il campo ad una
città.
Infine per le ricerche commerciali andare su pagine
gialle (www.paginegialle.it
) o al sito www.aziende.it
oppure per gli USA al www.superpages.com
o www.smartpages.com
.
Editoriali Intelligence Corso di perfezionamento Recensioni Summaries in English Scienze dell'Investigazione Bibliografia Forum Strumenti Cineteca Mappamondo Ultime notizie