Editoriali Intelligence Corso di perfezionamento Recensioni Summaries in English Scienze dell'Investigazione Bibliografia Forum Strumenti Cineteca Mappamondo Ultime notizie

   Criminologia e motori di ricerca (Search Engine)

 di Francesco  Marinelli

Appunti per la lezione, riportati allo scopo di fornire preventivamente agli ascoltatori qualche idea di carattere assai generale sull'argomento e su come sarà affrontato.

 

Per illustrare compiutamente questo argomento dobbiamo innanzitutto parlare dell'informatica: la scienza che si occupa del trattamento automatico delle informazioni, che stanno alla base di tutte le attività umane. Automatizzarne la ricerca, la divulgazione e la fruizione moltiplica in modo esponenziale l’acculturazione e la formazione professionale.

Il progresso scientifico,  tecnologico e strutturale attuato dall'umanità negli ultimi due secoli ha portato ad accumulare un’enorme quantità di conoscenze ed alla necessità di scambiarle, comprarle, venderle, proporle, aggiornarle, eccetera e tutto ciò ha reso necessario la elaborazione di metodi che possono fare a meno, nel processo di scambio o di fruizione, dell'intervento diretto di coloro che forniscono le informazioni e di coloro che in qualche modo  le acquisiscono.

I metodi di scambio ormai sono innumerevoli, tanti quanti sono i mezzi di supporto, ma tra essi prevale l'implementazione comunemente riferita  col nome di Internet.In quest'ultimo caso il metodo di scambio richiede: un supporto virtuale, capace di immagazzinare enormi quantità di dati in uno spazio ristretto: il computerun sistema di trasmissione dei dati molto veloce e molto affidabile: la telematica; un sistema di accreditamento che stabilisce quali informazioni un determinato soggetto è disposto a fornire, a quali condizioni e a quale costo le fornisce, quali requisiti deve avere il soggetto che li acquisisce; un protocollo di trasmissione che stabilisce in quale formato avviene la trasmissione, a quale velocità, con quale sistema di protezione e con quale garanzia di riservatezza.

L'informatica è quindi il moderno sistema di comunicazione, trasmissione, studio, ricerca e commercio che permette a ciascuno, come un novello Giano Bifronte, ora di produrre e immagazzinare le sue informazioni su un computer e di metterle a disposizione di qualcun altro, ora di fruire del lavoro accumulato da un altro soggetto attivo del sistema.

Il computer viene fornito di un set di istruzioni che gli permette di verificare automaticamente se i soggetti che richiedono le informazione sono accreditati a riceverla, cioè sono affidabili ed in grado di fornire in cambio la contropartita richiesta, per esempio il pagamento; infatti è lo stesso computer che si occupa sia di verificare la solvibilità dell'acquirente che di riscuotere per accreditamento.

A questo punto si comprende bene quante sfaccettature ha il gioiello informatico, questo diamante che brilla all'inizio del III millennio, questa nuova pietra filosofale: tutto quello che abbiamo detto avviene in differita  dal processo di produzione, senza l'intervento del venditore, senza l'intervento dell'acquirente, senza che l'uno conosca l'altro, a qualsiasi ora del giorno e della notte, a distanza di migliaia di chilometri, quasi senza occupare spazio, quasi senza spese di trasporto, quasi senza rischi, senza perdite e smarrimenti, in assoluto automatismo. Lo scambio quindi è ormai gestito da un sistema robotico.

Anche la ricerca dei dati o degli acquisti può essere gestita da un sistema robotico di cui alcuni motori di ricerca, come vedremo in seguito, si servono per costruire ed aggiornare il proprio database, la propria banca dati di indirizzi internet e pagine del Web. In altre parole i motori di ricerca in questione operano attraverso l’invio di uno spider (il cosiddetto “ragnetto”, in quanto si muove virtualmente sulle maglie della grande Rete o Ragnatela che dir si voglia, altrimenti anche detto crawler dagli americani, o infine worm  o Web robot), che analizza autonomamente e velocissimamente migliaia di siti web alla ricerca del maggior numero possibile di documenti da catalogare. Ma la catalogazione è opera di un ulteriore programma, detto indexer, che indicizza e classifica i documenti in base ad un algoritmo proprietario ed alle parole in esso contenute. Questi due software riescono ad aggiornare automaticamente le banche dati visitando milioni di siti Web al giorno  inserendo le nuove pagine  ed aggiornando le informazioni su quelle già censite.

Questo è ciò che si intende per trattamento automatico dell'informazione.

La trasmissione di informazioni attuata tramite computer e particolari periferiche è detta telematica. È ormai superato il modello di un centro di elaborazione dati come centro unico da cui attingere informazioni e si sta diffondendo sempre più una realtà informatica capillare in cui il computer rappresenta lo strumento di lavoro a tutti i livelli.  Il vocabolo  rete  è usato per indicare strutture nelle quali sono presenti più elementi capaci di elaborazioni autonome ma che possono raggiungere una complessità molto elevata.  Elementi costitutivi di una rete sono:

1. I nodi

2. I collegamenti

I nodi sono rappresentati da singoli computer, l'insieme di più nodi costituisce una rete. I collegamenti rappresentano il mezzo di connessione tra i singoli nodi; essi possono essere costituiti da cavi (usati per la connessione all'interno di uno stesso edificio), da linee telefoniche o onde radio. Esistono diversi tipi di rete.

Un’altra caratteristica delle reti, che merita di essere però solo accennata è rappresentata dal protocollo di rete cioè da quell'insieme di regole relative al modo in cui si accede e si  trasmettono i dati.

Per Internet il protocollo è chiamato TCP/IP ( Trasmission Control Protocol / Internet Protocol ).

Internet è la più grande rete di calcolatori del mondo. Anzi più precisamente è un'immensa rete di reti di computer connessi attraverso le linee telefoniche e apparecchi chiamati modem capaci di trasformare le informazioni digitali in impulsi trasmissibili attraverso il telefono. Se qualche filosofia o qualche massima potesse definire Internet, questa potrebbe essere: “Se hai informazioni interessanti, condividile con gli altri”. Questa  filosofia comunitaria ha riscosso molto successo tra i giovani unendoli in una sorta di villaggio globale anche se virtuale; a minacciare questo sogno di utopia sembra sia caduta, come un fulmine a cel sereno, la nuova legge sull'editoria, entrata in vigore il 4 aprile 2001, essendo stata pubblicata nella gazzetta ufficiale numero 67 del 21 marzo 2001 ; si tratta della legge numero 62 del  7 marzo 2001 " nuove norme sull'editoria e sui prodotti editoriali e modifiche della legge 5 agosto 1981, numero 416”.

La legge considera prodotto editoriale quel prodotto, sia realizzato su supporto cartaceo e sia su supporto informatico, destinato comunque alla diffusione di informazioni presso il pubblico con ogni mezzo, ma con caratteristiche di periodicità; sembrerebbero quindi esclusi quei siti personali, magari anche divulgativi, ma che non vengono costantemente aggiornati con le cosiddette news, che sono di taglio prettamente giornalistico e quindi presupporrebbero perlomeno una ipotesi editoriale. Infatti il sottosegretario alla presidenza del consiglio con delega per l’editoria, Vannino Chiti, afferma che la nuova legge sull'editoria non deve preoccupare chi ha un sito: “Si deve registrare solo chi chiede contributi; la norma non censura, offre nuove possibilità”; si è comunque in attesa di ulteriori chiarimenti.

Ritornando ad Internet bisogna dire che esso storicamente passa attraverso tre periodi: militare, universitario e commerciale. Da Eniac, il primo vero calcolatore, a Internet la storia dell’informatica  ha tratto impulso da progetti militari più ancora che da strategie commerciali. La storia delle reti informatiche può iniziare negli anni 60 quando il mondo viveva sotto la minaccia della guerra fredda tra USA ed URSS; in quel periodo nacque l'ARPA (Advanced Research Projects Agency, un Dipartimento  militare americano) il cui scopo era quello di pianificare una rete di telecomunicazioni, chiamata per l’appunto Arpanet (1957), in grado di resistere al caos nucleare in caso di guerra: le informazioni in rete viaggiano in cosiddetti pacchetti informativi, che si  ricollegano tra di loro una volta giunti a destinazione; anche se la guerra danneggiasse una grande linea telefonica tra due metropoli, questi pacchetti informativi o di ordini troverebbero comunque innumerevoli altre linee per giungere a destinazione ed ivi ricomposti in un discorso compiuto. La nascita di Internet avvenne nel 1970 quando l’ARPA sviluppò un sistema di collegamento tra quattro computer dislocati in altrettante sedi universitarie degli USA, progettato in modo che se un computer fosse venuto a trovarsi fuori uso le informazioni potessero essere trasferite da uno qualsiasi degli altri tre (non esisteva un computer in posizione dominante come tuttora non esiste nella Rete Internet, non esiste infatti una Internet S.P.A. con sede in qualche luogo). Nel 1974  fu definito quale dovesse essere il modo di trasmettere le informazione tra due computer e nacquero gli IP (Internet Protocol) e i  TCP (Trasmission Control Protocol).  A questo punto ci chiediamo cos’è il protocollo TCP/IP?

I  postulati fondamentali dell’IP sono:

1. Ogni calcolatore presente su Internet è individuato da un nome (hostname) cui corrisponde un indirizzo chiamato IP adress  rappresentato da un insieme di quattro numeri (compresi tra 0 e 255) separati da un punto (un indirizzo potrebbe essere 125.32.45.101)

2.  Le informazioni che devono essere trasferite sono suddivise in più parti

3. Ogni porzione di informazione  è contenuta in una specie di busta o capsula IP, in termini figurati, che contiene l'indirizzo cui deve arrivare e quello di chi la manda per cui, anche se essa si mescola con milioni di altre è sempre possibile sapere  dove deve andare e da dove viene

L’hostename è composto da una parte che identifica il computer e da un altra chiamata dominio che identifica sia il paese e sia l'organizzazione (mnvax.irfmn.mnegri.it  dove  mnvax = nome del computer   e   irfmn.mnegri.it  = dominio).

  Accanto all’IP  è stato elaborato un altro protocollo chiamato TCP (Trasmission Control Protocol) e poiché essi funzionano insieme il protocollo di trasmissione di Internet si chiama  TCP/IP.  In sostanza il TCP permette un miglior controllo delle informazioni in quanto:

1. Aggiunge il numero di byte di cui è composta la parte di informazione che si invia

2. Identifica di quante parti è composta l'intera informazione

3. Indica dove si inserisce una determinata parte di informazione nell'intera informazione

Quindi se l'informazione arriva sbagliata o incompleta TCP è in grado di rilevarlo e chiedere al computer che la invia di rispedire la parte che manca.

Questa particolare attenzione alla sicurezza dei dati ed alla loro completezza ed autenticità è spiegata appunto dalle esigenze militari a cui ottemperava il protocollo di comunicazione.

Per accedere ad Internet occorre:

1. Un computer di qualsiasi tipo, ma ormai, anche a livello dei personal computer la potenza è di tutto riguardo con le varie generazioni del Pentium, dalla prima alla quarta

2. Un modem ( abbreviazione di modulatore/demodulatore ), dispositivo che permette di trasferire le informazioni tramite le linee telefoniche

3. Una linea telefonica

4. Un accesso ad Internet fornito da un provider, cioè da una società proprietaria di un computer collegato in maniera diretta e permanente ad Internet e che dietro pagamento di un affitto, un canone, mette disposizione sia una parte del suo computer e sia l'accesso ai servizi della rete

5. Un browser cioè un software che permette il collegamento. I due attualmente più usati sono Netscape ed Explorer, seguiti, ma a distanza, da Opera.

 

Internet offre i seguenti servizi :

1.     Posta elettronica (e-mail: electronic mail )

E’ possibile cioè  spedire messaggi, fax e lettere in pochi secondi, in tutto il mondo ed al costo di una telefonata locale; è possibile mandare lo stesso messaggio a centinaia di persone e rispondere automaticamente ai messaggi mediante testi programmati; può essere utilizzata per inviare anche immagini e suoni e qualsiasi file in allegato, sia eseguibile cioè .exe e sia  in formato multimediale cioè ipertesto; ciò è possibile fino a diversi MB, a seconda del contratto di abbonamento con cui si accede ad Internet, altrimenti bisogna alleggerire l’allegato zippandolo. È anche possibile codificare le informazioni per tutelare la privacy attraverso dei programmi chiamati criptatori ( per esempio PGP, forse il miglior programma per criptare msg, immagini, documenti ed altro ancora; massima sicurezza con il sistema della doppia chiave, pubblica e privata ) che rendono illeggibili le informazioni tranne che per coloro che possiedono un software in grado di decriptarli.

2. Partecipazione a dibattiti tramite iscrizione alle cosiddette Mailing List o Listserv.

Sono costituite da più individui interessati ad un tema particolare i cui messaggi sono trasmessi a tutti gli iscritti. Ciascuno, osservando determinate regole che sono poi quelle della convivenza civile (Netiquette, il Galateo che vige in Rete), può esprimere il proprio pensiero o le proprie opinioni: dal contributo di tutti si crea il dibattito.

3. Newsgroup

Sono dei tabelloni di annunci in cui ciascuno può esprimere il proprio parere, differiscono dalle Mailing List perché non c'è la trasmissione automatica dei messaggi ma ciascuno deve andare a cercare ciò che lo interessa.

4. Importare un file  da un qualsiasi computer è possibile grazie ad un protocollo di trasmissione dei file chiamato FTP

5. Uso di altri computer a distanza

Mediante lo strumento Telnet è possibile collegarsi con un computer remoto e utilizzarlo come se si trovasse a casa nostra

6. Ricerca di informazioni tramite un menù

Gopher è un sistema di ricerca di informazioni tramite un menù. Esso permette di risolvere uno dei maggiori problemi di Internet: sapere dove si trova l'informazione per potervi accedere. Mediante Gopher, infatti, è possibile collegarsi ad un server generale di informazioni ed avanzare passo passo, mediante menù a tendina, fino ad arrivare  all'informazione che interessa.

7. Creazione di gruppi di lavoro interattivi.

Mediante l'Internet Relay Chat (IRC) è possibile organizzare riunioni tra diverse persone, anche se sparse in diverse parti del mondo per lavorare contemporaneamente su un documento.

Infine la vera e propria grande rete interattiva del sapere ossia quella fitta  trama elettronica che ci permette, come cibernauti naviganti nello scibile umano contenuto nel Web, di vivere le nostre notturne Odissee.

8. Il Web browsing ovvero l’accesso ad informazioni multimediali contenute nel World Wide Web ( comunemente detto Web ossia Rete )  che costituisce la Raccolta di siti in Internet

La nascita del World Wide Web (WWW.) ha permesso di trasmettere documenti multimediali con testi, links (cioè rimandi ad altre pagine), immagini fisse o animate, suoni, musica e video. Le caratteristiche fondamentali del WWW sono infatti due:

la possibilità di trasmettere documenti multimediali e la possibilità di accedere ad altre fonti di informazioni in modo interattivo cioè selezionando collegamenti ipertestuali nel documento. I collegamenti ipertestuali o links solo frammenti di testo o di immagini del documento che, qualora siano selezionati con il mouse, attivano una nuova ricerca di informazione che ci porta in un altro documento  collegato con il primo. Questa caratteristica ci permette di fare un percorso magari non rettilineo e prevedibile, ma più simile alla fisiologia del pensiero umano cioè con un iter associativo tra idee subentranti l’una all’altra: perciò in questo modo possiamo partire con una ricerca per esempio storica e ritrovarci a leggere un racconto o una poesia. Il World Widw Web è una vastissima risorsa  di informazioni distribuita in tutto il mondo  su centinaia di migliaia di computer detti server Web; essi contengono i siti web, costituiti da pagina - da una sola a molte migliaia – collegate elettronicamente una all’altra. Il numero totale di pagine  oggi disponibili sul web è dell’ordine dei miliardi. Tali pagine costituiscono nel loro insieme un archivio di informazioni cui si può accedere da qualsiasi personal computer collegato ad Internet.

La nascita del WWW ha segnato una vera e propria rivoluzione e l'inizio di una nuova era in Internet tenuto conto che il suo uso ha aperto nuove prospettive all'utente offrendo una enorme funzionalità e un ambiente estremamente intuitivo. Il suo funzionamento si basa su due concetti fondamentali:

1.     Il nostro computer non riceve direttamente documenti ma l'informazione minima per ricostruirlo;

2.      La comunicazione non è continua:  il nostro programma raccoglie il file di testo in formato HTML (Hypertest Mark Language), un linguaggio di programmazione, nello specifico possiamo dire di formattazione,  che permette di condensare tutte le informazione relative al documento, alle immagini e alla loro posizione in file di testo con estensione HTML.

Le caratteristiche fondamentali del WWW sono:

1.     Capacità multimediali, cioè i documenti acquisiti contengono elementi multimediali. Facendo un ampio uso di suoni, filmati e grafica  acquisiscono aspetti particolarmente accattivanti e piacevoli.

2.     Possibilità di accesso a diverse risorse della rete da una stessa piattaforma: si può infatti accedere ad altre risorse oltre a quelle pensate espressamente per il Web come FTP, Gopher, Veronica, Telnet, Waiss.

3.     Uso di ipertesto:  in una videata di WWW ci sono zone di testo di colore differente o sottolineate che rappresenta altrettante vie di accesso ad altre parti di documento o altri documenti la cui consultazione può fornire informazioni aggiuntive e finalmente  esaustive.

Analizziamo ancora un attimo la nozione di HTLM cioè di Hipertest Markup Language che in effetti è la chiave di funzionamento del WWW, infatti questo linguaggio di programmazione aggiunge all'informazione contenuta nel documento anche il modo in cui essa viene rappresentata arricchendola di immagini, suoni e video. Permette di stabilire i cosiddetti Hyperlink cioè parti del testo differenziate, cliccando le quali si raggiungono altri documenti che possono provarsi anche su computer situati a migliaia di chilometri dal primo.

Veniamo ora finalmente ai  motori di ricerca  che rappresentano l'altra grande rivoluzione nel mondo di internet:  a fianco all’Iperlink, sono l’altro modo di viaggiare nel mondo virtuale seguendo il filo tematico della propria ricerca. Possiamo quindi definire il motore di ricerca come un programma che ricerca documenti in relazione a determinate parole chiave (o chiavi di ricerca ) che possiamo definire tematiche (decise ed inserite da chi opera la ricerca) e che offre come risultato finale un elenco di elementi associati in quanto attinenti a quelle stesse parole chiave; questi elementi sono costituiti da rimandi (indirizzi sensibili cioè cliccabili) a pagine del web in qualche modo attinenti al tema e da un brevissimo sommario.

L'idea di creare motori di ricerca in grado di aiutare la navigazione di Internet nacque tra il 1993  ed il 1994, agli albori del fenomeno World Wide Web e proprio all'inizio del "grande caos", la  crescita enorme e senza regole delle informazioni su Internet.

I motori di ricerca propriamente detti sono quelli automatici (Crawlers).

Tra questi si possono prima di tutto distinguere motori online e offline; ambedue possono effettuare la ricerca solo nel sito in cui si affaccia il modulo di ricerca, oppure in tutto il Web ( in realtà le opzioni prevedono anche la scelta di soli siti di lingua per esempio, “italiana”, di sole immagini o di sola musica, ecc.).

Per utilizzare i  motori di ricerca online è sufficiente inserire la parola che si sta cercando in corrispondenza del motore desiderato e premere il tasto Cerca.

I motori di ricerca offline, anche detti programmi o agenti di ricerca autonomi o tool di ricerca, sono programmi installati nel proprio computer ( e non quindi in rete ) ed utilizzati come strumento di ricerca principale, se non unico;  i principali funzionano per molti aspetti come motori di metaricerca e sono:

Copernic 2000 : i termini cercati ( su diciotto motori di ricerca online ) sono evidenziati nell’elenco delle corrispondenze trovate. Le ricerche precedenti vengono all’occorrenza salvate nel frame superiore. Questo programma  consente anche di scaricare documenti o immagini da sfogliare poi offline, risparmiando sulla bolletta telefonica.

ForeFront : nel campo Keywords, si dovrà inserire la parola o la frase da ricercare nei motori di ricerca precedentemente scelti selezionando il folder Search Engine (più di 20 motori di ricerca).
WebFerret : programma anch’esso in grado di interrogare più di 20 motori di ricerca. Un modo rapido ed efficace per trovare in rete quasi tutto ciò che serve.

Ricerca Perfetta

UnMozify :  per navigate off-line all'interno della cache del vostro browser recuperando immagini e collegamenti; si trovano versioni sia per Netscape che per  Explorer .

Una esecuzione di una ricerca semplice è anche possibile farla digitando la parola chiave nella barra di indirizzo di Internet Explorer dopo vai o trova o ?  e poi premendo invio;  oppure cliccando sull’icona “Cerca” di Internet Explorer si apre un Frame, a sinistra dello schermo, in cui si può impostare la ricerca.

Si potrebbero considerare un ibrido, tra i motori offline ed online, i  “programmi di metaricerche” residenti online (metacrawlers), che consentono di interrogare simultaneamente numerosi fornitori di ricerche e offrono sia motori di ricerca sia directory Web;  per esempio il motore Metacrawler (www.metacrawler.com )  consulta automaticamente  12  motori di ricerca e directory Web. I fornitori di metaricerche solitamente non possiedono né producono propri database di siti ed URL. Forniscono il gateway (la porta di accesso) per ricerche simultanee da eseguire sui servizi con cui trattano e da salvare poi nel nostro computer  in una cartella di ricerca. Altro metacrawler è Dogpile (www.dogpile.com ) che offre una grande varietà di fonti di informazione.

Il primo motore di ricerca online in ordine di comparsa è Yahoo il quale interroga a cadenze programmate i siti Web e cataloga le informazioni per argomento inserendole nella  sua Banca Dati ( database ). Per effettuare le ricerche basta inserire la stringa di testo in un apposita finestra ed inviare la richiesta al database. Ci viene rimandata una lista dei documenti trovati e dei siti dai quali sono stati estratti in ordine di concordanza (concordanza che ci viene quantificata in “percentuale di concordanza”). Si può restringere la ricerca introducendo gli operatori and e or (due delle quattro espressioni booleane ossia espressioni logiche di cui diremo più dettagliatamente in seguito) o entrando nelle aree tematiche di Yahoo. Per spiegare l'utilizzo degli operatori booleani, AND OR, ci serviremo di un esempio molto semplice:……………………………………………………..                      
volendo raccogliere tutte le informazioni presenti in Rete sulla coppia di attori-ballerini formata da Gene Kelly e Fred Astaire dovremmo settare il parametro AND, se invece l'obiettivo della nostra ricerca fossero le  informazioni su l'una o l'altra persona dovremmo settare il parametro OR.
Mentre nel primo caso (AND ,  operatore di intersezione logica) ci verrebbero restituiti gli indirizzi dei siti in cui sono citati entrambi gli attori, nel secondo caso (OR ,  operatore di unione logica) sarebbe sufficiente che ne fosse citato uno solo.

Gli altri operatori o modificatori booleani  sono anch’essi di uso frequente , ma solo come opzioni nelle ricerche avanzate, appunto per modificarle secondo le esigenze, e sono NOT (no, per escludere; operatore di esclusione logica) e  NEAR (vicino; operatore di correlazione), poi le parentesi  ( ) che permettono di raggruppare le parole tra loro; con questi operatori logici si possono impostare richieste di ricerca anche molto complesse come un’espressione del tipo:

(criminologia  OR criminalistica OR vittimologia) AND NOT (sentenze OR diritto OR penale), con la quale si richiede un documento che contenga le parole criminologia, criminalistica e vittimologia ed invece non contenga sentenze, diritto e penale.

ALTRE OPZIONI DI RICERCA      

Molti motori di ricerca consentono di utilizzare l'asterisco come carattere jolly in una ricerca. Questo è utile se il termine cercato prevede varianti nell'ortografia.

Per esempio, è possibile digitare nic*el*   per comprendere le due ortografie nickel e "nichel" e per includere le pagine dedicate ai termini derivati quali nichelio, nichelatura, nichelcromo.

SIMBOLI MATEMATICI NEI MOTORI DI RICERCA

I simboli matematici sono il modo più semplice e più efficace per ampliare o restringere la ricerca. Sono accettati in quasi tutti i motori di ricerca nel Web.

I tre principali modificatori utilizzabili per le ricerche sono:

+  (segno più)

-  (segno meno)

"..." (virgolette doppie che circoscrivono il termine da cercare; esse servono

per circoscrivere le parole che devono essere raggruppate)

SEGNO +

II segno + serve per aggiungere all'interrogazione altri termini da cercare.

Il segno + deve essere collocato subito prima del termine aggiunto (senza lasciare spazi).  Questo semplice espediente riduce il numero di corrispondenze che verranno trovate, con tutte le più pertinenti all'inizio.

SEGNO -

II segno - serve per escludere parole dalla ricerca, e anche in questo modo si restringe la ricerca.

Torniamo ora a parlare di Yahoo che nacque da un'idea di due studenti americani, ora plurimiliardari, che volevano creare uno strumento che stupisse le persone facendo loro esclamare "Yahoo, l'ho trovato"; un'onomatopea, più che un nome, che pare abbia colpito la fantasia di molti vista l'incredibile mole di contatti (circa 160 milioni di visite ogni giorno, in tutto il Mondo) che Yahoo registra, sicché potrebbe ormai definirsi “il bollettino del villaggio globale”.

Yaoo, in effetti il più popolare sito web in assoluto, presenta oltre alla maschera di ricerca con il modulo in cui inserire la parola chiave, anche una directory dove sono raggruppati in macro-categorie tipologiche, tutti i siti indicizzati dal crawler ; da queste macro-categorie si può discendere, ad albero verso settori sempre più particolari ( come nel cosiddetto arbor scientiae degli Enciclopedisti ).  Questa omogeneità espressa in categorie si inizia a formare già nelle raccolte effettuate dagli stessi spiders che trovano le pagine Web seguendo i collegamenti all'interno dei documenti, quindi i collegamenti all'interno dei documenti collegati, e così via; è ovvio che la maggior parte di questi collegamenti abbiano una qualche omogeneità con le pagine nelle quali sono ospitati come links. Con questa metodica agli  spiders  non occorre molto tempo per accumulare una raccolta di molte migliaia di URL.

I diversi spiders raccolgono però tipi diversi di dati dalle pagine  Web e da altre fonti di informazioni secondo la loro intrinseca programmazione. Il minimo comune denominatore di queste programmazioni è però la raccolta di determinate parole  inserite dagli autori dei siti, nel linguaggio html (il linguaggio descrittore delle pagine Web), tra i  tag :   tag meta description (<meta description>) in cui il webmaster descrive brevemente il contenuto del sito e tag title (<title>) in cui riporta il titolo del sito stesso. Naturalmente i tag servono soprattutto a descrivere come deve essere visualizzata la pagina dal browser.

 

Altri grandi motori di ricerca sono:

Altavista    ( www.altavista.diaital.com ) ,    Excite    ( www.excite.com ), Infoseek ( www.infoseek.com ),  Lycos ( www.lycos.com ), Ask Jeeves (www.askjeeves.com ), Google ( www.google.com ), HotBot (www.hotbot.com ), Netscape Search (http://search.netscape.com )   .

Altavista ( www.altavista.diaital.com ) permette di effettuare una "Power Search" che consente di utilizzare operatori come and, or, not, near. E' considerato lo strumento ideale per ricercare più argomenti tra loro correlati; contrariamente ad altri motori manca il "ranking" cioè l'indicazione di quanto il contenuto dei siti sia pertinente alla richiesta effettuata.

Altavista è il motore di ricerca della Digital. La Digital è una società americana che costruisce computer. La sua idea fu abbastanza semplice: abbiamo le macchine, la potenza di calcolo, perché non fare un motore di ricerca in grado di catalogare tutto, ma proprio tutto ciò che è stato pubblicato su Internet?  Idea entusiasmante, grande iniziativa, che ha fatto sì che Altavista sia ora il motore di ricerca più potente di Internet e la cui banca dati censisce oltre 250 milioni di pagine Web; un numero enorme di pagine, considerando che per ogni pagina Web censita, i motori di ricerca memorizzano gran parte del testo in essa contenuto, in modo tale che, ad ogni ricerca dell’utente, viene presentata una lista di tutte le pagine dove figura la o le parole ricercate.

 Lycos ( www.lvcos.com ) non ricostruisce periodicamente il suo database ma lo aggiorna in modo cumulativo, accodando via via voci in archivio. Le interrogazioni si possono effettuare usando solo due operatori and e or, però si può raggiungere una grande accuratezza specificando il tipo di ricerca: loose (slegato), fair (abbastanza), good (buono), close (in senso stretto, letterale), strong (massima concordanza).

Ask Jeeves è uno dei numerosi motori di ricerca Internet che supportano le interrogazioni in linguaggio naturale e risponde alle domande restituendo un elenco di corrispondenze organizzate in menu a discesa di siti correlati.

Google  dietro un interfaccia semplice e stringata, ha un potente motore di ricerca che ha come sua caratteristica quella di analizzare la pertinenza di una pagina osservando i suoi collegamenti.

HotBot che nato nel 1996 come motore di ricerca autonomo, è poi stato acquisito da Lycos nel1998; presenta numerose opzioni di ricerca avanzate ed ha nell’indice oltre 110 milioni di documenti; costruisce le ricerche in linguaggio naturale.

Netscape Search è un motore basato su indice e costruito da redattori umani.

Poco pubblicizzato, ma estremamente efficiente  Northern Light Search ( www.nlsearch.com ) tanto da essere ritenuto il più esteso della rete e quello che permette di raggiungere i risultati migliori.

Tutti i motori di ricerca possono lavorare su due archivi: l'archivio  Web composto dalle pagine pubblicate su Internet e l'archivio Usanet generato dai messaggi che transitano nei newsgroup; questa duplice possibilità è utilissima perché allarga il campo di ricerca dei motori.

In Italia abbiamo a disposizione due ottimi motori di ricerca:

Arianna ( www.arianna.it o http://arianna.iol.it ) e Virgilio ( www.virgilio.it ) che forti delle esperienze USA hanno adottato una forma di ricerca mista: libera e per aree definite.

Arianna è il motore prescelto da Italia On Line ; nella ricerca semplice della home page non è possibile adoperare operatori logici e se vengono inserite più parole viene automaticamente eseguita una ricerca di tipo AND; per la ricerca avanzata c’è l’opzione  a destra che apre una pagina con cinque opzioni per restringere la ricerca. Infine Arianna ospita un link alla comunità italiana telematica Digiland.

Virgilio quasi certamente è il più popolare motore di ricerca, più precisamente portale, italiano, presentando molti servizi utili. Nella ricerca semplice per parola chiave inserita nella casella presente nel frame superiore della home page non sono previsti operatori logici o qualificatori, per cui anche per Virgilio ci si può attendere solo una ricerca di tipo AND. Per ricerche avanzate si deve cliccare , sotto la casella di ricerca, sulla frase “Tutte le ricerche” : apparirà allora il modulo per la ricerca avanzata ma in forma essenziale; cliccando poi sulla frase [ricerca completa] comparirà il modulo in forma espansa; qui è possibile orientare la ricerca verso il tipo AND ( Tutte le parole ) o verso il tipo OR ( Almeno una parola ).Alla realizzazione delle varie sezioni di Virgilio collabora una équipe di giornalisti-navigatori ( un cosiddetto staff di surfers o crawler umano ) che setaccia quotidianamente la Rete per trovare il meglio da offrire agli utenti italiani, ma il vero cuore di Virgilio sono proprio gli utenti, che con le loro segnalazioni arricchiscono ogni giorno di più il catalogo di siti italiani, che oggi sembrerebbe  il più ricco che si possa trovare sul Web.

Altro motore italiano è Il Trovatore ( www.iltrovatore.it ) che presenta, subito sotto il titolo, la casella di inserimento, seguita dal pulsante trova  e da un menù a tendina per la scelta della condizione di ricerca; sotto figurano una serie di pulsanti radio che identificano i vari cataloghi di ricerca.

Il pulsante  +Opzioni attiva il pannello di ricerca avanzata dove, tra le tante opzioni, in modo peculiare si può effettuare la ricerca ristretta in ambienti Gopher ( come il motore Veronica ) cioè in ambienti di solo testo, sorti nel 1980 all’interno di reti universitarie ma ancora attivi.

Il secondo menù a tendina permette di restringere la ricerca ad un singolo tipo di file. Inoltre questo motore offre un cerca Domini ed un trovascanner  per cercare informazioni in circa 30.000 canali IRC (Internet Relay Chat) cioè nelle chat-line.

Ancora italiano è Katalogo ( www.katalogo.it ) ,  il motore-portale del gruppo Repubblica-Espresso; anch’esso presenta alcuni menù a tendina, ed alla fine della riga di ricerca mostra l’opzione ricerca avanzata che è abbastanza raffinata.

C’è poi  SuperEva  ( www.supereva.it ) ,  che è il motore di ricerca di Dada.it ed ha un modulo simile a quello di Arianna, con l’opzione “Ricerca avanzata” sopra la casella di ricerca semplice. Comunque SuperEva privilegia i Repertori e la sua Comunità telematica.

Infine ricordiamo Italian Web Space (http://italianwebspace.com/ )  che è un repertorio di siti italiani, e Shinyseek  (www.shinyseek.it ) che, nonostante il nome, è un motore italiano di ricerca per parole chiave o per categoria.

Esistono poi motori di ricerca "dedicati" (motori specifici) solo alle ricerche settoriali, specialistiche, per esempio in campo medico c’è Medline  ( www.nlm.nih.gov/nlhome.html ), una enorme raccolta di abstracts con i rispettivi riferimenti bibliografici.

Rappresenta lo strumento sicuramente più usato in medicina per effettuare ricerche bibliografiche, esso raccoglie infatti più di  18 milioni di referenze bibliografiche che si riferiscono agli articoli pubblicati  su oltre 3000 riviste dal 1966.

E' stato creato negli anni '70 dalla NLM (National Library of Medicine) e dal NIH (National Institute of Health) di Bethesda che ne curano anche l'aggiornamento.

Attualmente il suo uso è soggetto al pagamento di una quota di iscrizione, anche se esiste la possibilità di consultarlo in maniera gratuita.

Alcuni sistemi di ricerca sono completamente gratuiti altri richiedono una registrazione con il proprio nome e cognome dopo la quale viene fornita una password che consente l'accesso gratuito. Il sistema che offre le migliori prestazioni pare essere PubMed  per la celerità di aggiornamento, per l'interfaccia utente, per la selezione e stampa degli abstracts. In generale il sistema Medline non consente di ottenere il testo completo degli articoli gratuitamente ma solo dietro pagamento di una cifra che si aggira intorno ai 20 dollari.

 

Tecniche di ricerca bibliografica

Esistono due diverse modalità di effettuare una ricerca:

1. Vocabolario controllato

Gli organismi che producono gli archivi bibliografici creano elenchi di termini chiamati “parole chiave” rappresentativi degli argomenti trattati dagli autori negli articoli. Tali elenchi chiamati anche “thesaurus” rappresentano uno strumento insostituibile per ottenere i migliori risultati

2. Testo libero

Si adoperano alcune parole che verranno ricercate in ogni campo del  record bibliografico,  per cui si otterranno risultati solo se l'autore avrà espresso il contenuto con le stesse parole adoperate per la ricerca.

 

Come effettuare una ricerca ?

·       Digitare nel riquadro della Location l'indirizzo ad es .

Http://www.ncbi.nlm.nih.gov/pubMed/Medline.html 

·       Immettere nella finestra di ricerca uno o più termini separati da spazio

·       Premere Invio o il bottone Search

·       Comparirà un sommario indicante il numero di documenti trovati, cliccando su di esso si accede ad una lista dalla quale è possibile selezionare il documento cercato

·       Naturalmente il numero di documenti trovati sarà tanto minore quanto più indicazioni di ricerca avremo immesse

 

Altri motori di ricerca specializzati sono i seguenti:

Mailory: ricerca di indirizzi di email

DejaNews: ricerca di newsgroup
Bigfoot: ricerca di indirizzi di email
Whoopie!: ricerche di file audio e video
Discovery Online: ricerche sulle nuove scoperte (natura, Tecnologia,
Scienza ecc.)
AstroWeb: ricerche sull'Astronomia
HealthAtoZ: ricerche su Salute e Medicina
Findlaw: leggi statunitensi ed internazionali
Minerva: leggi italiane
Epicurious: ricerca in un archivio di ricette internazionali
Logos: il Vocabolario Multilingue
Games Domain: ricerche e informazioni sui Giochi
¡Olé!: ricerche specializzate sulla Spagna
Maple Square - Canadàs Internet Directory: ricerche specializzate sul Canada


Naturalmente ce ne sono una miriade di altri, tanto più che attualmente il significato di motore di ricerca va sempre più confondendosi con quello di Portale, anche perché l’obiettivo dell’uno e dell’altro è lo stesso  e cioè diventare il punto di partenza di ogni navigazione. Sta qui il segreto di ogni possibile successo commerciale o culturale. Infatti oggi tutti i motori di ricerca storici sono anche portali, e tutti i portali contengono anche un motore di ricerca ed un catalogo sistematico di risorse ossia un indice Web.      
Riassumendo quindi i motori di ricerca si possono così classificare:

i Motori automatici (Crawlers)
gli Indici (Directories o Index)
i Metamotori (Metacrawlers)
i Motori specifici o vortal o verticali
i Portali o motori generalisti od orizzontali

Ma come già detto in precedenza questa suddivisione serve solo per ordinare le nostre idee, la realtà del Web è invece sempre più ibrida e il sistema che si va sempre più affermando è quello del Portale, anzi della federazione tra portali in quanto si sta assistendo alla tendenza alle fusioni, come d’altronde in tutti gli altri ambiti dell’Industria e del Commercio.

La federazione tra portali in realtà supera anche la contrapposizione tra portali orizzontali ossia generalisti, che parlano di un po' di tutto, e portali verticali, i cosiddetti vortal, che hanno comunque funzioni e struttura molto simile a quelli orizzontali con un’unica differenza sostanziale: anziché essere aperti su tutto lo scibile, focalizzano l'offerta su settori specifici inseguendo i territori più disparati e quindi più esclusivi e liberi. Per esempio per interessarci e fare interessare  altri alla criminologia e per offrire servizi utili e attinenti dovremmo realizzare  un portale di tipo vortal cioè verticale nel sempre più lungo elenco delle specialità del sapere, che cioè non si allarghi troppo nelle competenze per non andare fuori tema; ma alla stessa criminologia, per contro, afferiscono d’obbligo tante altre materie:

antropologia criminale,

psicologia criminale,

sociologia criminale,

psichiatria forense,

diritto penale,

medicina legale,

criminalistica,

vittimologia

che diciamo sono le materie principali, ma in effetti gli interessano tutte le scienze forensi ed anche la filosofia del diritto, l'etica e la bioetica, la politica, in definitiva tutte le scienze dell'uomo in quanto gli studi criminologici riguardano tutte le condizioni in cui e per cui un uomo entra in conflitto con la società.

E d’altronde una eccessiva specificità andrebbe a ridurre il numero dei potenziali visitatori.

Per quanto riguarda la criminologia riportiamo i seguenti indirizzi da cui poi ci si può allargare nella ricerca e nella formazione:

www.criminologie.net

http://members.xoom.it/criminologia    

www.detcrime.com  

www.criminologia.it

www.criminal.it  

www.criminologia.org

www.unife.it/crimen      

www.poliziaedemocrazia.it  

Problemi di Psicologia e Criminologia

Rassegna Italiana di Criminologia

 

Riportiamo invece qui di seguito i più usati motori generalisti in ordine alfabetico:

 

About.com Ah-ha.com All the web Altavista Altavista.it Aol Arianna AskJeeves.com Azinet Britannica Buone Idee Cerca.com Cheopelive.com Direct Hit dmoz.org/ Dog Pile Excite Excite.it Faroweb FindWhat www.go.com/ Gogettem Go to Google.it highway61.com/
HotBot iAtlas IGST Il motore In Find InfoSeek Italia-net.com infospace.com/ Italiamac Italian Web Space Iwon Katalogo Kataweb looksmart.com/ Lycos Magellan Mamma.com Meta Crawler metamonster.com/ Mp3box Msn Msn.it National Directory Netscape search Northernlight Oingo Savvy Search searchengineguide.org/ www.search.com/ Search the web Snap Spray Virgilio Webcrawler Yahoo http://www.yahoo.com/Yep


Per la ricerca di persone o fornitori si può utilizzare Outlook Express, che contiene una funzione di Trova contatti :  cliccare sull’icona Rubrica e poi sul pulsante Trova contatti, scegliere dall’elenco a discesa un fornitore di ricerche e poi digitare il nome della persona, infine cliccare su trova.

Oppure andare sulle pagine bianche (www.paginebianche.it ) o nel sito  www.bigfoot.com e impostare la ricerca di una persona possibilmente restringendo il campo ad una città.

Infine per le ricerche commerciali andare su pagine gialle (www.paginegialle.it ) o al sito www.aziende.it oppure per gli USA al www.superpages.com  o  www.smartpages.com .

Editoriali Intelligence Corso di perfezionamento Recensioni Summaries in English Scienze dell'Investigazione Bibliografia Forum Strumenti Cineteca Mappamondo Ultime notizie