Un motore di ricerca, come Google o Bing, è un grande sistema
informatico che esplora metodicamente e automaticamente tutte le parti
pubblicamente accessibili di Internet e ne cataloga e archivia il contenuto.
Questo catalogo e questo archivio vengono aggiornati costantemente e sono
consultabili dagli utenti di Internet visitando il sito del motore di
ricerca (per esempio Google.com).
Spider e algoritmi
Ogni motore di ricerca è composto da due elementi fondamentali:
-
il software “esploratore”, denominato spider (“ragno”, dato che
esplora il Web, che in inglese significa “ragnatela”); -
l’algoritmo, che decide i criteri d’importanza con i quali vengono
presentati agli utenti i risultati dell’esplorazione.
L’“esploratore” ha vari nomi, a seconda del motore di ricerca al quale
appartiene: per esempio, Googlebot per Google, Bingbot per Bing
e Yahoo, BaiduSpider per Baidu o YandexBot per Yandex.
L’algoritmo, invece, di solito non ha un nome, tranne nel caso di Google, che
lo chiama PageRank perché determina il rango (rank in inglese)
delle pagine del Web.
Il funzionamento esatto di questi componenti è un segreto commerciale, ma i
documenti brevettuali pubblicati da Google, per esempio, gettano un po’ di
luce sull’argomento: i link presenti nelle pagine esplorate da Googlebot
contribuiscono fortemente a determinare l’importanza di una pagina nei
risultati del motore di ricerca.
Il concetto di fondo è che
se una pagina Web viene linkata da un’altra, vuol dire che la pagina
linkata è considerata importante:
è una sorta di voto di approvazione (o, per analogia con Facebook, è una sorta
di “Mi piace”). Più “voti” ha un link, più è probabile che sarà in cima
alla classifica dei risultati del motore di ricerca.
Ma
anche l’importanza della pagina che ospita il link è determinante. Per esempio, se il sito di una testata giornalistica autorevole linka una
data pagina Web, quella pagina Web sale di rango nella classifica dei
risultati del motore di ricerca. Se un blog di un utente qualsiasi linka
quella stessa pagina, l’effetto promozionale è molto più debole.
In parole povere:
più una pagina è linkata da altre pagine importanti e autorevoli del Web,
più quella pagina diventa a sua volta importante ed emerge in cima ai
risultati presentati dal motore di ricerca.
Il meccanismo è simile a quello usato dalle riviste scientifiche: più un
articolo viene citato, e più viene citato da riviste autorevoli, più viene
considerato meritevole.
Per saperne di più:
-
Il documento fondamentale che descrive il funzionamento dell’algoritmo di
Google parla proprio di citazioni in stile accademico e s’intitola
“The PageRank Citation Ranking: Bringing Order to the Web”. -
Un altro documento importante che descrive il funzionamento di Google è
“How does Google collect and rank results?”, pubblicato nel 2006 dal Librarian Center di Google. -
Si può consultare inoltre il brevetto statunitense 6285999,
“Method for node ranking in a linked database”, datato 9 gennaio 1998, a nome di Lawrence Page (uno dei cofondatori di
Google insieme a Sergey Brin).
Accanto a questo criterio fondamentale, tuttavia, quasi tutti i motori di
ricerca ne usano anche altri, che
personalizzano i risultati in base a chi li richiede o al luogo nel quale
vengono richiesti.
Uno degli scopi di questa guida è evitare questa personalizzazione, che può
rendere irreperibili o nascondere i risultati che in realtà interessano
maggiormente a un utente.
Google, gigante incontrastato ma generalista
In termini di quota di mercato, Google sovrasta di gran lunga tutti gli altri
motori di ricerca (figura qui sotto) e offre un maggior numero di opzioni di
ricerca selettiva. Per questo motivo è opportuno dedicare a questo colosso
buona parte di questa guida ai motori di ricerca, perché
in pratica l’universo dei motori di ricerca è costituito da Google più le
briciole.
Queste sono le quote di mercato dei principali motori di ricerca a gennaio
2024 (fonte: Worldwide desktop market share of leading search engines,
Statista.com).
Differenze fra motori di ricerca
Anche se Google è il gigante del settore, gli altri motori possono a volte
essere più efficienti su temi specifici, per cui nessuno di loro va trascurato
completamente: ognuno ha le proprie particolarità sfruttabili.
Per esempio:
-
Google (Google.com)
eccelle nel fornire i cosiddetti “dieci link blu”, ossia una pagina
scarna nella quale sono elencati i dieci risultati che con maggiore
probabilità soddisfano la richiesta dell’utente, e offre la possibilità di
effettuare ricerche estremamente complesse. -
Bing (Bing.com) è
maggiormente specializzato di Google nella copertura degli argomenti più
popolari e offre più grafica e informazioni direttamente sulla pagina
iniziale; offre inoltre risposte a formule matematiche complesse tramite
Wolfram Alpha (sito specializzato nella risoluzione di quesiti di statistica
e matematica). - Yahoo! Search (search.yahoo.com) usa Bing e Google, ma ne modula diversamente i risultati.
-
Baidu (baidu.com) è
specializzato nelle ricerche in cinese. -
Yandex (yandex.com)
copre le ricerche nei paesi russofoni; esiste anche in versione
turca (yandex.com.tr),
kazaka (yandex.kz) e
bielorussa (yandex.by)*. -
DuckDuckGo (Duckduckgo.com) si distingue perché, a differenza di Google e degli altri motori di
ricerca, non personalizza i risultati in base all’utente ed è più rispettoso
della privacy**, anche se
non è perfetto; inoltre fornisce risultati che sono un ibrido di quelli forniti da
Yandex, Yahoo, Bing, Wolfram Alpha e Yummly (quest’ultimo è un motore specializzato in
alimentazione, cucina e ricette, che consente ricerche in base a
ingredienti, diete, allergie, prezzo, sapori e “impara” i gusti
dell’utente). Inoltre è disponibile sul dark web tramite Tor. -
Startpage (Startpage.com), come DuckDuckGo, è un motore di ricerca che non raccoglie dati
personali; diversamente da DuckDuckGo, è basato soltanto su Google.
* Al momento in cui aggiorno questo capitolo (2024/03) la versione ucraina (yandex.ua) è irraggiungibile, probabilmente a causa dell’invasione russa dell’Ucraina.
** Alcune forti motivazioni per preoccuparsi della schedatura sistematica
delle ricerche effettuate dagli utenti ad opera di Google e altri motori di
ricerca, con implicazioni a lungo termine sia personali sia politiche, sono
descritte in
questo articolo
risalente al 2011 ma tuttora attuale.
ChatGPT e intelligenze artificiali per la ricerca di informazioni
All’inizio del 2023 sia Google sia Microsoft hanno iniziato ad adottare sistemi di intelligenza artificiale (IA), o più propriamente grandi modelli linguistici (large language models, LLM), in grado di generare risposte a domande scritte in linguaggio naturale, anche in italiano, integrandoli nei loro prodotti, compresi i motori di ricerca (Bloomberg, 8/3/2023). Lo hanno fatto sulla scia dell’enorme popolarità di sistemi di IA come ChatGPT di OpenAI.
Al momento attuale i risultati di questi sistemi sono inaffidabili e non è opportuno usarli per ricerche significative. Queste IA tendono a fornire risposte inventate o non corrispondenti ai fatti, che in gergo si chiamano allucinazioni (hallucinations).
Le versioni a pagamento o specializzate sono invece leggermente meno inaffidabili: danno risultati con poche allucinazioni, ma forniscono spesso risposte incomplete che comunque vanno verificate sistematicamente.
Per esempio, ChatGPT 3.5, la versione gratuita, ha un tasso di allucinazione molto elevato; la versione 4, a pagamento, è notevolmente più potente ed è meno inaffidabile, ma comunque è necessario controllare i suoi risultati.
2. Quello che un motore di ricerca non mostra