Skip to content

1. Come funziona un motore di ricerca: le cose da sapere

Un motore di ricerca, come Google o Bing, è un grande sistema
informatico che esplora metodicamente e automaticamente tutte le parti
pubblicamente accessibili di Internet e ne cataloga e archivia il contenuto.

Questo catalogo e questo archivio vengono aggiornati costantemente e sono
consultabili dagli utenti di Internet visitando il sito del motore di
ricerca (per esempio Google.com).

Spider e algoritmi

Ogni motore di ricerca è composto da due elementi fondamentali:

  • il software “esploratore”, denominato spider (“ragno”, dato che
    esplora il Web, che in inglese significa “ragnatela”);
  • l’algoritmo, che decide i criteri d’importanza con i quali vengono
    presentati agli utenti i risultati dell’esplorazione.

L’“esploratore” ha vari nomi, a seconda del motore di ricerca al quale
appartiene: per esempio, Googlebot per Google, Bingbot per Bing
e Yahoo, BaiduSpider per Baidu o YandexBot per Yandex.

L’algoritmo, invece, di solito non ha un nome, tranne nel caso di Google, che
lo chiama PageRank perché determina il rango (rank in inglese)
delle pagine del Web.

Il funzionamento esatto di questi componenti è un segreto commerciale, ma i
documenti brevettuali pubblicati da Google, per esempio, gettano un po’ di
luce sull’argomento: i link presenti nelle pagine esplorate da Googlebot
contribuiscono fortemente a determinare l’importanza di una pagina nei
risultati del motore di ricerca.

Il concetto di fondo è che
se una pagina Web viene linkata da un’altra, vuol dire che la pagina
linkata è considerata importante:

è una sorta di voto di approvazione (o, per analogia con Facebook, è una sorta
di “Mi piace”). Più “voti” ha un link, più è probabile che sarà in cima
alla classifica dei risultati del motore di ricerca.

Ma
anche l’importanza della pagina che ospita il link è determinante. Per esempio, se il sito di una testata giornalistica autorevole linka una
data pagina Web, quella pagina Web sale di rango nella classifica dei
risultati del motore di ricerca. Se un blog di un utente qualsiasi linka
quella stessa pagina, l’effetto promozionale è molto più debole.

In parole povere:

più una pagina è linkata da altre pagine importanti e autorevoli del Web,
più quella pagina diventa a sua volta importante ed emerge in cima ai
risultati presentati dal motore di ricerca.

Il meccanismo è simile a quello usato dalle riviste scientifiche: più un
articolo viene citato, e più viene citato da riviste autorevoli, più viene
considerato meritevole.

Per saperne di più:

Accanto a questo criterio fondamentale, tuttavia, quasi tutti i motori di
ricerca ne usano anche altri, che
personalizzano i risultati in base a chi li richiede o al luogo nel quale
vengono richiesti.

Uno degli scopi di questa guida è evitare questa personalizzazione, che può
rendere irreperibili o nascondere i risultati che in realtà interessano
maggiormente a un utente.

Google, gigante incontrastato ma generalista

In termini di quota di mercato, Google sovrasta di gran lunga tutti gli altri
motori di ricerca (figura qui sotto) e offre un maggior numero di opzioni di
ricerca selettiva. Per questo motivo è opportuno dedicare a questo colosso
buona parte di questa guida ai motori di ricerca, perché
in pratica l’universo dei motori di ricerca è costituito da Google più le
briciole
.

Queste sono le quote di mercato dei principali motori di ricerca a gennaio
2024 (fonte: Worldwide desktop market share of leading search engines,
Statista.com).

Differenze fra motori di ricerca

Anche se Google è il gigante del settore, gli altri motori possono a volte
essere più efficienti su temi specifici, per cui nessuno di loro va trascurato
completamente: ognuno ha le proprie particolarità sfruttabili.

Per esempio:

  • Google (Google.com)
    eccelle nel fornire i cosiddetti “dieci link blu”, ossia una pagina
    scarna nella quale sono elencati i dieci risultati che con maggiore
    probabilità soddisfano la richiesta dell’utente, e offre la possibilità di
    effettuare ricerche estremamente complesse.
  • Bing (Bing.com) è
    maggiormente specializzato di Google nella copertura degli argomenti più
    popolari e offre più grafica e informazioni direttamente sulla pagina
    iniziale; offre inoltre risposte a formule matematiche complesse tramite
    Wolfram Alpha (sito specializzato nella risoluzione di quesiti di statistica
    e matematica).
  • Yahoo! Search (search.yahoo.com) usa Bing e Google, ma ne modula diversamente i risultati.
  • Baidu (baidu.com) è
    specializzato nelle ricerche in cinese.
  • Yandex (yandex.com)
    copre le ricerche nei paesi russofoni; esiste anche in versione
    turca (yandex.com.tr),
    kazaka (yandex.kz) e
    bielorussa (yandex.by)*.
  • * Al momento in cui aggiorno questo capitolo (2024/03) la versione ucraina (yandex.ua) è irraggiungibile, probabilmente a causa dell’invasione russa dell’Ucraina.

  • DuckDuckGo (Duckduckgo.com) si distingue perché, a differenza di Google e degli altri motori di
    ricerca, non personalizza i risultati in base all’utente ed è più rispettoso
    della privacy**, anche se
    non è perfetto; inoltre fornisce risultati che sono un ibrido di quelli forniti da
    Yandex, Yahoo, Bing, Wolfram Alpha e Yummly (quest’ultimo è un motore specializzato in
    alimentazione, cucina e ricette, che consente ricerche in base a
    ingredienti, diete, allergie, prezzo, sapori e “impara” i gusti
    dell’utente). Inoltre è disponibile sul dark web tramite Tor.
  • Startpage (Startpage.com), come DuckDuckGo, è un motore di ricerca che non raccoglie dati
    personali; diversamente da DuckDuckGo, è basato soltanto su Google.

** Alcune forti motivazioni per preoccuparsi della schedatura sistematica
delle ricerche effettuate dagli utenti ad opera di Google e altri motori di
ricerca, con implicazioni a lungo termine sia personali sia politiche, sono
descritte in
questo articolo
risalente al 2011 ma tuttora attuale.

ChatGPT e intelligenze artificiali per la ricerca di informazioni

All’inizio del 2023 sia Google sia Microsoft hanno iniziato ad adottare sistemi di intelligenza artificiale (IA), o più propriamente grandi modelli linguistici (large language models, LLM), in grado di generare risposte a domande scritte in linguaggio naturale, anche in italiano, integrandoli nei loro prodotti, compresi i motori di ricerca (Bloomberg, 8/3/2023). Lo hanno fatto sulla scia dell’enorme popolarità di sistemi di IA come ChatGPT di OpenAI.

Al momento attuale i risultati di questi sistemi sono inaffidabili e non è opportuno usarli per ricerche significative. Queste IA tendono a fornire risposte inventate o non corrispondenti ai fatti, che in gergo si chiamano allucinazioni (hallucinations).

Le versioni a pagamento o specializzate sono invece leggermente meno inaffidabili: danno risultati con poche allucinazioni, ma forniscono spesso risposte incomplete che comunque vanno verificate sistematicamente.

Per esempio, ChatGPT 3.5, la versione gratuita, ha un tasso di allucinazione molto elevato; la versione 4, a pagamento, è notevolmente più potente ed è meno inaffidabile, ma comunque è necessario controllare i suoi risultati.

_____

Leave a Reply

Your email address will not be published. Required fields are marked *