4. Ricerca storica e recupero di documenti rimossi, modificati o nascosti

Se un documento o una pagina Web precedentemente pubblicati su un sito sono
stati poi rimossi o modificati, oppure sono inaccessibili a causa di un numero
eccessivo di visitatori, spesso è possibile recuperarne lo stesso il contenuto
utilizzando le cosiddette copie cache e le copie archiviate.

Copia cache di una pagina o di un sito

Quando un motore di ricerca esplora il Web per indicizzarlo, solitamente registra nei propri server una
copia temporanea di ogni singola pagina esplorata. Questa copia si chiama
copia cache e in alcuni casi è consultabile.*

* Per anni, l’enorme cache di Google è stata consultabile
digitando in Google la parola cache: seguita (senza spazi) dal nome
del sito o dall’indirizzo della pagina specifica desiderata oppure cliccando sul triangolino o sui tre puntini che erano presenti accanto a un normale risultato di ricerca, in modo da far comparire l’opzione copia cache. Questa utilissima funzione è stata però rimossa da Google gradualmente intorno a febbraio 2024 (fonti: The Verge, Ars Technica).

La copia cache è utile perché mostra com’era una data pagina quando è stata
visitata dal motore di ricerca e quindi costituisce una sorta di “eco” temporanea, che persiste
anche se la pagina originale viene cambiata o addirittura rimossa. Questo
consente di andare indietro nel tempo a vedere, per esempio, qual era il
contenuto di un sito oscurato, sequestrato, alterato oppure rimosso.

Questa copia è utile anche quando desideriamo esplorare un sito senza lasciare
traccia del nostro interessamento. Ogni normale visita a un sito, infatti,
lascia all’amministratore del sito una serie di informazioni tecniche che
permettono di identificare il visitatore.

Per esempio, in alcuni casi può essere sconsigliabile che un giornalista
sfogli, da un computer connesso alla rete della redazione, un sito sul quale
sta indagando: i titolari del sito potrebbero accorgersi della visita e
dedurne che è in corso un’inchiesta (capitò a dei miei colleghi durante un’indagine giornalistica su un caso di truffa sanitaria). L’uso della copia cache consente al giornalista di
consultare il sito senza lasciare traccia della propria visita.

Copie archiviate

Oltre alla copia cache dei motori di ricerca ci possono essere altre copie archiviate
presso altri siti:

NOTA: Le edizioni passate dell’Efficercatore includevano in questo elenco anche Coralcdn.org, che però attualmente (2023/03) risulta inaccessibile. Secondo gli archivi della Wayback Machine di Archive.org, la sua ultima attività risale a ottobre 2020. Coralcdn effettuava copie automatiche temporanee delle pagine del Web.

Archive.org colleziona periodicamente, automaticamente e permanentemente una
copia delle pagine Web di Internet. Le copie multiple custodite presso Archive.org possono andare
indietro nel tempo anche fino agli anni Novanta del secolo scorso.

Archive.is, invece, archivia in modo
permanente solo le pagine che gli vengono richieste manualmente e fornisce un
link breve utile per citare una copia permanente di un contenuto online.

Esempio: recupero del contenuto di un sito sottoposto a sequestro

Per ottenere un elenco dei siti sequestrati dalle autorità italiane si può
usare l’operatore intitle di Google per cercare tutti i siti che
hanno come titolo l’espressione standard usata in Italia in questi casi,
ossia l’esatta sequenza di parole “sito sottoposto a sequestro”. La
sintassi della ricerca in Google diventa quindi:

intitle:”sito sottoposto a sequestro”

In Canton Ticino la dicitura può avere il formato
“Il sito è stato oscurato per ordine della Magistratura del Cantone
Ticino”, come in
questo caso concreto.

A questo punto si sceglie un sito sequestrato fra quelli elencati da Google
e si immette il suo link in Archive.org, che solitamente ne contiene una
copia risalente a prima del sequestro. Questa copia consente di avere
un’immagine del sito prima del sequestro, di fare ipotesi sulle ragioni del
sequestro stesso e anche di determinarne la data approssimativa.

Un risultato di ricerca in Google di siti sottoposti a sequestro.

L’avviso attualmente presente sul sito Uniservice.info, sequestrato nel 2015.

La Wayback Machine dell’Internet Archive (Archive.org) mostra la cronologia delle istantanee del sito Uniservice.info che ha archiviato nel corso degli anni.

Il contenuto del sito sequestrato com’era prima del sequestro e conservato dalla Wayback Machine.

Esempio: ritrovamento di documenti spostati altrove (2019)

Un collega divulgatore scientifico sta
cercando
di ritrovare dei documenti della NASA che hanno da poco cambiato indirizzo.
Sa qual è quello vecchio ma non sa qual è quello nuovo.

Quello vecchio è
https://www.jsc.nasa.gov/history/oral_histories/participants.htm.

Con quest’informazione e Archive.org si può risolvere il problema:

Si va ad Archive.org e si immette l’indirizzo vecchio per vedere se ne
esiste una copia archiviata (sì,
questa)

Da questa copia archiviata si copia un campione di testo caratterizzante
(un titolo, una frase saliente): per esempio,
“This is a complete list of archived and released Oral History
interviews conducted for the NASA Oral History Projects”

Si immette questo campione di testo in Google, mettendolo fra virgolette.

Google restituisce il link del nuovo indirizzo (https://historycollection.jsc.nasa.gov/JSCHistoryPortal/history/oral_histories/participants_full.htm)

Può essere utile ed efficiente installare nel proprio browser
l’estensione ufficiale della Wayback Machine, che è reperibile cercando in
Google “Official Wayback Machine Extension”: se una data pagina non è
più disponibile, quest’estensione cerca automaticamente se una copia di quella
pagina è stata archiviata presso Archive.org e la propone. L’estensione
consente anche di salvare una pagina Web in Archive.org.

Esempio: reperimento di una sentenza medica rimossa (2022)

Circola online una foto che mostra un titolo di giornale clamorosamente
antiscientifico: “Si ammala dopo il vaccino”. La notizia parla di una
bambina che alla data dell’articolo ha 12 anni ed è nata sana; le sarebbe stata
diagnosticata la sindrome di Down dopo aver fatto la vaccinazione
trivalente. I genitori avrebbero fatto causa al Ministero della Salute.

Si pone il problema di:

verificare che non si tratti di un fotomontaggio;

identificare la testata responsabile;

risalire alla data di pubblicazione;

scoprire l’esito legale della vicenda.

L’immagine mostra chiaramente l’indicazione della testata: il giornale
gratuito Nuovo Quotidiano di Rimini. Ma la foto è autentica? Per
verificarlo si può cercare in Google, tra virgolette, una parte saliente del
testo (per esempio
“La bimba ora ha 12 anni e due sorelle perfettamente in salute”).
Questa ricerca fornisce una
pagina
del sito Pianetadown.org risalente al 26 maggio 2012 che riporta il testo
dell’articolo e indica che si tratta di una notizia apparsa il giorno
stesso.

Il link fornito da Pianetadown.org (che porta a Virtualnewspaper.it) è obsoleto, ma
indica che si tratta quasi sicuramente di un articolo reale, visto che
Virtualnewspaper.it è un sito che si occupa di pubblicare i giornali in
formato digitale.

Il sito del Nuovo Quotidiano di Rimini era Nqnews.it: al momento in cui scrivo queste righe ospita altri contenuti, ma
Archive.org ci permette di vedere com’era per esempio a
giugno del 2012.

Leggendo i commenti alla pagina di Pianetadown.org se ne trova uno, datato 7
marzo 2013, che riporta un link (www.comilva.org/node/12919) a un commento dell’avvocato che ha affrontato la causa e che contiene
anche la copia della sentenza.

Il link porta a una pagina vuota, ma su Archive.org se ne trova
una
copia d’archivio
datata 10 luglio 2012, che parla della sentenza. Questa sentenza ha riconosciuto un nesso giuridico (non scientifico) di causalità fra la
vaccinazione e l’autismo (non la sindrome di Down). Archive.org ha
anche archiviato una
copia della scansione della sentenza
(PDF). Tuttavia la Cassazione nel 2015 ha annullato la sentenza del tribunale di Rimini (Salute.gov.it).

In sintesi: l’articolo è stato realmente pubblicato da un giornale
gratuito di Rimini, risale al 2012 ed è sbagliato perché parla di sindrome
di Down quando in realtà la condizione diagnosticata è autismo. La vicenda
si è conclusa nel 2015 con l’annullamento della sentenza che inizialmente aveva disposto il riconoscimento del danno e i benefici di indennizzo
previsti dalla legge. Maggiori informazioni sono nella Bufalopedia.

Ricerca e recupero di documenti confidenziali con Google

Talvolta le autorità o le aziende commettono l’errore di pubblicare su
Internet, presso indirizzi non pubblicizzati, documenti che sono sotto
embargo. Scaduto l’embargo, annunciano l’indirizzo al pubblico.

Tuttavia Google vede e indicizza anche quasi tutti i documenti pubblicati sui
siti Web, anche se si trovano presso indirizzi non linkati o annunciati, per
cui i documenti sono comunque già reperibili prima della fine dell’embargo se
si immettono in Google le parole chiave pertinenti.

I documenti usano spesso diciture come le seguenti:

embargo oppure embargoed until seguito da una data
do not disseminate
strictement confidentiel
ne pas diffuser
ne pas devoiler
streng vertraulich
streng vertraulich und rechtlich geschützt

La ricerca di queste espressioni, specialmente se accompagnata da una data,
dall’operatore site: che restringa la ricerca ai siti di un ente o di
un’azienda e dall’operatore filetype:PDF e/o
filetype:DOC (perché di norma i documenti vengono pubblicati come file
PDF o DOC), produce spesso frutti inattesi.

Un esempio limite è dato da questa ricerca:

intext:password intext:username filetype:xls inurl:.xls

che trova i file contenenti elenchi di password incautamente custoditi in una
cartella pubblica accessibile a Google. Al posto di inurl:.xls si può
anche specificare inurl:.csv.

Un altro esempio altrettanto estremo è il seguente:

“Your password is * Remember this for later use”

Ricerca storica di vocaboli: Google Ngram Viewer

Google offre un servizio che consente di fare ricerche sulla diffusione o popolarità di un termine, un nome di persona o di azienda o un’espressione nel corso del tempo: Google Ngram Viewer (books.google.com/ngrams).

Confronto fra il numero di citazioni di “George Lucas” rispetto a “Elon Musk” dal 1944 (anno di nascita di Lucas) al 2019.

Questo strumento estremamente potente va usato tenendo presente alcune limitazioni:

il suo corpus, ossia l’archivio di testi che ha catalogato, è suddiviso per lingue e quindi va scelta la lingua di interesse.
La catalogazione si ferma intorno al 2019, per cui qualunque testo pubblicato dopo quell’anno non viene considerato.
Nel caso di testi catalogati facendo riconoscimento ottico dei caratteri, gli errori di riconoscimento sono frequenti e possono essere estremamente fuorvianti (The Pitfalls of using Google Ngram to Study Language, Wired.com, 2015).

Google Hacking vero e proprio

Le ricerche avanzate in Google possono essere utilizzate per rivelare dati e
vulnerabilità informatiche di ogni sorta. Una delle fonti più ricche di
suggerimenti di ricerca è il
Google Hacking Database, che offre varie categorie di ricerche estremamente penetranti:

documenti sensibili
log di sicurezza
dispositivi connessi: stampanti, telecamere, impianti
nomi di utenti
password

Attenzione: se si usano ripetutamente richieste di ricerca come quelle proposte dal Google Hacking Database, Google potrà chiedere di confermare tramite Captcha che si tratta di richieste fatte da un essere umano e non da un sistema automatico.

_____

Capitolo successivo:
5. Ricerca selettiva per tipo di pubblicazione

Torna all’indice generale