Skip to content

Web Archive è come una macchina del tempo per il web, è un archivio che cattura versioni delle pagine di Internet per consentire agli utenti di visualizzare il contenuto come era in un momento specifico nel passato.

Ho chiesto a ChatGPT3 di descrivere una situazione di panico per un webmaster. Ecco cosa ha scritto:

Il webmaster, un uomo chiamato Marco, era seduto al suo computer nella sua piccola stanza di lavoro. Era incaricato di gestire il sito web di un importante cliente, un’azienda di successo che si era affidata a lui per la creazione e la manutenzione del loro sito.

Marco stava lavorando con il codice del sito, cercando di apportare alcune modifiche per migliorare il design. Ma, a causa di un errore nella sua impostazione, accidentalmente cancellò il sito intero. Si rese conto immediatamente di aver commesso un grave errore e cercò disperatamente di recuperare i dati.

Ma era troppo tardi. Si rese conto che non aveva un backup del sito e che tutti i contenuti, i blog post e i testi delle pagine erano stati persi per sempre. Il panico lo assalì e cominciò a sudare freddo. Non sapeva cosa fare e temeva di perdere il lavoro e la fiducia del cliente.

In questa situazione, ci sono diverse cose che Marco può fare. In primo luogo, deve immediatamente informare il cliente dell’accaduto e chiedere scusa per l’errore commesso. In secondo luogo, deve cercare di recuperare i dati persi utilizzando software di ripristino o chiedendo aiuto a esperti del settore. Infine, deve fare in modo di creare un backup del sito in futuro per evitare di trovarsi in questa situazione di nuovo.

ChatGPT3

Immagino che la situazione appena descritta dal nostro amico GPT sia familiare a molti di noi. In tutta onestà, un paio di volte in carriera mi è successo :\

Cosa fare a questo punto? In certi casi, Web Archive, può davvero salvarci la vita.

Cos’è Web Archive

Web Archive è un servizio che consente di conservare una copia di una pagina web o di un intero sito web in modo che possa essere visualizzato in futuro, anche se il contenuto originale è stato modificato o rimosso.

Il servizio utilizza un processo noto come “crawling” per catturare copie di pagine web e salvarle in un archivio. Gli utenti possono quindi utilizzare il servizio per visualizzare una versione precedente di una pagina web.

Questo può essere utile in molte situazioni, ad esempio per vedere come un sito web è cambiato nel tempo o per recuperare informazioni che sono state rimosse da un sito web.

Il servizio è gratuito e accessibile a chiunque.

La sua storia

Web Archive è stato lanciato nel 1996 dall’Internet Archive e da allora ha continuato ad espandersi e ad evolversi. L’Internet Archive è stata fondata nel 1996 da Brewster Kahle, un imprenditore e attivista per la conservazione della cultura digitale. Kahle è ancora attivo nell’Internet Archive e serve come presidente del consiglio d’amministrazione.

Brewster Kahle @ The Web Conference 2019 May 16
Brewster Kahle @ The Web Conference 2019 May 16

Ci sono stati alcuni momenti chiave nella storia di Web Archive che hanno segnato importanti sviluppi e miglioramenti del servizio.

  • Nel 2001, Web Archive ha lanciato l’archivio Wayback Machine, che consente agli utenti di visualizzare versioni precedenti di una pagina web. Questa funzione è diventata uno degli strumenti più utilizzati e popolari di Web Archive.
  • Nel 2003, Web Archive ha lanciato l’Internet Archive Federal Research Division, che si concentra sull’archiviazione del contenuto governativo e sulla creazione di strumenti di ricerca avanzati per questo contenuto.
  • Nel 2008, Web Archive ha lanciato l’Internet Archive BookReader, che consente agli utenti di visualizzare e navigare in libri digitalizzati.
  • Nel 2016, Web Archive ha lanciato il Web Archive Grants Program, che supporta progetti di conservazione e ricerca che utilizzano i dati di Web Archive.
  • Nel 2017, Web Archive ha lanciato il progetto “End of Term Web Archive” per conservare il contenuto del sito web del governo degli Stati Uniti durante i cambiamenti di amministrazione presidenziale.

Sono solo alcuni degli eventi importanti nella storia di Web Archive, ma sicuramente ci sono state altre iniziative che hanno contribuito alla sua crescita e miglioramento.

Chi mantiene e finanzia Web Archive?

Web Archive è mantenuto e finanziato principalmente dalla Internet Archive.

Internet Archive è un’organizzazione no-profit che si dedica alla raccolta, conservazione e distribuzione di contenuti digitali di tutto il mondo. Il suo archivio include una vasta gamma di contenuti, tra cui siti web, libri, musica, video e software. Il contenuto viene raccolto tramite un processo noto come “crawling” che cattura copie dei siti web e li conserva in un archivio. L’Internet Archive utilizza una tecnologia di archiviazione chiamata Wayback Machine per consentire agli utenti di accedere alle copie archiviate dei siti web.

L’Internet Archive ha un team di dipendenti che lavorano per mantenere e migliorare Web Archive, tra cui ingegneri, ricercatori, archivisti e altri professionisti. L’Internet Archive ha anche un consiglio d’amministrazione e un consiglio consultivo composto da esperti del settore e rappresentanti della comunità. Inoltre ha una rete di collaboratori, volontari e sostenitori che contribuiscono alla creazione e alla gestione del contenuti archiviati.

In generale, Internet Archive e Web Archive sono supportati da una vasta comunità di persone che credono nell’importanza della conservazione della cultura e della conoscenza digitale.

L’Internet Archive è finanziato principalmente attraverso donazioni, sovvenzioni e contributi aziendali. L’organizzazione ha anche un programma di membri che consente ai sostenitori di contribuire con donazioni regolari. Inoltre, l’Internet Archive collabora con una serie di enti governativi, biblioteche e università per archiviare e preservare il contenuto di Internet.

Oltre a Web Archive, l’Internet Archive ha anche una serie di altri progetti e servizi, come la Biblioteca digitale, che consente agli utenti di accedere a libri digitali gratuitamente, e Open Library, un progetto per creare un catalogo online di libri disponibili gratuitamente. L’Internet Archive è anche impegnata in una serie di progetti di conservazione digitale, come il progetto di conservazione dei software, che mira a preservare i software storici e renderli disponibili per il download.

Utilizzi pratici di Web Archive

Per Webmaster ma non solo, ci sono molti usi per Web Archive, alcuni dei quali includono:

  • Recupero di informazioni: se una pagina web viene modificata o rimossa, è possibile utilizzare Web Archive per visualizzare una versione precedente e recuperare informazioni importanti. Questa è la funzionalità che ha salvato milioni di webmaster! Sai, il backup è quella cosa che andava fatta prima :)
  • Storia del sito web: è possibile utilizzare Web Archive per vedere come un sito web è cambiato nel tempo e come si è evoluto.
  • Ricerca storica: gli storici e gli studiosi possono utilizzare Web Archive per studiare come le opinioni e le notizie sono cambiate nel corso degli anni.
  • Marketing: i professionisti del marketing possono utilizzare Web Archive per analizzare come i loro concorrenti hanno gestito il loro sito web e come hanno promosso i loro prodotti.
  • Conservazione della cultura digitale: Web Archive consente di conservare il contenuto di un sito web per future generazioni, permettendo loro di avere accesso ad una parte della cultura digitale del nostro tempo.
  • SEO: professionisti del SEO possono utilizzare Web Archive per capire e analizzare vecchie versioni dei siti web. Questo è utile quando si ragiona sull’evoluzione dei motori di ricerca dal passato ad oggi, in riferimento ai cambiamenti algoritmici.
  • Verifica di notizie: i giornalisti e i fact-checker possono utilizzare Web Archive per verificare la veridicità di una notizia o per verificare se una fonte è stata modificata per cambiare il significato originale del contenuto.
  • Archiviazione legale: aziende e organizzazioni possono utilizzare Web Archive per conservare copie di pagine web per scopi legali, come la documentazione di una controversia o di una causa legale.
  • Conservazione del patrimonio culturale: Web Archive consente di conservare il contenuto di siti web di importanza storica, culturale e scientifica, permettendo la continuazione del processo di conoscenza e la conservazione del patrimonio culturale.

Come si usa Web Archive

Per utilizzare Web Archive, è sufficiente visitare il sito web e inserire l’URL del sito web o di una specifica pagina per la quale si desidera visualizzare una versione precedente. È possibile anche utilizzare la funzione di ricerca per cercare una pagina web specifica o un termine all’interno delle copie archiviate.

Non ci sono limiti specifici per l’utilizzo di Web Archive, gli utenti possono effettuare quante ricerche desiderano.

L’utilizzo di Web Archive è gratuito e accessibile a chiunque. L’Internet Archive è un’organizzazione no-profit e il suo obiettivo è rendere il contenuto di Internet accessibile a tutti.

Però, si raccomanda di rispettare le leggi sui diritti d’autore e di non utilizzare il contenuto archiviato per scopi commerciali senza il permesso degli autori.

Come fa Web Archive a scoprire e salvare le pagine Web?

Web Archive utilizza un web crawler, chiamato Heritrix, per scoprire e salvare le pagine web. Heritrix è il progetto web crawler open source, estensibile, su scala web e di qualità archivistica di Internet Archive.

Il web crawler funziona visitando un sito web e seguendo tutti i link presenti nella pagina per individuare nuovi siti da visitare. Il web crawler utilizza un algoritmo per determinare quale pagina visitare per prima e quale ordine seguire per visitare le pagine.

Il web crawler di Web Archive inizia a visitare i siti web più popolari e importanti e poi segue i link per scoprire nuovi siti. Il web crawler può anche utilizzare un elenco di siti web forniti dagli utenti o un elenco di siti web generato da un motore di ricerca.

Una volta che il web crawler ha trovato un sito web, scarica una copia della pagina e la aggiunge all’archivio. Il web crawler può anche scaricare immagini, video e altri contenuti multimediali presenti sulla pagina. Il web crawler è programmato per visitare regolarmente i siti web già archiviati per verificare se sono stati aggiornati e per acquisire eventuali nuove versioni.

Inoltre, i proprietari di siti web possono escludere le loro pagine dall’archivio tramite il “Robot Exclusion Protocol” (REP) che è un protocollo utilizzato per comunicare ai crawler quali pagine o sezioni di un sito non desiderano vengano scansionate. Infatti, Heritrix è progettato per rispettare le direttive espresse nel robots.txt e scansiona cercando di non saturare il web server.

Perché Web Archive non salva tutte le pagine del mio sito ma solo alcune?

Ci sono diverse ragioni per cui Web Archive potrebbe non archiviare tutte le pagine del tuo sito:

  • Gli algoritmi di Web Archive potrebbero filtrare alcune pagine perché reputate ridondanti o poco significative.
  • Il tuo sito potrebbe essere troppo nuovo e non ancora essere stato catturato dal web crawler di Web Archive.
  • Il tuo sito potrebbe avere una politica di esclusione dai crawler, in cui i proprietari del sito non consentono ai web crawler di acquisire copie delle loro pagine.
  • Il tuo sito potrebbe essere troppo grande e il web crawler non è in grado di acquisire tutte le pagine in un solo ciclo di scansione.
  • Il tuo sito potrebbe avere una quantità limitata di contenuti o di pagine, quindi è stato già archiviato tutto ciò che c’è da archiviare.
  • Il tuo sito potrebbe utilizzare tecnologie o metodi che rendono difficile per i web crawler l’acquisizione delle pagine.
  • Ci potrebbero essere problemi tecnici o di infrastruttura che impediscono al web crawler di accedere al tuo sito.

In generale, se hai notato che alcune pagine del tuo sito non sono state archiviate da Web Archive, ti consiglio di controllare se il tuo sito utilizza la politica di esclusione dai crawler e di verificare che il tuo sito sia stato correttamente indicizzato dai motori di ricerca. In caso contrario, puoi contattare l’assistenza di Web Archive per segnalare il problema e chiedere supporto per risolverlo.

Posso contribuire e donare a Web Archive?

Si, è possibile contribuire e fare donazioni a Web Archive tramite l’Internet Archive. L’Internet Archive dipende dalle donazioni per finanziare il proprio lavoro. C’è una pagina di donazione sul sito web dell’Internet Archive, dove è possibile fare una donazione online utilizzando una carta di credito o un conto PayPal.

Le donazioni possono essere effettuate in forma singola o tramite un programma di membri, in cui è possibile fare donazioni regolari.

Inoltre, ci sono altre modalità per contribuire, come ad esempio:

  • Diventare volontari per aiutare a catalogare e digitalizzare i materiali
  • Diventare un membro sostenitore
  • Fare una donazione di beni, come libri, film, audio e software
  • Fare una donazione di attrezzature e tecnologie

In generale, le donazioni e i contributi sono molto apprezzati e aiutano a mantenere e migliorare i servizi e le attività dell’Internet Archive, tra cui Web Archive.

FAQ sul servizio Web Archive

  1. Come posso trovare una pagina web specifica su Web Archive? Risposta: È possibile utilizzare la funzione di ricerca in alto sulla pagina principale di Web Archive per cercare una pagina web specifica o un termine all’interno delle copie archiviate. In alternativa, si può accedere direttamente alla pagina web digitando l’URL del sito web nella barra degli indirizzi del browser e inserendo “web.archive.org/” prima dell’URL.
  2. Perché una pagina web non è disponibile su Web Archive? Risposta: Ci sono diversi motivi per cui una pagina web potrebbe non essere disponibile su Web Archive. Potrebbe essere stato creato da poco il sito e non ancora catturato dal crawler di Web Archive, oppure potrebbe essere stato rimosso dal sito web originale, oppure il sito potrebbe avere una politica di esclusione dai crawler.
  3. Come posso visualizzare una versione precedente di una pagina web? Risposta: È possibile utilizzare la funzione di ricerca in alto sulla pagina principale di Web Archive per cercare una pagina web specifica o un termine all’interno delle copie archiviate. In alternativa, si può accedere direttamente alla pagina web digitando l’URL del sito web nella barra degli indirizzi del browser e inserendo “web.archive.org/” prima dell’URL. Una volta sulla pagina, si può utilizzare la barra temporale per visualizzare versioni precedenti della pagina.
  4. Posso scaricare o salvare una copia di una pagina web da Web Archive? Risposta: Sì, è possibile scaricare o salvare una copia di una pagina web da Web Archive utilizzando la funzione “Save Page Now” presente sulla pagina delle copie archiviate.
  5. Come posso contribuire o fare una donazione a Web Archive? Risposta: È possibile fare una donazione a Web Archive tramite l’Internet Archive. C’è una pagina di donazione sul sito web dell’Internet Archive, dove è possibile fare una donazione online utilizzando una carta di credito o un conto PayPal. In alternativa si possono fare donazioni tramite bonifico o assegno.
  6. Come posso segnalare un problema o un errore su Web Archive? Risposta: È possibile segnalare un problema o un errore su Web Archive utilizzando la funzione di feedback presente sul sito web. In alternativa si può contattare l’assistenza tramite email o telefono.
  7. È gratuito utilizzare Web Archive? Risposta: Sì, l’utilizzo di Web Archive è gratuito e accessibile a chiunque.
  8. Quali sono gli utilizzi che posso fare di Web Archive? Risposta: Gli utilizzi possono includere la ricerca storica, la verifica della notizia, la conservazione legale, l’analisi della concorrenza, la conservazione del patrimonio culturale e altro ancora.
  9. Chi mantiene e finanzia Web Archive? Risposta: Web Archive è mantenuto e finanziato principalmente dalla Internet Archive, un’organizzazione no-profit con sede negli Stati Uniti.
  10. Quali sono i limiti di utilizzo di Web Archive? Risposta: Non ci sono limiti specifici per l’utilizzo di Web Archive, gli utenti possono effettuare quante ricerche desiderano. si raccomanda di rispettare le leggi sui diritti d’autore e di non utilizzare il contenuto archiviato per scopi commerciali senza il permesso degli autori.
  11. È possibile utilizzare il contenuto archiviato per scopi commerciali? Risposta: è possibile utilizzare il contenuto archiviato per scopi commerciali, se si ottiene il permesso degli autori e si rispettano le leggi sui diritti d’autore. In caso contrario, l’utilizzo del contenuto archiviato per scopi commerciali senza il permesso degli autori può essere considerato una violazione del copyright.
  12. Quanto spazio di archiviazione ha Web Archive? Risposta: Web Archive utilizza i server dell’Internet Archive per archiviare il contenuto. L’Internet Archive ha una grande quantità di spazio di archiviazione, che cresce continuamente per accogliere nuovi contenuti. Nel 2021 Internet Archive aveva più di 20 petabyte di spazio di archiviazione disponibile. Tuttavia, questo numero è in continua evoluzione perché l’Internet Archive continua ad acquisire nuovi contenuti e ad aggiornare i propri sistemi di archiviazione. Vale la pena notare che l’archivio di Web Archive non include solo le pagine web, ma anche video, audio, libri, software e altri tipi di contenuti. Quindi il volume di archiviazione richiesto è molto più grande di quello delle sole pagine web.

Alcune cose che vorrei aggiungere riguardo a Web Archive

  • Web Archive non archivia solo pagine web, ma anche video, audio, software e altri tipi di contenuti.
  • Web Archive è uno dei più grandi archivi digitali del mondo e contiene miliardi di pagine web e altri contenuti.
  • Web Archive è un progetto collaborativo, che accoglie contributi e feedback da parte degli utenti, per esempio attraverso la funzione “Save Page Now” che permette di salvare una copia di una pagina web e inviarla all’archivio.
  • Web Archive non solo archivia copie dei siti web, ma anche analizza e utilizza i dati per creare strumenti di ricerca avanzati e creare statistiche sull’uso di Internet.
  • Web Archive non ha scopo di lucro e che non utilizza i dati raccolti per profitto.
  • L’Internet Archive, che gestisce Web Archive, ha anche altri progetti interessanti come la Biblioteca Internet, che offre libri gratuiti e gratuiti, e la Open Library, che offre prestiti gratuiti di libri elettronici.

Spero che queste informazioni siano state utili per te. Se hai ulteriori domande o richieste, sarò felice di aiutarti.

Articoli correlati

Autore

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Ultimi articoli aggiornati

Richiedi un preventivo SEO e Google Ads

Porta il tuo sito web al livello successivo con l’expertise di EVE Milano. La nostra agenzia di Search Marketing ha ricevuto oltre 1130 richieste di preventivo, un segnale chiaro della fiducia che imprenditori e manager, come te, ripongono nella nostra specializzazione tecnica e verticale nella SEO e PPC. Se la tua organizzazione cerca competenze specifiche per emergere nei risultati di Google, noi siamo pronti a fornire quel valore aggiunto. Affidati alla nostra esperienza per fare la differenza.
Richiedi un preventivo

Non perderti altre guide, iscriviti per ricevere un avviso mensile con gli aggiornamenti del blog!

Iscriviti alla newsletter!

Informativa sui cookies

Noi e terze parti selezionate utilizziamo cookie o tecnologie simili per finalità tecniche e, con il tuo consenso, anche per le finalità di esperienza e misurazione come specificato nella cookie policy. Puoi liberamente prestare, rifiutare o revocare il tuo consenso, in qualsiasi momento, accedendo al pannello delle preferenze. Il rifiuto del consenso può rendere non disponibili le relative funzioni. Usa il pulsante “Accetta” per acconsentire. Usa il pulsante “Rifiuta” per continuare senza accettare.