Cos’è l’Information Retrieval

L’Information Retrieval (IR) è la disciplina che studia la rappresentazione, l’organizzazione e il recupero di informazioni da grandi collezioni di dati non strutturati — in particolare testi — in risposta a un bisogno informativo espresso dall’utente.

A differenza del Data Retrieval, che opera su dati strutturati con query SQL e restituisce risultati esatti, l’Information Retrieval lavora con documenti testuali dove non esiste una risposta binaria “trovato / non trovato”. I risultati vengono classificati per rilevanza stimata, e questa è la differenza fondamentale: l’IR introduce il concetto di ranking.

Nata negli anni ’50 per gestire archivi bibliotecari e collezioni legali, l’IR è diventata la disciplina centrale dell’informatica moderna con l’avvento del Web e dei motori di ricerca. Ogni ricerca su Google, ogni risposta di un chatbot AI, ogni sistema di raccomandazione ha alla base un sistema di Information Retrieval.

Per chi lavora nella SEO, comprendere l’IR non è opzionale: significa capire come un motore di ricerca decide quali documenti mostrare e in quale ordine.

Tipologie di dati: strutturati, non strutturati e semi-strutturati

L’IR nasce per gestire dati che non seguono uno schema rigido. Per comprendere il perimetro della disciplina è utile distinguere tre tipologie di dati.

Dati strutturati — organizzati in schemi predefiniti (tabelle, database relazionali). Ogni campo ha un tipo e un dominio. Le query SQL operano su questa tipologia con precisione deterministica.
Dati non strutturati — testi liberi, documenti, email, pagine web, file audio e video. Non esiste uno schema: il contenuto informativo è implicito e va estratto. Il Web è composto in larga parte da dati non strutturati.
Dati semi-strutturati — contengono marcatori che organizzano parzialmente l’informazione senza imporre uno schema rigido. XML, JSON, HTML rientrano in questa categoria. L’applicazione dell’IR a dati semi-strutturati prende il nome di Structured Information Retrieval (SIR).

Quando la collezione di riferimento è il Web, l’IR affronta una complessità senza precedenti: miliardi di documenti eterogenei, in lingue diverse, distribuiti su milioni di server, in costante mutamento.

Information Retrieval e Web Search

L’IR applicata al Web opera sulla porzione pubblica e indicizzabile di internet. L’obiettivo è restituire risultati rilevanti per il bisogno informativo dell’utente, che si classifica in diverse tipologie di intento di ricerca:

Informazionale — l’utente vuole approfondire un argomento. Esempio: “come funziona il DNS”.
Navigazionale — l’utente cerca una specifica risorsa o sito. Esempio: “Gmail login”.
Transazionale — l’utente intende compiere un’azione mediata dal web. Esempio: “acquistare monitor 4K”.
Commerciale — l’utente confronta opzioni prima di una decisione. Esempio: “miglior hosting WordPress 2026”.

Sfide della Web Search

La Web Search introduce problemi assenti nei sistemi IR tradizionali:

Distribuzione — i documenti risiedono su milioni di server eterogenei.
Volatilità — le pagine vengono create, modificate e rimosse continuamente.
Scala — l’indice di Google conta centinaia di miliardi di pagine.
Eterogeneità — formati diversi (HTML, PDF, video), lingue diverse, qualità variabile.
Query ambigue — le ricerche degli utenti sono in media composte da 2-4 termini, spesso imprecise, senza operatori logici, e con errori ortografici.
Spam e manipolazione — tecniche di SEO black-hat e contenuti di bassa qualità inquinano i risultati.

Queste sfide hanno spinto l’evoluzione dell’IR da modelli puramente testuali a sistemi che integrano segnali strutturali (come il PageRank), comportamentali e, più recentemente, semantici.

Indicizzazione: indici invertiti e preprocessing testuale

Prima di poter rispondere a una query, un sistema IR deve indicizzare la collezione di documenti. La struttura dati fondamentale è l’indice invertito (inverted index): invece di mappare ogni documento alle parole che contiene, mappa ogni termine alla lista dei documenti in cui appare.

Un indice invertito è composto da due elementi:

Dizionario (vocabulary) — l’insieme ordinato di tutti i termini distinti nella collezione.
Posting list — per ogni termine, la lista dei documenti che lo contengono, con eventuali metadati (posizione, frequenza).

Esempio: per i termini “algoritmo” e “ranking”, l’indice invertito contiene le liste dei documenti in cui ciascun termine appare, ordinate per identificativo o per rilevanza. Il recupero dei documenti che contengono entrambi i termini si riduce a un’operazione di intersezione tra le due posting list.

Pipeline di preprocessing

La costruzione dell’indice richiede una pipeline di trasformazione del testo grezzo in termini indicizzabili.

Tokenizzazione — il testo viene segmentato in token. Questa fase gestisce trattini (de-hyphenation), punteggiatura, maiuscole/minuscole e casi ambigui come “New York” (un concetto, due token) o “192.168.0.1” (un token speciale).

Eliminazione delle stopword — articoli, congiunzioni e verbi ausiliari vengono rimossi perché non discriminanti ai fini della rilevanza. Questa operazione riduce la dimensione dell’indice e il rumore nei risultati. L’approccio non è universale: la query “to be or not to be” verrebbe distrutta dalla rimozione delle stopword.

Stemming — riduce i termini alla loro radice tramite regole morfologiche. L’algoritmo di Porter è il più noto per l’inglese: “automate”, “automatic”, “automation” diventano tutti “automat”. Lo stemming è euristico e può produrre errori (falsi positivi e falsi negativi).

Lemmatizzazione — a differenza dello stemming, riporta le parole alla loro forma canonica usando l’analisi morfologica: “am”, “are”, “is” diventano “be”. È più precisa ma computazionalmente più costosa.

Thesauri e sinonimi — gestiscono le equivalenze semantiche tramite espansione dell’indice (inserire “automobile” nella posting list di “auto”) o espansione della query (cercare anche “automobile” quando l’utente digita “auto”). L’espansione della query è generalmente preferita perché non gonfia l’indice.

Il modello booleano

Il modello booleano è il primo modello formale di IR, basato sulla teoria degli insiemi e l’algebra booleana. Le query sono espressioni logiche composte da termini collegati dagli operatori AND, OR e NOT.

Il giudizio di rilevanza è binario: un documento soddisfa la query oppure no. Non esiste ranking, non esiste “più o meno rilevante”. I pesi sono binari: w_kj ∈ {0, 1}.

Limiti del modello booleano:

L’assenza di ranking rende inutilizzabile il modello per collezioni grandi: una query AND troppo specifica restituisce zero risultati, una query OR troppo generica ne restituisce migliaia non ordinati.
L’utente deve conoscere la collezione e formulare query precise con operatori logici — impraticabile per l’utente medio del Web.
Non considera la frequenza dei termini né la lunghezza dei documenti.

Il modello booleano è stato storicamente il primo ad essere implementato, ma le sue limitazioni hanno portato allo sviluppo del modello vettoriale.

Il modello vettoriale e TF-IDF

Il modello vettoriale, proposto da Gerard Salton nel framework SMART (1971), supera il limite binario del modello booleano assegnando a ogni termine un peso numerico. Documenti e query sono rappresentati come vettori in uno spazio n-dimensionale, dove n è il numero di termini distinti nel vocabolario.

Term Frequency (TF)

Il primo passo è contare quante volte un termine appare in un documento. Ma il conteggio grezzo favorisce documenti lunghi. La term frequency normalizzata risolve questo problema: tf(t,d) = numero di occorrenze di t in d / numero totale di termini in d.

Una variante logaritmica attenua l’effetto dei conteggi elevati: wf(t,d) = 1 + log(tf(t,d)) se tf > 0, altrimenti 0. Questo riflette l’intuizione che 10 occorrenze non rendono un termine 10 volte più rilevante rispetto a una sola occorrenza.

Inverse Document Frequency (IDF)

Non tutti i termini sono ugualmente discriminanti. La parola “il” appare in quasi tutti i documenti italiani e non aiuta a distinguerli. L’Inverse Document Frequency misura la rarità di un termine nella collezione: idf(t) = log(N / df(t)), dove N è il numero totale di documenti e df(t) il numero di documenti che contengono t.

Termini rari hanno IDF alto, termini comuni IDF basso.

Lo schema di pesatura TF-IDF

Il peso TF-IDF di un termine in un documento è il prodotto: w(t,d) = tf(t,d) × idf(t). Un termine frequente in un documento ma raro nella collezione riceve il peso più alto — è il termine più discriminante per quel documento.

Similarità coseno

Per determinare quanto un documento è rilevante rispetto a una query, si calcola la similarità del coseno tra i due vettori. Il coseno dell’angolo tra due vettori misura la loro “direzione” nello spazio, indipendentemente dalla lunghezza (normalizzazione naturale): cos(θ) = (d · q) / (|d| × |q|).

Due documenti che parlano dello stesso argomento avranno vettori con direzione simile (coseno vicino a 1), anche se uno è molto più lungo dell’altro.

Il modello vettoriale con TF-IDF ha dominato l’Information Retrieval per decenni e resta una delle fondamenta della disciplina.

BM25: lo standard de facto

Il modello vettoriale con TF-IDF ha un problema: la saturazione della term frequency non è modellata in modo ottimale, e la normalizzazione per lunghezza del documento è rigida. BM25 (Best Matching 25), sviluppato da Stephen Robertson e Karen Spärck Jones negli anni ’90 nell’ambito del framework probabilistico Okapi, risolve entrambi i problemi ed è diventato lo standard de facto per il ranking testuale.

La formula BM25 per lo score di un documento d rispetto a una query q è:

score(d, q) = Σ_t∈q idf(t) × (tf(t,d) × (k₁ + 1)) / (tf(t,d) + k₁ × (1 − b + b × |d| / avgdl))

Dove:

k₁ controlla la saturazione della TF: valori alti rendono lo score più sensibile alla frequenza, valori bassi lo appiattiscono. Il valore tipico è 1.2.
b controlla la normalizzazione per lunghezza del documento rispetto alla lunghezza media (avgdl). Con b = 0 non c’è normalizzazione; con b = 1 la normalizzazione è completa. Il valore tipico è 0.75.
|d| è la lunghezza del documento, avgdl la lunghezza media nella collezione.

BM25 migliora TF-IDF in tre aspetti cruciali:

Saturazione della TF — dopo un certo numero di occorrenze, aggiungere altre occorrenze del termine non aumenta significativamente lo score. TF-IDF cresce linearmente, BM25 satura.
Normalizzazione per lunghezza adattiva — il parametro b consente di calibrare quanto la lunghezza del documento influenza lo score.
Fondamento probabilistico — BM25 è derivato dal Probability Ranking Principle, non è un’euristica ad hoc.

BM25 è stato per oltre 20 anni l’algoritmo di ranking dominante nei motori di ricerca, nei sistemi di ricerca enterprise e nei benchmark accademici. Elasticsearch e Apache Lucene lo usano come funzione di scoring predefinita. Anche nell’era del deep learning, BM25 resta un baseline competitivo e una componente chiave dei sistemi di retrieval ibridi.

Valutazione dei sistemi IR

Come si misura la qualità di un sistema IR? La velocità di indicizzazione e di ricerca sono metriche importanti, ma la misura fondamentale è la qualità del ranking: i documenti restituiti sono effettivamente rilevanti per l’utente?

Precision e Recall

Le due metriche classiche:

Precision — la frazione di documenti restituiti che sono rilevanti. P = |Rilevanti ∩ Restituiti| / |Restituiti|.
Recall — la frazione di documenti rilevanti che sono stati restituiti. R = |Rilevanti ∩ Restituiti| / |Rilevanti|.

Precision e Recall sono in tensione: aumentare il numero di risultati restituiti tende ad aumentare il Recall (si trovano più documenti rilevanti) ma a diminuire la Precision (si includono anche documenti non rilevanti).

Metriche di ranking

Le metriche binarie non catturano la posizione dei documenti rilevanti nel ranking. Metriche più sofisticate:

Precision@k — la precision calcolata solo sui primi k risultati.
Mean Average Precision (MAP) — la media delle Average Precision su un set di query. L’Average Precision è la media delle precision calcolate a ogni posizione in cui appare un documento rilevante.
nDCG (Normalized Discounted Cumulative Gain) — tiene conto di giudizi di rilevanza graduali (non solo binari) e penalizza i documenti rilevanti posizionati in basso nel ranking con un fattore di sconto logaritmico. È la metrica standard nei benchmark moderni.
MRR (Mean Reciprocal Rank) — media del reciproco della posizione del primo documento rilevante. Utile per task dove conta solo il primo risultato corretto (question answering).

Benchmark e collezioni di test

La valutazione sistematica richiede collezioni standardizzate con giudizi di rilevanza umani:

TREC (Text REtrieval Conference) — organizzata dal NIST dal 1992, è il benchmark storico dell’IR. Include diverse “track” specializzate (web, deep learning, conversational).
BEIR (Benchmarking IR) — benchmark multi-dominio per valutare la generalizzazione zero-shot dei modelli di retrieval. Include 18 dataset con task diversi.
MTEB (Massive Text Embedding Benchmark) — valuta i modelli di embedding su 56 dataset e 8 task, incluso il retrieval. È il benchmark di riferimento per i modelli di embedding moderni.

Il modello probabilistico

Il modello probabilistico dell’IR, formalizzato da Robertson e Spärck Jones negli anni ’70, classifica i documenti in ordine di probabilità di rilevanza rispetto alla query: P(R=1 | d, q).

Il Probability Ranking Principle (PRP)

Il principio fondante: se i documenti vengono ordinati per probabilità decrescente di rilevanza, si ottiene il ranking ottimale — cioè quello che massimizza l’utilità attesa per l’utente. Applicando il teorema di Bayes: P(R | d, q) = P(d | R, q) × P(R | q) / P(d | q).

Binary Independence Model (BIM)

Il BIM è la realizzazione più semplice del modello probabilistico. Assume l’indipendenza dei termini (la presenza di un termine non influenza la probabilità di presenza di un altro) e usa una rappresentazione binaria (un termine è presente o assente, senza contarne la frequenza). Nonostante le semplificazioni, il BIM fornisce le basi teoriche per BM25.

Reti bayesiane per l’IR

Le reti bayesiane rilassano l’ipotesi di indipendenza tra termini, modellando le dipendenze condizionali tramite grafi diretti aciclici. Ogni nodo rappresenta una variabile (termine, documento, query, rilevanza) e gli archi rappresentano influenze probabilistiche. Questo approccio consente di catturare relazioni come la correlazione tra termini co-occorrenti, a costo di una complessità computazionale maggiore.

Latent Semantic Indexing (LSI)

I modelli vettoriali e probabilistici operano a livello di singoli termini. Ma “automobile” e “macchina” sono semanticamente equivalenti pur essendo termini diversi, e “giaguaro” può riferirsi a un animale o a un’automobile. Il Latent Semantic Indexing (LSI), proposto da Deerwester et al. nel 1990, affronta i problemi di sinonimia e polisemia identificando pattern di co-occorrenza tra termini.

LSI applica la Singular Value Decomposition (SVD) alla matrice termine-documento, riducendone la dimensionalità. I termini che co-occorrono frequentemente (ad esempio “gerarchia”, “ordinamento”, “classificazione”) vengono raggruppati in uno stesso “concetto latente”. Una query per “gerarchia ordinamento” recupererà anche documenti che contengono solo “classificazione”.

Limiti di LSI:

La SVD è computazionalmente costosa per collezioni grandi.
Le dimensioni latenti non sono interpretabili.
Non gestisce la polisemia in modo esplicito: un termine polisemico viene collocato in un punto intermedio tra i suoi significati.

LSI ha aperto la strada ai modelli di rappresentazione distribuita (topic model, word embedding) che oggi dominano l’NLP.

Relevance Feedback e Query Expansion

Le query degli utenti sono brevi e ambigue. Il Relevance Feedback e la Query Expansion sono tecniche per migliorare il recall e la precisione raffinando la query originale.

Relevance Feedback

Dopo aver mostrato i risultati iniziali, il sistema chiede all’utente di indicare quali sono rilevanti. Usa questo feedback per riformulare la query con due strategie:

Query Expansion — aggiunge alla query nuovi termini estratti dai documenti selezionati come rilevanti.
Term Reweighting — aumenta il peso dei termini presenti nei documenti rilevanti, diminuisce quello dei termini nei documenti non rilevanti (formula di Rocchio).

Il feedback esplicito è poco usato nel Web perché gli utenti raramente interagiscono con i controlli di rilevanza. Il Pseudo Relevance Feedback assume che i primi k documenti restituiti siano rilevanti e usa i loro termini per espandere automaticamente la query.

Query Expansion automatica

La query expansion può operare a livello globale o locale:

Globale (thesaurus-based) — usa risorse lessicali come WordNet per aggiungere sinonimi. Aumenta il recall ma può ridurre la precision per ambiguità semantica.
Locale (corpus-based) — analizza le co-occorrenze nei documenti inizialmente recuperati. Riduce il problema dell’ambiguità perché opera su un contesto specifico.

Google implementa la query expansion attraverso stemming, correzione ortografica, espansione con sinonimi contestuali e traduzione cross-linguistica. I modelli neurali moderni hanno reso questo processo più sofisticato, come vedremo nelle sezioni successive.

Neural Information Retrieval: la rivoluzione dei Transformer

Fino al 2018, l’Information Retrieval era dominata da modelli statistici “sparse” (BM25, modelli di lingua) che operano sul matching esatto dei termini. L’avvento dei Transformer — l’architettura neurale introdotta da Vaswani et al. nel 2017 con il paper “Attention Is All You Need” — ha cambiato radicalmente la disciplina.

La differenza fondamentale: i modelli classici confrontano parole, i modelli neurali confrontano significati. Un sistema neurale comprende che “come curare l’influenza” e “trattamento sindrome influenzale” esprimono lo stesso bisogno informativo, anche senza condividere termini.

Da Word2Vec ai Transformer

L’evoluzione delle rappresentazioni testuali in IR segue un percorso preciso:

Word2Vec (2013) — rappresenta ogni parola come un vettore denso in uno spazio continuo. Cattura relazioni semantiche (“re” – “uomo” + “donna” ≈ “regina”) ma produce un embedding statico per parola: “banco” ha la stessa rappresentazione sia nel contesto di una scuola che di una banca.
ELMo (2018) — introduce embedding contestuali tramite LSTM bidirezionali. La rappresentazione di “banco” cambia in base al contesto. Primo passo verso la comprensione contestuale, ma l’architettura sequenziale limita il parallelismo.
BERT (2018) — usa l’architettura Transformer con self-attention bidirezionale. Ogni token viene rappresentato in funzione di tutti gli altri token nel testo, catturando dipendenze a lunga distanza. Il modello viene pre-addestrato su enormi corpora e poi fine-tuned su task specifici.

BERT e i Transformer nell’Information Retrieval

L’applicazione dei Transformer all’IR si articola in due paradigmi architetturali con caratteristiche complementari.

Cross-encoder (reranker)

Il cross-encoder riceve in input la concatenazione di query e documento e produce direttamente uno score di rilevanza. Ogni coppia query-documento viene processata congiuntamente, consentendo interazioni fini tra i termini della query e quelli del documento.

Vantaggi — qualità del ranking superiore, cattura interazioni complesse tra query e documento.
Limiti — non scalabile come primo stadio di retrieval. Valutare milioni di documenti con un cross-encoder è computazionalmente proibitivo. Viene usato come reranker sui top-k risultati di un primo stadio veloce (BM25 o dense retrieval).

MonoBERT e MonoT5 sono esempi di cross-encoder usati nella pipeline di reranking.

Bi-encoder (dense retriever)

Il bi-encoder codifica query e documento separatamente in vettori densi. La rilevanza è calcolata come similarità (coseno o prodotto scalare) tra i due vettori. Poiché i vettori dei documenti possono essere pre-calcolati offline, la ricerca si riduce a un Approximate Nearest Neighbor (ANN) search — operazione efficiente anche su miliardi di documenti grazie a librerie come FAISS.

Vantaggi — scalabile, adatto al primo stadio di retrieval.
Limiti — la codifica separata impedisce interazioni dirette tra query e documento, riducendo la qualità del ranking rispetto al cross-encoder.

BERT in Google Search

Google ha introdotto BERT nel proprio sistema di ranking a ottobre 2019, definendolo “il più grande cambiamento negli ultimi 5 anni”. BERT migliora la comprensione delle query complesse, specialmente quelle con preposizioni e congiunzioni il cui significato cambia il senso della ricerca (ad esempio “volo da Milano a Roma” vs “volo da Roma a Milano”).

Successivamente, Google ha introdotto MUM (Multitask Unified Model) nel 2021 — un modello basato su T5 che comprende 75 lingue e processa testo e immagini simultaneamente.

Dense Retrieval

Il Dense Retrieval rappresenta il cambio di paradigma più significativo nell’IR degli ultimi anni. Invece di confrontare termini esatti (sparse retrieval), documenti e query vengono codificati in vettori densi in uno spazio semantico condiviso.

Dense Passage Retrieval (DPR)

DPR, proposto da Karpukhin et al. (Facebook AI Research, 2020), è il lavoro fondativo. Usa due encoder BERT separati — uno per la query, uno per il passaggio — addestrati con contrastive learning su coppie (query, passaggio rilevante). DPR ha migliorato il recall nei primi 20 risultati del 9-19% rispetto a BM25 sui benchmark di question answering.

Modelli di embedding moderni

L’evoluzione post-DPR ha prodotto modelli di embedding sempre più potenti:

Sentence-BERT — adatta BERT per produrre sentence embedding efficienti tramite pooling e fine-tuning con loss contrastive.
ColBERT — approccio “late interaction”: calcola embedding per ogni token di query e documento, poi esegue un’interazione leggera (MaxSim) che offre un compromesso tra la qualità del cross-encoder e l’efficienza del bi-encoder.
E5, GTE, BGE — modelli instruction-tuned addestrati su enormi dataset di coppie query-documento, che dominano le classifiche MTEB.
Embedding multimodali — modelli come CLIP estendono il retrieval a immagini e testo nello stesso spazio vettoriale.

Ricerca ibrida: sparse + dense

Né il retrieval sparse (BM25) né quello dense sono sufficienti da soli. BM25 eccelle nel matching esatto di termini rari e tecnici, ma fallisce con le query semantiche. Il dense retrieval cattura il significato ma può perdere keyword specifiche. La ricerca ibrida combina entrambi gli approcci.

Architettura tipica

Un sistema di retrieval ibrido moderno opera in più stadi:

Retrieval parallelo — BM25 e dense retriever eseguono una ricerca indipendente e ciascuno restituisce i propri top-k candidati.
Fusione — i risultati vengono combinati tramite score interpolation (α × score_BM25 + (1-α) × score_dense) o Reciprocal Rank Fusion (RRF).
Reranking — un cross-encoder riordina i candidati combinati per massimizzare la precisione dei risultati finali.

Nei benchmark, i sistemi ibridi superano le singole componenti del 10-30%. Elasticsearch 8+, Vespa, Weaviate e Qdrant supportano nativamente la ricerca ibrida.

Learned Sparse Retrieval

Un approccio intermedio è il learned sparse retrieval: modelli come SPLADE usano reti neurali per produrre rappresentazioni sparse (come BM25) ma con pesi appresi. SPLADE espande i termini della query con sinonimi e termini correlati direttamente nello spazio sparse, combinando l’efficienza degli indici invertiti con la comprensione semantica delle reti neurali.

IR e LLM: Retrieval-Augmented Generation

Il Retrieval-Augmented Generation (RAG) è l’applicazione più diretta dell’IR nel contesto dei Large Language Model. Invece di affidarsi esclusivamente alla conoscenza codificata nei parametri del modello, un sistema RAG recupera documenti rilevanti da una knowledge base e li fornisce come contesto al modello generativo.

L’architettura RAG si compone di due moduli:

Retriever — un sistema IR (dense, sparse o ibrido) che recupera i documenti più rilevanti dalla knowledge base dato il prompt dell’utente.
Generator — un LLM che genera la risposta condizionata sia sul prompt che sui documenti recuperati.

RAG risolve due problemi critici dei LLM:

Allucinazioni — il modello può ancorarsi a documenti reali invece di inventare informazioni.
Aggiornamento della conoscenza — aggiornare la knowledge base è più semplice e meno costoso che ri-addestrare il modello.

La qualità del retriever è il collo di bottiglia di un sistema RAG: se il retriever non trova i documenti giusti, il generatore non può produrre risposte accurate. Le tecniche di content chunking — come i documenti vengono segmentati prima dell’indicizzazione — hanno un impatto diretto sulle performance del retrieval.

Per la SEO, RAG ha implicazioni profonde: i sistemi di AI Search (Google AI Overviews, Bing Chat, Perplexity) usano architetture RAG per generare risposte. I contenuti che vengono recuperati dal retriever sono quelli che appaiono nelle risposte AI — un nuovo campo di ottimizzazione che va oltre il ranking tradizionale delle SERP.

Perché l’Information Retrieval è fondamentale per la SEO

L’Information Retrieval non è una disciplina accademica separata dalla SEO — è la SEO nella sua forma più pura. Ogni decisione di ranking di Google è un problema di IR.

TF-IDF e BM25 spiegano perché la densità delle keyword conta ma fino a un punto (saturazione), e perché i documenti troppo lunghi senza sostanza vengono penalizzati (normalizzazione per lunghezza).
Gli indici invertiti spiegano perché l’indicizzazione è un prerequisito della visibilità: se una pagina non è nell’indice, non esiste per il motore di ricerca.
La query expansion spiega perché Google restituisce risultati anche per termini non presenti nella query — e perché ottimizzare per sinonimi e termini correlati ha senso.
I Transformer e BERT spiegano perché Google oggi “capisce” il contenuto e non si limita a contare keyword — e perché il search intent è diventato il fattore di ranking dominante.
Il dense retrieval e gli embedding spiegano come Google rappresenta le pagine in uno spazio semantico e perché la similarità del coseno tra contenuto e query determina il posizionamento.
RAG spiega il funzionamento di Google AI Overviews e delle risposte AI — e come ottimizzare i contenuti perché vengano selezionati dai retriever dei sistemi generativi.

L’IR è in continua evoluzione. Dai modelli booleani degli anni ’70 a BM25, dai Transformer a RAG, ogni generazione di modelli ha ridefinito le regole del posizionamento. Chi lavora nella SEO senza comprendere queste fondamenta costruisce su sabbia.

Fonti e riferimenti

Manning, C. D., Raghavan, P., Schütze, H. — Introduction to Information Retrieval, Cambridge University Press, 2008
Robertson, S., Zaragoza, H. — The Probabilistic Relevance Framework: BM25 and Beyond, Foundations and Trends in IR, 2009
Devlin, J. et al. — BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, NAACL, 2019
Karpukhin, V. et al. — Dense Passage Retrieval for Open-Domain Question Answering, EMNLP, 2020
Lewis, P. et al. — Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, NeurIPS, 2020
Khattab, O., Zaharia, M. — ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT, SIGIR, 2020
Formal, T. et al. — SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking, SIGIR, 2021
Vaswani, A. et al. — Attention Is All You Need, NeurIPS, 2017
Wikipedia — Information Retrieval

Commenti |3

Lascia un commento

Daniele 1 commento

23/05/2017 alle 02:17

Questa risorsa è una bomba! Complimenti veramente!

Rispondi
1. Giovanni Sacheli 774 risposte
  
  23/05/2017 alle 12:37
  
  Ciao Daniele, grazie mille per il commento!
  
  Rispondi
Massimo Liani 1 commento

13/03/2021 alle 10:26

Molto interessante, mi sembrava di seguire un corso all’università.

Rispondi