Alcuni documenti interni dell’API Content Warehouse di Google Search sono trapelati nei giorni scorsi, rivelando informazioni preziose su come funziona l’algoritmo di Google.
Il clamore nasce perché la fuga di notizie include dettagli sull’archiviazione dei dati, i link e le interazioni degli utenti, contraddicendo alcune delle dichiarazioni pubbliche rilasciate dall’azienda nel corso degli anni. Già le prime analisi dei documenti mostrano le potenziali ripercussioni che queste rivelazioni possono avere in ambiti come SEO, marketing ed editoria.
Come funziona davvero l’algoritmo di Google?
La fuga di notizie sul materiale è stata rivelata da Rand Fishkin e Mike King, che hanno pubblicato le prime analisi dei documenti e dei loro contenuti.
Questi due esperti in ambito SEO hanno esaminato i documenti di riferimento dell’API e li hanno contestualizzati con altre precedenti fughe di notizie di Google e con la testimonianza dell’antitrust del DOJ. Sulla base delle loro ricerche sono emersi alcuni fattori interessanti.
La fuga di notizie relativa alla diffusione di documenti interni non è stata ufficialmente confermata da Google, che tramite il suo portavoce si è limitato a mettere “in guardia dal fare ipotesi imprecise su Search basate su informazioni fuori contesto, non aggiornate o incomplete”.
1. Uso dei dati clickstream
Nei primi anni di attività, Google ha riconosciuto la necessità di disporre di dati clickstream completi per migliorare la qualità dei risultati di ricerca. Un sistema chiamato NavBoost, inizialmente raccolto dalla Toolbar PageRank di Google, ha spinto la creazione del browser Chrome nel 2008 per ottenere maggiori dati sul flusso di click degli utenti.
NavBoost utilizza il numero di ricerche per una determinata parola chiave e il numero di click su un risultato di ricerca per identificare tendenze di domanda e qualità delle pagine.
NavBoost assegna un punteggio alle query basato sull’intento dell’utente e utilizza dati a livello di host per valutare la qualità complessiva di un sito, determinandone un aumento o una retrocessione. Questi dati sono usati per migliorare i risultati di ricerca per query specifiche e per combattere lo spam di click manuale e automatico.
Inoltre, per determinare la rilevanza e la qualità dei siti web, Google considererebbe i click e l’engagement sia durante sia dopo la query principale.
2. Uso di click, CTR, click lunghi e brevi e dati utente
Stando alla documentazione trapelata, sembra che l’algoritmo di Google segua dei criteri per filtrare i click che non vuole conteggiare nei suoi sistemi di ranking e per includerne invece altri, misurando anche la durata dei click – cioè quando un utente fa click su un risultato e poi clicca rapidamente sul pulsante indietro perché insoddisfatto della risposta che ha trovato – e le impressioni.
3. Whitelist
I riferimenti in diversi punti dei documenti a flag per “isCovidLocalAuthority” e “isElectionAuthority” suggeriscono che l’algoritmo di Google inserisce in whitelist particolari domini, ovvero quelli che è opportuno mostrare per query altamente controverse o potenzialmente problematiche, come le elezioni o durante il Covid.
4. Uso dei dati sui click per pesare i link nel ranking
I dati relativi ai click vengono utilizzati per determinare a quale livello dell’indice del grafico dei link appartiene un documento.
Se un link non ha click entrerà nell’indice di bassa qualità e verrà ignorato. Se invece ha un alto volume di click da dispositivi verificabili, il link entrerà nell’indice di alta qualità e passerà i segnali di ranking. Una volta che il link è diventato affidabile perché appartiene a un indice di livello superiore, può fluire PageRank e ancore, oppure essere filtrato/eliminato dai sistemi di link spam.
La trasparenza e la responsabilità rimangono temi cruciali per comprendere e fidarsi del motore di ricerca più influente al mondo.
Questa fuga di notizie fornisce uno sguardo approfondito su come Google utilizza i dati degli utenti e i feedback per migliorare e affinare il suo algoritmo di ricerca. Mentre alcune delle rivelazioni erano già state suggerite in precedenza, altre offrono nuovi spunti sulla complessità e l’efficacia dei sistemi di ranking di Google.