Si diceva una volta che il segreto industriale meglio custodito fosse quello della ricetta della Coca-Cola ma questo primato andrebbe perlomeno attribuito ex aequo anche al codice di Google Ranking, l’algoritmo che stabilisce in quale ordine i risultati di una ricerca effettuata sull’omonimo motore saranno presentati all’utente.
Proprio come la ricetta della Coca-Cola, anche il Google Ranking è cambiato nel tempo e i tentativi di carpirne i segreti hanno dato vita a un vero e proprio settore di mercato, quello denominato SEO (Search Engine Optimization) ovvero prodotti e servizi di consulenza che aiutano il gestore di un sito web a scalare la classifica dei risultati di Google rispetto a determinate chiavi di ricerca.
E la prima notizia potrebbe essere che, malgrado l’ultimo recentissimo e importante leaks di documenti di Google di cui si sta per parlare, il primato resiste.
Ma andiamo per ordine.
GOOGLE LEAKS, I FATTI
È stato un esperto di SEO, Rand Fiskin, a diffondere qualche giorno fa, tramite un post sul proprio sito, la notizia che circa 2500 documenti della Divisione Google Search erano stati caricati in una sezione del portale Git Hub gestita direttamente da Google e resi pubblici con licenza di tipo Open Source.
I documenti sono relativi a una versione precedente delle Google’s Content Warehouse API (quelli più recenti sono di giugno 2023) e sono rimasti accessibili da metà marzo ai primi di maggio di quest’anno. Anche se il leak è stato poi richiuso, il tipo di licenza associato ai documenti autorizza chi ne è venuto in possesso a ridiffonderli. E di conseguenza è stato prontamente messo in piedi un sito che consente di visionarli on line.
Il contenuto dei documenti è classificabile in due tipologie: parametri, che forniscono un interessante spaccato sulla miriade di dati, raccolti o elaborati, e resi potenzialmente disponibili all’algoritmo di ranking o ad altri prodotti di Google, e moduli, che forniscono informazioni agli sviluppatori su come connettere questi dati con la piattaforma cloud di Google.
Nei documenti non ci sono tracce di codice né altre informazioni che possono confermare se e quali di queste informazioni vengano attualmente utilizzate dall’algoritmo di ranking ma in pochi dubitano che la maggioranza dei parametri descritti lo sia.
Il merito della scoperta del leak non è di Rand Fiskin ma di Erfan Azimi, un altro SEO che inizialmente aveva contattato via mail Fiskin in forma anonima e successivamente ha deciso di uscire allo scoperto girando anche un video in cui motiva il suo gesto con la necessità che venga resa nota la verità sui meccanismi e sui dati utilizzati dall’algoritmo Google Ranking.
I documenti sono stati visionati da esperti SEO e da ex dipendenti di Google che hanno confermato la provenienza da Google.
COSA È EMERSO FINORA DAL LEAK
L’aspetto simbolicamente più rilevante che emerge dall’analisi dei documenti è che gli stessi contraddicono più di una affermazione pubblicamente fatta in passato da Google o dai suoi collaboratori.
Parametri quali la forza del brand, l’autorevolezza di un sito o la sua età (calcolata anche recuperando e memorizzando la data della sua registrazione) erano stati categoricamente esclusi tra quelli presi in considerazione dall’algoritmo di ranking.
I documenti smentiscono Google anche relativamente all’utilizzo del parametro CTR (Click Through Rate), ovvero il rapporto tra i click ricevuti da una inserzione e le sue visualizzazioni, e confermano l’esistenza di un parametro ChromeInTotal che contabilizza l’insieme dei click raccolti dagli utenti del browser Google Chrome per accedere a uno specifico sito. E ciò, a prescindere dal suo effettivo utilizzo, costituisce una smentita rispetto a quanto emerso in passato.
I click non vengono solo contati ma anche pesati: uno degli attributi misurati è la lunghezza temporale del click ovvero il tempo che l’utente passa su un sito prima di ritornare alla lista di risultati da cui è partito.
Scorrendo la lista dei 14mila e più parametri se ne incontrano anche alcuni decisamente singolari: uno di questi calcola la media pesata della grandezza dei font utilizzati in un documento(!).
Infine, va notata la presenza di parametri i cui nomi lasciano supporre che Google, rispetto a specifici temi quali viaggi, Covid ed elezioni politiche, abbia predisposto delle liste di siti considerati autorevoli che vengono promossi verso la parte alta dei risultati nel caso di ricerche collegate a questi temi.
LE REAZIONI AL GOOGLE LEAKS
L’autore del leak ha dichiarato a The Verge di essere stato successivamente contattato da Google per rettificare la descrizione fatta di alcuni parametri ma che la stessa non avrebbe messo in dubbio la veridicità dei documenti.
Google, contattata da altri media del settore, si è inizialmente rifiutata di fornire dichiarazioni ma ha poi confermato l’autenticità dei documenti e li ha riconosciuti come propri ma sconsigliandone l’utilizzo in quanto documenti obsoleti.
D’altro canto, va tenuto conto che Google è attualmente in una posizione delicata in quanto è tuttora in piedi il processo che la vede accusata dal Dipartimento di Giustizia Usa di violazione della legge sulla concorrenza e di abuso di posizione dominante. E proprio il giudice che sta conducendo il processo a settembre scorso ha stabilito che tutti i documenti depositati durante le udienze possono essere resi pubblici già dalla fine del giorno di udienza a meno di un ricorso di Google che deve essere presentato entro le 21 del giorno stesso.
La notizia del leak ha messo in subbuglio l’intero settore SEO che l’ha ampiamente rilanciata e discussa, non senza sottolineare come quanto sta emergendo confermi l’importanza del loro lavoro per il posizionamento nei motori di ricerca.
La questione non sembra destinata a esaurirsi velocemente anche perché l’analisi approfondita della massa di documenti richiederà tempo e altre sorprese potrebbero emergere successivamente. Chi è interessato potrà seguire gli articoli di Mike King, il super esperto SEO a cui Rand Fiskin ha chiesto inizialmente supporto per l’analisi dei documenti.