In che modo Google scopre, sottopone a scansione e restituisce le pagine web?
Ecco una spiegazione dettagliata di come funziona la ricerca di Google.
Google riceve le informazioni da molte posizioni diverse, tra cui:
- Pagine web
- Contenuti inviati dagli utenti, come quelli di Google My Business e Maps
- Scansioni di libri
- Database pubblici su Internet
- Quasi tutto ciò che è pubblico su internet
Scansione
La scansione è il processo di ricerca di pagine nuove o aggiornate da aggiungere a Google.
Uno dei motori di scansione di Google esegue la scansione della pagina. I termini “eseguire la scansione” e “indicizzare” vengono spesso usati come sinonimi, anche se riguardano azioni diverse (ma strettamente correlate).
La scansione è l’operazione con cui Googlebot rileva pagine nuove e aggiornate da aggiungere all’indice di Google.
Il programma che effettua questa operazione è denominato Googlebot (noto anche come robot, bot o spider). Googlebot utilizza un processo algoritmico: programmi software determinano i siti di cui eseguire la scansione, con quale frequenza e quante pagine recuperare di ogni sito.
Il processo di scansione di Google inizia con un elenco di URL di pagine web, generato da precedenti processi di scansione e integrato con i dati delle Sitemap fornite dai webmaster.
Quando visita ciascuno di questi siti web, Googlebot rileva i link su ogni pagina e li aggiunge al proprio elenco di pagine da sottoporre a scansione.
I siti nuovi, gli aggiornamenti di siti esistenti e i link non più validi vengono registrati e utilizzati per aggiornare l’indice di Google.
Come fa Google a trovare una pagina?
Google utilizza diverse tecniche per trovare una pagina, tra cui:
- Seguire i link da altri siti o pagine
- Leggere le Sitemap
Come fa Google a sapere quali pagine non devono essere sottoposte a scansione?
- Le pagine bloccate nel file robots.txt non vengono sottoposte a scansione, ma potrebbero essere indicizzate se sono collegate ad altre pagine. Google può dedurre il contenuto di una pagina dal link che rimanda ad essa e indicizzarla senza analizzarne il contenuto.
- Google non può eseguire la scansione di pagine non accessibili a un utente anonimo. Pertanto, qualsiasi richiesta di accesso o autorizzazione a protezione della pagina ne impedirà la scansione.
Migliorare la scansione
Utilizza queste tecniche per aiutare Google a scoprire le pagine giuste sul tuo sito:
- Invia una Sitemap.
- Invia richieste di scansione per singole pagine.
- Utilizza un percorso dell’URL semplice, leggibile e logico per le tue pagine e fornisci collegamenti interni chiari e diretti all’interno del sito.
- Se spezzi lunghi articoli su più pagine, indica chiaramente la paginazione a Google.
- Se nel tuo sito utilizzi parametri URL per la navigazione, ad esempio se indichi il paese dell’utente in un sito di acquisti internazionale, utilizza lo strumento Parametri URL per comunicare a Google i parametri importanti.
- Utilizza il file robots.txt con criterio, ad esempio per indicare a Google di quali pagine preferiresti venisse a conoscenza o eseguisse prima la scansione, in modo da proteggere il carico del server. Non utilizzarlo come metodo per impedire a del materiale di comparire nell’indice di Google.
- Utilizza hreflang per rimandare a pagine in altre lingue.
- Identifica chiaramente la tua pagina canonica e le pagine alternative.
- Visualizza la copertura dell’indice e della scansione utilizzando il Rapporto di copertura dell’indice.
Indicizzazione
Una pagina è indicizzata da Google se è stata visitata dal crawler di Google (“Googlebot”), analizzata per comprenderne i contenuti e il significato, nonché memorizzata nell’indice di Google.
Le pagine indicizzate possono essere mostrate nei risultati della Ricerca Google (se sono conformi alle istruzioni per i webmaster di Google).
La maggior parte delle pagine viene sottoposta a scansione prima di essere indicizzata, ma Google potrebbe indicizzare le pagine anche senza accedere ai relativi contenuti (ad esempio, se una pagina è bloccata da un’istruzione del file robots.txt).
Indicizzazione
Googlebot elabora ogni pagina sottoposta a scansione al fine di compilare un enorme indice di tutte le parole individuate e delle relative posizioni su ciascuna pagina.
Elabora inoltre le informazioni racchiuse tra i tag dei contenuti chiave e negli attributi, quali i tag <title> e gli attributi ALT. Googlebot è in grado di elaborare numerosi tipi di contenuti, ma non tutti. Ad esempio, non può elaborare i contenuti di alcuni file multimediali.
Tieni presente che non esegue la scansione di pagine con un’istruzione noindex (intestazione o tag). Tuttavia, deve essere in grado di vedere l’istruzione; se la pagina è bloccata da un file robots.txt, da una pagina di accesso o da un altro dispositivo, è possibile che la pagina venga indicizzata anche se Google non l’ha visitata.
Migliorare l’indicizzazione
Esistono molte tecniche per migliorare la capacità di Google di comprendere il contenuto della tua pagina:
Impedire a Google di eseguire la scansione o trovare le pagine che non si vogliono mostrare utilizzando noindex.
Non utilizzare noindex per le pagine bloccate dal file robots.txt; se lo fai, il noindex non verrà visto e la pagina potrebbe essere indicizzata.
Utilizzare dati strutturati.
Seguire le istruzioni per i webmaster di Google.
Restituzione dei risultati
Quando un utente inserisce una query, Google cerca delle pagine corrispondenti nell’indice, quindi restituiscono i risultati ritenuti più pertinenti.
La pertinenza viene stabilita tenendo in considerazione oltre 200 fattori.
Google considera l’esperienza utente nella scelta e nel ranking dei risultati, quindi assicurati che la tua pagina si carichi velocemente e che sia ottimizzata per i dispositivi mobili.
Migliorare i risultati
- Se i risultati sono rivolti agli utenti di aree geografiche o lingue specifiche, puoi comunicare a Google le tue preferenze.
- Assicurati che la tua pagina si carichi velocemente e che sia ottimizzata per i dispositivi mobili.
- Prendi in considerazione l’implementazione delle funzioni dei risultati della Ricerca per il tuo sito, come le schede di prodotti o di articoli (Rich Snippet).
- Implementa AMP per un caricamento più veloce delle pagine sui dispositivi mobili. Alcune pagine AMP sono inoltre idonee per ulteriori funzioni di ricerca, ad esempio i carousel Prima pagina.
- L’algoritmo di Google viene costantemente migliorato; invece di cercare di indovinare l’algoritmo e progettare la tua pagina di conseguenza, concentrati sulla creazione di contenuti di qualità che interessino agli utenti.