29 gennaio 2010 Gilberto Marciano

Il giro del web in ottanta giorni

Mi perdoni il grande Jules Verne per essermi “appropriato” del titolo di un suo capolavoro.
Mi ha sempre affascinato questo romanzo e, per tracciare un parallelo più recentemente, anche la velocità  con cui Google scandaglia gli oceani del web.
Il nostro sito viene spiderizzato con regolarità, ogni tot giorni. Spessissimo accade che le pagine dei siti  presentino nuovi link, o variazioni di link precedentemente registrati, per cui il tragitto dello spider deve prevedere qualche fermata in più.

Esistono siti che non vengono spiderizzati completamente? Certamente. Ma non tanto perché Google faccia discriminazioni, quanto perché ha bisogno di coordinate, proprio come in mare. Le coordinate le diamo noi, tramite due semplici modi: i link che inseriamo nelle pagine web e la sitemap.xml che sottoponiamo dal pannello di Google Webmaster Tools. Tramite questi due sistemi, Google aggiorna in continuazione la rotta del suo programma, Googlebot, affinché esegua il crawling di tutti i siti.

Anche se il sito è visitato dal bot con una certa regolarità, può essere che non tutte le sue pagine siano indicizzate. Questo è piuttosto normale, non tutti i contenuti sono ugualmente importanti agli occhi del motore. Una buona organizzazione dei contenuti e una struttura chiara e lineare permettono in genere di ottenere l’indicizzazione di un maggior numero di pagine, e un migliore riscontro in termini di posizionamenti.

Naturalmente anche Google ha dei limiti, e non può eseguire sempre il crawling di tutte le pagine web.
Il motore infatti si prefigge un certo tempo per il viaggio dei suoi spiders, proprio come Phileas Fogg nel romanzo di Verne per vincere la scommessa. Per visitare in tempo utile tutti i siti che ha in programma, deve quindi fare i conti con delle limitazioni fisiche quali la banda disponibile, la risposta dei server che ospitano i siti, e i possibili ostacoli alla spiderizzazione insiti nella struttura dei siti.

Pensiamo ai momenti di punta nella nostra navigazione quotidiana, quando per vedere un semplice filmato di due o tre minuti su YouTube dobbiamo attendere diversi secondi. E’ disponibile una certa quantità di banda in internet.. purtroppo limitata.

Anche i server che devono dare risposta a Google offrono determinate prestazioni, ma non sono sempre al massimo della loro efficienza.

Ciliegina sulla torta, i siti da visitare spesso sono dei grovigli, dei nodi che arrivano al pettine, e quel pettine (Googlebot) non ha certo il tempo di districarli.. se ne va, fa una “toccata e fuga”.

In parte sta anche a noi facilitare il crawling del nostro sito a Google.

Se abbiamo un sito dinamico di qualche centinaio o migliaio di pagine, e/o contenente multimedia, grafica e immagini ad alta definizione, non è consigliabile scegliere un provider da 30 euro l’anno. Allo stesso modo conviene affidarsi solo a sviluppatori esperti, che realizzino siti di facile e immediata lettura da parte dei motori, contenenti una buona rete di link interna, e scritti con un codice pulito, completo e ordinato, magari che possa ottenere la W3C validation, e la CSS validation.

E’ buona norma poi eseguire una prova di visualizzazione del sito con un browser testuale o un simulatore di spider, per evidenziare eventuali lacune nella navigabilità del sito per i motori, che possono essere causate da javascript, cookies, ID di sessione, frames, o altre tecniche poco amichevoli.

Sinergicamente a tutto ciò, anche l’ottimizzazione SEO e l’aggiornamento dei contenuti concorrono al risultato. Quindi bisogna nutrire il sito con regolarità. Avere un sito aggiornato e con elevato numero di link di qualità in entrata, permetterà di aumentare trustrank e pagerank, che sono credenziali di benvenuto al bot di Google.

Pagine povere di contenuti o duplicate, non aggiornate, con pochi link in entrata, collocate troppo in profondità rispetto alla root, e con brutte url, saranno contrassegnate da pagerank basso e probabilmente non indicizzate.

Anche la presenza e interazione del sito con i social media può a lungo termine giovare alla spiderizzazione, creando interesse e buzz tra gli utenti e portando traffico e link di segnalazione.

Monitorare con regolarità il Webmaster Tool nella sezione diagnostica ci permetterà di avere inoltre pieno controllo sul processo di spiderizzazione, riscontrando così in tempo reale eventuali bug. Controlliamo inoltre di non avere impedimenti posti all’interno dei meta robots, e che il robots.txt sia corretto

Un’ultima cosa: compilare in maniera esaustiva una scheda sulle mappe di Google, relativamente al proprio sito, fungerà da ulteriore carta nautica per il bot che avrà un altro punto sicuro dove attraccare.

Concludo con le parole di Verne: « En vérité, ne ferait-on pas, pour moins que cela, le Tour du Monde? » (trad. « Diciamo la verità, non si farebbe, per assai meno, il giro del mondo? »)