Marco Conte
29.03 2006

Il contenuto duplicato

L’argomento del contenuto duplicato è sicuramente uno dei temi più caldi del momento, per chi lavora con i motori di ricerca. Nei forum specializzati le discussioni sul tema si sprecano, e negli eventi dedicati agli specialisti non mancano mai sessioni in cui viene discusso l’argomento. L’adozione di filtri antiduplicazione da parte dei motori costringe infatti tutti gli operatori ad occuparsi della questione, e non è sempre facile orientarsi e interpretare correttamente le indicazioni fornite dai motori.

Le linee guida di Google, ad esempio, sono molto esplicite al riguardo:

http://www.google.it/support/bin/answer.py?answer=745

Evita di creare più copie di una pagina che rimandano a URL diversi. Molti siti offrono versioni solo testuali o stampabili delle pagine contenenti gli stessi contenuti delle corrispondenti pagine con immagini. Affinché la tua pagina preferita sia inclusa nelle nostre pagine dei risultati di ricerca, utilizza un file “robots.txt” per evitare che i nostri spider rilevino duplicati.”

Secondo queste indicazioni, qualsiasi contenuto accessibile attraverso due diversi indirizzi può potenzialmente rappresentare un problema per il sito. Un problema non da poco: oltre alle versioni stampabili, infatti, ci sono molte altre occasioni in cui un contenuto può ripetersi duplicato (o quasi completamente duplicato) all’interno dello stesso sito, ad esempio nel caso di siti che hanno registrato diversi domini di primo livello (it, com, net ecc.), o nel caso di schede prodotto molto simili tra loro (es. lo stesso prodotto in due colori diversi).

In altre occasioni, i rappresentanti dei motori hanno temperato un po’ le indicazioni provenienti dalle linee guida: ad esempio nel corso dell’ ultimo SES di New York, nella sessione dedicata proprio al contenuto duplicato, Matt Cutts (il principale tramite di Google con il mondo dei SEO e degli sviluppatori) ha affermato:

(traduzione mia, la trascrizione dell’intervento è reperibile su http://www.seroundtable.com/archives/003398.html):

Trovo che spesso molti webmaster onesti si preoccupano del contenuto duplicato, anche quando non dovrebbero. Google cerca sempre di restituire la “migliore” versione di una pagina. Alcune persone sono meno coscienziose: una persona che si lamentava del contenuto duplicato e del fatto di non apparire su Google e Yahoo, è risultato poi avere 2500 domini per il suo sito! Molte gente chiede informazioni sugli articoli divisi in più parti e sulle versioni stampabili. Non vi preoccupate che Google vi possa penalizzare per questo. Per i domini di primo livello, fr. com ecc: non vi preoccupate del contenuto duplicato in questo caso. Una regola pratica generale: pensate ad un motore come a un iperattivo bambino di 4 anni, che capisce al volo in alcuni casi e meno in altri: fate le cose semplici. Scegliete un nome di dominio e attenetevi a quello.”

Una posizione sicuramente più sfumata, rispetto a quella enunciata nelle linee guida, pur con l’invito finale a fare le cose semplice e concentrarsi su un solo dominio.
E quindi, qual è il modo migliore per comportarsi? Attivare redirect 301 da un dominio all’altro ed escludere col robots.txt le cartelle a rischio di essere considerate duplicate, oppure proseguire come se nulla fosse, evitando solo le forzature e confidando sulle capacità del motore di distinguere i duplicati “buoni” da quelli “cattivi”

Penso che la questione vada considerata sotto due punti di vista diversi: se l’obiettivo è evitare penalizzazioni, la strada da seguire è probabilmente quella dettata dal buon senso e dal “don’t be evil” che Google ha assunto come motto. Sicuramente a chi progetta i motori non sfugge che vi possono essere necessità tecniche e di brand per avere, ad esempio, più domini di uno stesso sito. Naturalmente 2-3 domini di primo livello sono una cosa, 500 sottodomini con varianti delle parole chiave un’altra…
Realizzare contenuti di qualità e organizzarli in modo ordinato all’interno del sito dovrebbe essere, ancora una volta, il modo migliore per evitare problemi con i motori.

Se invece l’obiettivo è ottenere migliori risultati per le proprie promozioni, il discorso cambia. In questo caso, ricorrere a redirect via server o esclusioni di cartelle tramite il file robots.txt può essere assolutamente consigliabile, per almeno due motivi:

– evitare frammentazioni della Link popularity e dispersioni interne di Page Rank
– scegliere quali pagine far assorbire al motore, e non lasciar scegliere a lui.

Sicuramente si continuerà a discutere ancora a lungo sull’argomento e, più in generale, sulle implicazioni che le linee guida fornite dai motori hanno sullo sviluppo dei siti e delle strategie di promozione. Avremo modo di tornarci…