Journal delle Esperienze

Ascolto e analisi dei dati: gestire l’impatto dei bot sui dati di traffico del sito

Come riconoscere e affrontare in modo efficace l’impatto del traffico bot sugli strumenti di analisi dei dati dei siti web

Un data analyst analizza su GA4 i dati di traffico di un sito web

Nel vasto e complesso ecosistema del web, un fattore che può influenzare negativamente le analisi dei dati di un sito web o di un’applicazione è il cosiddetto “traffico bot”, un termine che suscita spesso preoccupazione e sospetto.

Ma cosa significa esattamente “traffico bot“?

In termini semplici, ci riferiamo a qualsiasi tipo di traffico non-umano che interagisce con un sito web o un’applicazione. Questo traffico può provenire da una vasta gamma di fonti, dai motori di ricerca e gli spider dei social media, ai crawler utilizzati per l’indicizzazione dei contenuti online.

È importante sottolineare che il concetto di bot non è necessariamente negativo ma dipende principalmente dallo scopo per cui viene utilizzato. Alcuni bot sono progettati per facilitare l’indicizzazione dei motori di ricerca e migliorare la visibilità online di un sito web mentre altri possono essere utilizzati per attività fraudolente.

I bot utilizzati per lo scraping dei contenuti, ad esempio, possono raccogliere informazioni dai siti web senza autorizzazione, minando la proprietà intellettuale e violando la privacy degli utenti. Inoltre, i bot di click fraud possono inflazionare artificialmente i clic sugli annunci pubblicitari online, danneggiando le campagne pubblicitarie e inducendo in errore i marketer sulle reali performance delle loro strategie.

In generale, la distinzione tra “buoni” e “cattivi” dipende dall’intento e dall’effetto del loro comportamento sul sito web o sull’applicazione coinvolta.

L’impatto del traffico bot sui dati di Google Analytics

In ogni caso, il traffico bot esercita un impatto significativo sui dati raccolti attraverso gli strumenti di analisi, specialmente per i siti web che non ricevono un alto volume di traffico da utenti umani. Questi siti possono essere particolarmente suscettibili all’influenza dei bot, poiché il traffico non-umano può distorcere le metriche chiave, come il numero di visite, il tasso di coinvolgimento e la durata della sessione. Inoltre, il traffico bot può consumare risorse del server, rallentando il caricamento del sito e compromettendo l’esperienza dell’utente.

Il traffico bot esercita quindi un impatto significativo sui dati raccolti da strumenti di Data Analysis come Google Analytics 4. Questi strumenti sono progettati per fornire una visione chiara delle interazioni degli utenti con un sito web, consentendo, attraverso l’analisi dei dati, di prendere decisioni per ottimizzare l’esperienza degli utenti e migliorare i risultati dei KPI. Il traffico bot può distorcere queste metriche, influenzando negativamente l’accuratezza e l’affidabilità dei dati e rendendo difficoltoso per i proprietari di siti web ottenere una comprensione accurata delle prestazioni del loro sito e prendere decisioni informate per migliorare l’esperienza degli utenti e raggiungere gli obiettivi di business.

Pertanto, è essenziale implementare misure preventive per riconoscere e filtrare il traffico bot, garantendo la precisione e l’utilità delle analisi dei dati raccolti dagli strumenti di Data Analysis.

Come riconoscerlo

Per comprendere se il nostro sito web è interessato da traffico bot è essenziale prestare attenzione a diversi indicatori chiave. Solitamente il traffico bot si nota per la presenza di un picco di traffico nei dati non corrispondente a campagne pubblicitarie o promozioni conosciute. Per verificare l’ipotesi che si tratti di traffico non umano è necessario analizzare in modo più approfondito i dati, soprattutto in relazione alla presenza di alcuni segnali tipici come:

sessioni senza coinvolgimento che comportano anche un forte decremento del tasso di coinvolgimento.
durata estremamente breve della sessione, vicina allo 0 o comunque molto inferiore alla permanenza media degli utenti reali.
volume eccessivo di visualizzazioni di pagina, spesso concentrate su pagine specifiche e ripetitive, con la stessa URL. Questo comportamento può essere indicativo di bot che navigano automaticamente attraverso il sito web per scopi di indicizzazione o altre attività automatizzate.
origini geografiche insolite: se il traffico proviene da regioni o paesi che non sono nel target demografico tipico del sito, potrebbe essere indicativo di traffico bot.
Assenza di eventi di interazione personalizzati: Il traffico bot di solito non interagisce con il sito come farebbe un utente umano, ad esempio non compila moduli, non clicca su link o non effettua acquisti.

Identificare e analizzare questi pattern è fondamentale per distinguere il traffico automatizzato e garantire l’integrità e l’affidabilità dei dati raccolti da strumenti di analisi come Google Analytics 4.

Come eliminare il traffico bot

Per ridurre il traffico bot, possono essere adottate diverse strategie, ognuna mirata a filtrare specifici tipi di traffico e dipendenti dalle informazioni disponibili. Nel paragrafo che seguirà, esamineremo alcuni casi studio al fine di delineare diverse strategie.

In generale, tra gli strumenti di Digital Marketing, quelli più efficaci nell’implementazione di filtri per l’esclusione del traffico bot sono i software di gestione dei tag, come Google Tag Manager, che consentono di implementare script personalizzati per identificare e filtrare il traffico bot in base a criteri specifici, offrendo una maggiore flessibilità nella gestione del traffico non-umano.

Di seguito verranno elencati alcuni approcci che si possono adottare per escludere il traffico non umano dai dati raccolti dagli strumenti di Data Analysis in base alle informazioni che si hanno a disposizione.

Una delle prime vie percorribili è filtrare il traffico in base agli indirizzi IP noti, se disponibili. Ad esempio, Cookiebot, un servizio di gestione dei cookie, ha sviluppato bot che possono essere identificati attraverso gli indirizzi IP. Cookiebot ha reso disponibili questi indirizzi per consentire ai proprietari del sito web di filtrare il traffico bot tramite gli strumenti di analisi. Questa pratica è quindi particolarmente utile per ridurre l’impatto di bot noti e identificabili. Molti software di analisi, tra cui Google Analytics 4, offrono funzionalità di filtraggio del traffico in base all’indirizzo IP, rendendo più semplice l’esclusione dal conteggio delle visite del traffico bot ma anche, ad esempio, del traffico interno.
Un’altra variabile che può essere utilizzata per costruire un filtro, se nota, è lo user agent. Ad esempio, Cookiebot mette a disposizione lo user agent del proprio scanner, consentendo ai proprietari del sito web di inserire da Tag Manager un’esclusione all’attivazione dei tag di raccolta dati, in modo che non vengano attivati se il sito viene caricato da quel determinato user agent. Questo approccio consente di identificare e bloccare i bot con maggiore precisione, offrendo un ulteriore strumento per difendersi dalle intrusioni.
Infine, è possibile escludere temporaneamente il traffico da bot con IP estero filtrando il traffico da alcuni Paesi (Country) non coerenti con la normale provenienza degli utenti di un sito. Questa possibilità non è consigliata, poiché in parte esclude anche traffico di utenti reali ed è molto generico.

Nel caso queste informazioni non fossero disponibili, esplorando i dati dalle piattaforme di analisi, è di solito possibile avere informazioni sui siti da cui provengono le visite al nostro sito web, incluso il traffico bot. Se le visite al sito sono caratterizzate da un’unica visualizzazione di pagina e non comportano l’attivazione di eventi di tracciamento personalizzati, è sufficiente, utilizzando Tag Manager, creare un’esclusione affinché i tag di misurazione non vengano attivati nel caso in cui il dominio di provenienza del traffico sia uno dei domini identificati come spam. Implementando queste esclusioni, i proprietari del sito possono ridurre al minimo le distorsioni nei dati causate dal traffico bot indesiderato.

Tuttavia, ci sono situazioni in cui le visite al sito non sono riconducibili a un dominio specifico, il che rende più complicato filtrare quel particolare traffico. In alcuni casi, infatti, l’origine delle sessioni è segnalata come “(not set)”, facendo confluire tutto il traffico nella categoria del traffico diretto. In tali circostanze, filtrare il traffico diventa più complesso poiché l’esclusione solitamente basata sul dominio di provenienza (referrer) non è disponibile, se non per la prima interazione dell’utente.

Una soluzione potenziale in questa situazione è la creazione di cookie di prime parti che possano individuare il caricamento del sito da parte del referrer spam e consentire un’identificazione persistente nel tempo. I cookie così creati possono quindi essere utilizzati per contrassegnare quel traffico come bot e successivamente filtrarlo. Questa strategia richiede un approccio più sofisticato e maggiori conoscenze tecniche ma può essere efficace nel mitigare l’impatto del traffico bot quando le altre opzioni di filtraggio non sono applicabili.

Adottando le strategie appropriate e utilizzando questi approcci combinati, è possibile ridurre l’impatto del traffico bot e preservare l’integrità e l’affidabilità dei dati analitici raccolti dai siti web.