UX & Coding

Bloccare il traffico referral spam su Google Analytics in modo definitivo

"Solo alcuni metodi sono realmente efficaci per prevenire ed eliminare lo spam su Google Analytics: Ghost e Crawler spam si comportano in modi diversi e devono essere fermati con la soluzione più corretta"

Negli ultimi anni è aumenta considerevolmente la presenza di spam nei rapporti di Analytics: questa pratica consiste nell’invio di traffico fasullo a un sito Web o una pagina che compromette e rende inaffidabile la lettura dei dati di traffico.

La compromissione dei dati e la mancanza di accorgimenti per prevenire questo problema mette a serio rischio qualsiasi tipo di report che sarà sempre influenzato da andamenti sbagliati.

Le soluzioni comunemente scelte per combattere il problema non si adattano ai costanti cambiamenti dei metodi utilizzati dagli spammer ed è quindi basilare prendere le dovute precauzioni per bloccare lo spam referral nel modo più efficiente e duraturo.

Qual è lo scopo dello spam?

Lo spam referral basa la sua efficacia sulla curiosità di chi interagisce con i rapporti di Analisi, il quale sarà attratto dalla fonte di traffico e andrà a visitare il sito esca.

Così facendo viene visitata inconsapevolmente la sorgente di traffico che può avere svariati scopi:

  • promuovere una pagina o un prodotto
  • ingannare l’utente facendo scaricare file per la propria sicurezza
  • tentare di raccogliere indirizzi email
  • ridirigere il traffico a canali di affiliazione per ottenere commissioni di vendita (es. Amazon)

Migliaia di proprietà Analytics sono colpite ed è quindi un’operazione che su larghissima scala può portare risultati, anche se con una pratica scorretta.

Tipologie di spam principali

Lo spam referral in Google Analytics può essere suddiviso in due principali categorie: Ghost e Crawler.

Ghost spam

La maggior parte dello spam su Google Analytics è di questo tipo: è chiamato fantasma perché chi genera questa categoria di traffico non accede realmente al sito web.

Ghost spam Analytics
Il Ghost spam sfrutta il Measurement Protocol, che consente di inviare dati direttamente ai server di Google Analytics

Usando questo metodo ed utilizzando codici di tracciamento casuali (UA-XXXXX-1), gli spammer riescono a generare traffico sulle viste con dati falsi, senza nemmeno sapere chi stanno colpendo.

Crawler spam

Questo tipo di spam, al contrario dello spam fantasma accede realmente al sito.

Questi meccanismi sono robot che eseguono in modo automatico la scansione delle pagine, spesso ignorando le regole (come ad esempio quelle inserite nel robots.txt che dovrebbero impedire loro di leggere alcune aree).

La maggior parte dei web crawler si identifica come tale ai server Web e viene quindi esclusa dai report di analisi. Tuttavia, alcuni web crawler come il noto Semalt non si identifica come robot e finisce nei report di analisi sotto forma di sessioni con una frequenza di rimbalzo del 100% e una durata di 0 secondi.

Crawler spam Analyticsm

I crawler sono difficili da identificare ma raramente appaiono più volte, per questo motivo ricreando su Google è facile trovare riferimenti o liste per identificare quelli che generano traffico fasullo.

Miti ed errori comuni

Ci sono alcune considerazioni errate associate allo spam e modalità di prevenzione che possono a volte peggiore la situazione.

Lo spam compromette la sicurezza

A volte lo spam registrato viene percepito come un attacco o una violazione del server ma è più semplicemente traffico che sporca i rapporti di Google Analytics.

Se le pagine fantasma non si possono aprire realmente ma sono solo tracce sui report non si corre alcun rischio; al contrario potrebbe esserci un problema e qualcuno potrebbe averle inserite tra i file del server.

Un bounce rate maggiore peggiora il posizionamento

La frequenza di rimbalzo causata dallo spam è spesso del 100% perché non c’è interazione e navigazione con il sito.

Spam frequenza rimbalzo

Google non considera le metriche di Analytics come un fattore di ranking: sono semplici indicatori e come tali possono essere alterati dallo spam. Lo stesso Matt Cutts, ex capo del team di spam web di Google, in un video spiega questo concetto.

Utilizzare .htaccess o soluzioni server side

Modificando il file .htaccess o attraverso alcuni plugin (ad esempio per WordPress) è possibile bloccare l’accesso al sito utilizzando alcune regole. Dato che lo spam Ghost non raggiunge realmente le pagine ma invia solo dati questo metodo non avrà alcun effetto.

Il file .htaccess può bloccare solo i crawler ma la maggior parte dello spam non può essere fermato in questo modo.

Sfruttare l’elenco di esclusione referral

Il nome di questa funzionalità potrebbe confondere ma non nasce per prevenire o escludere il traffico spam bensì per altri scopi.

Esclusione referral spam

Viene spesso utilizzata negli e-commerce quando il processo di pagamento avviene su domini di terze parti e al termine della transazione c’è un reindirizzamento al negozio online: in questo caso escludere il dominio esterno dai referral è una buona idea.

Le soluzioni più efficienti

Sono principalmente tre e sono di facile implementazione: con questi accorgimenti i report di Analytics non avranno praticamente più alcun tipo di problema.

Esclusione di bot e spider da Analytics

Google ha introdotto una funzione per filtrare i bot e gli spider conosciuti (attingendo dalla IAB/ABC International Spiders and Bots List) anche se consente di limitare in parte il problema.

Per attivarla basta seguire pochi semplici azioni sul proprio account:

  1. Entra nel pannello di Amministrazione di Analytics
  2. Nell’ultima colonna a destra (Vista) clicca su Impostazioni viste
  3. Google Analytics - Impostazioni viste
  4. Nella pagina di gestione delle impostazioni, più o meno a metà, attiva la funzionalità Escludi tutti gli hit da bot e spider noti
  5. Google Analytics - Escludi bot

È in ogni caso utile attivare questa opzione, data la minima difficoltà che comporta, dato che abilita un primo livello di protezione.

Filtro antispam, sfruttando l’hostname

Questa è la soluzione più efficace contro lo spam: questo tipo di filtro è in grado di fermare in modo definitivo lo spam di tipo fantasma.

Poiché gli spammer non sanno chi stanno colpendo, lasciano sempre un nome host falso o “non definito” che apparirà come (non impostato) nei rapporti.

Sfruttando questa logica per creare un filtro che salverà i dati di traffico solo di chi usa un nome host valido, tutto quello fantasma verrà automaticamente escluso.

Questa soluzione è molto più efficiente di quella comunemente usata, ovvero creare un filtro con un’infinita lista di spam referral che deve essere costantemente mantenuta.

  1. Entra nel pannello di Amministrazione di Analytics
  2. Nell’ultima colonna a destra (Vista) clicca su Filtri e poi su + Aggiungi filtro
  3. Google Analytics - Aggiungi filtro
  4. Infine basterà creare un filtro con le seguenti caratteristiche dove “nomesito/.com” sarà l’indirizzo del sito web dove Analytics raccoglie i dati (il backslash “\” prima del punto è necessario per utilizzare una sintassi corretta)
  5. Google Analytics - Filtro Hostname
  6. Salva il nuovo filtro

Respingere il traffico dei crawler spam

L’ultimo metodo sfrutta alcune istruzioni inserite nel file .htaccess (se si utilizza un Apache Web Server) che si occupano di “bloccare” le richieste dei crawler inseriti nella lista impedendogli a tutti gli effetti di navigare il sito.

#Start Crawler Spam Exclusions
RewriteEngine on
RewriteCond %{HTTP_REFERER} ^http://.*social-buttons\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*makemoneyonline.\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*traffic2money\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*success-seo\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*iloveitaly\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*priceg\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*savetubevideo\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*kambasoft\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*buttons\-for\-website\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*semalt\.com/ [NC,OR] RewriteCond %{HTTP_REFERER} ^http://.*darodar\.com/ [NC] RewriteRule ^(.*)$ – [F,L] #End Crawler Spam Exclusions

In questo modo si previene alla radice il problema anche se tra le soluzioni sopra citate è quella che può richiedere nel tempo un minimo di aggiornamento nell’eventualità di nuove sorgenti di spam.

Esistono molte liste facilmente reperibili online che contengono gli elenchi di tutti gli spider e i bot spam noti e che possono essere di aiuto per una prima impostazione.

Lista crawler spam
Una lista completa di Crawler e Ghost referral spam fornita da Carloseo.com

Ripulire i dati già salvati sui report

Google Analytics, purtroppo, non permette nessun tipo di manipolazione permanente dei dati già salvati e quindi una volta che una vista viene compromessa dallo spam non è possibile cancellare qualcosa dallo storico.

Tuttavia si possono creare e applicare dei segmenti personalizzati che consentono di navigare l’intera reportistica escludendo i dati superflui o in questo caso lo spam.

La procedura di creazione è molto semplice ed è possibile salvare più segmenti incrociando qualsiasi metrica e dimensione.

  1. Entra nel report della vista interessata
  2. Nell’are principale vicino a “Tutti gli utenti” clicca su + Aggiungi un segmento e poi su + Nuovo segmento
  3. Google Analytics - Segmento spam
  4. Seleziona Condizioni nel menu a sinistra ed imposta il filtro come di seguito descritto inserendo al posto di miosito.com il nome del dominio interessato
  5. Google Analytics - Segmento spam
  6. Salva il nuovo segmento

Dopo avere applicato il segmento è possibile fare un confronto tra i dati “sporchi” e le visite reali: la maggior parte delle volte si potrà notare che la quantità di spam può raggiungere percentuali veramente elevate.

Google Analytics - Report
In questo report oltre il 41% dei dati proviene da ghost referral o crawler spam

Aggiungi un commento

UX & Coding

Articoli recenti

Newsletter

Inserisci la tua email per restare aggiornato sulle ultime novità.