Da diverso tempo anche su Google Analytics purtroppo si sta manifestando un problema abbastanza fastidioso, ovvero quello dello spam che in questo caso va meglio definito come Spam Referral a seguito di traffico anomalo rilevabile all’interno del noto sistema di statistiche.
Prima di vedere di cosa si tratta e soprattutto di come rimuovere in pochi e semplici passaggi questi dati fasulli, consigliamo di rileggere la nostra Guida su Google Analyitcs con particolare riferimento a quella sui referral e il post in merito a come proteggere un sito web da malware e hacker.
Che cos’è lo Spam in Google Analytics
Come abbiamo anticipato, quando si parla di spam in Google Analytics, si fa riferimento principalmente allo Spam Referral, ovvero quel traffico non naturale che si rileva sulla piattaforma di analisi dati e che proviene da domini dal nome abbastanza strano. Questo perché si tratta di traffico generato da software o bot e non da essere umani.
Ultimamente si è anche evoluto ed è riuscito a colpire altri aspetti relativi a Google Analytics, come ad esempio la ricerca delle parole chiave oppure le pagine e le visite dirette. Lo spam sta dunque rappresentando un problema da non sottovalutare e che di fatto, deve essere fermato.
I due tipi di referral spam su Analytics
C’è molta disinformazione sullo spam di Google Analytics e i rischi ai quali si va incontro sono tanti. A seconda della tipologia (come vedremo ne esistono di due tipi) occorre intervenire in modo differente ma soprattutto con cognizione di causa.
In caso contrario c’è la possibilità di perdere dati relativi agli accessi o nella peggiore delle ipotesi si rischia di vedere il proprio sito oscurato se si interviene in maniera errata per risolvere il problema (come vedremo in una delle soluzioni in cui è necessario modificare il file .htaccess).
Per evitare che tutto questo accada, cerchiamo di capire quali sono i due tipi di spam che colpiscono il nostro sistema di statistiche:
- Ghost spam;
- Crawler spam;
Ghost Spam (o Spam fantasma)
Il primo di questi è il cosiddetto spam fantasma e che risulta essere, tra le due tipologie, quello più pericoloso.
Questo per il semplice fatto che si non noterà la presenza del problema perché non verrà attaccato il proprio sito web ma direttamente Google Analytics, generando una gran mole di dati falsi spesso in un breve lasso di tempo.
E’ possibile trovare lo spam fantasma in diverse forme, come traffico:
- Referral: (rilevabile da Acquisizione > Tutto il traffico) che è il più comune;
- Organico: con alcune parole chiave senza senso;
- Diretto: in caso di errori da parte dello spammer;
- o sotto forma di Eventi.
E’ importante specificare che, indipendentemente dal tipo di web hosting o CMS utilizzato (WordPress o Joomla), come vedremo a breve, per bloccare questo tipo di spam è necessario utilizzare dei filtri.
Crawler Spam
La seconda tipologia, definita Crawler spam, viene utilizzata dagli spammer meno frequentemente soprattutto per il fatto che richiede numerose risorse per essere gestita.
Si comporta esattamente come lo spider (o appunto crawler) di un motore di ricerca pertanto in questo caso, si verifica proprio un accesso al sito web attaccato. Lo scopo è quello di portare visite al sito web dello spammer e probabilmente vendere qualcosa.
Combattere lo spam con i filtri
Questi due tipi di spam possono essere combattuti solo ed esclusivamente utilizzando due tipi di filtri ben specifici:
- Valid Hostname Filter (filtro hostname reale) che risulta essere specifico per il Ghost Spam;
- Campaign Source Filter (filtro sorgente campagna) basato su un’espressione costruita con tutti i Crawler Spam noti.
Sebbene entrambi i filtri siano consigliati e debbano essere utilizzati per il proprio sito, è bene che si facciano prima dei controlli e dei test per capire come lo spam agisce esattamente. E’ il caso quindi di attivare delle viste non filtrate che consentiranno di verificare i progressi e la validità dei filtri.
Infine, una funzionalità aggiuntiva e molto semplice da utilizzare è quella offerta da Google Analytics nelle impostazioni relative alla vista, Escludi tutti gli hit da bot e spider noti, che si consiglia normalmente di attivare.
Valid Hostname Filter per Ghost Spam
Vediamo tutti i passaggi che consentono di attivare il filtro per bloccare i Ghost Spam, quello definito “con hostname valido o reale”:
- E’ il filtro più efficace perché li blocca direttamente a differenza degli altri che permettono l’attacco finché lo spammer non viene identificato.
- Richiede pochissima manutenzione e blocca ogni forma di attacco, indipendentemente da qualunque essa sia. Non occorre quindi aggiornare il filtro o crearne di diversi tipi: ne basta uno solo ed è valido per tutti!
- Blocca ogni tipo di spam sia che venga mostrato come referral, organico, diretto e così via.
Come funziona il filtro basato sull’hostname
I Ghost Spam utilizzano nomi di host non validi perché in pratica lo spammer non sa qual è l’obiettivo, non conosce il nome del sito web da attaccare.
Ecco perché, quando viene rilevata questa anomalia, se si controlla su Analytics l’hostname del sito web utilizzato dallo spam, si trova sempre un nome fittizio (fake hostname) e quindi diverso dal nostro dominio oppure semplicemente un “(not set)” quindi un hostname non specificato.
Prima di attivare questo filtro, come prima cosa, bisogna recarsi nel menù Rapporti di Analytics e scegliere un lasso di tempo da analizzare che varia dai sei mesi ad un anno almeno.
Successivamente, bisogna cliccare prima sulla voce Pubblico, poi sul menù Tecnologia e quindi Network. Nella parte superiore del report, si dovrà selezionare la voce Hostname in modo da far apparire tutti i nomi degli host utilizzati nelle statistiche del sito web.
Da questo elenco è possibile visionare e scegliere quali sono i nomi degli host che riteniamo validi e che quindi devono essere considerati come reali e sempre inclusi nei nostri report.
Di solito si tratta di qualcosa del tipo tuodominio.it oppure www.tuodominio.it o cose del genere mentre i fake hostname saranno semplici da individuare come è possibile verificare anche nella seguente immagine basata sui dati di un sito web attaccato:
Per estrema chiarezza, gli hostname reali, quindi validi e da considerare nella creazione del filtro, sono esclusivamente quelli dove è stato inserito il codice di tracking di Google Analytics che contiene il relativo ID account (UA-XXXXXX-1).
Creare il filtro con le espressioni regolari
A questo punto, vediamo come creare il filtro sfruttando le espressioni regolari anche se in questo caso si tratta di qualcosa di relativamente semplice anche per chi non è esperto di programmazione. Eventualmente può complicarsi solo in base alla dimensione e all’età del sito.
L’espressione deve contenere tutti gli hostname validi recuperati in precedenza nella seguente forma:
tuodominio\.com|tuodominio\.it|altrotuodominio\.it
e non deve contenere spazi o altri caratteri particolari mentre il punto deve essere preceduto dal simbolo back-slash, ovvero \.
Con il codice a disposizione a questo punto è possibile creare il filtro da utilizzare a partire dal menù Amministrazione e selezionando la vista su cui si vuole applicare.
Il filtro deve essere della tipologia Personalizzato e deve includere tutti i domini sicuri scoperti precedentemente. Infine, si consiglia di effettuare un test per verificare che il filtro sia valido e restituisca i giusti risultati.
Dopo tale verifica potrà essere salvato e, da questo momento in poi, sarà attivo eliminando tutti i ghost spam dai nostri dati statistici.
Campaign Source Filter per Crawler Spam
Considerando che il Crawler Spam utilizza un hostname reale, la tecnica da adottare è leggermente differente.
Come funziona il filtro basato sulla Sorgente Campagna
Facciamo sempre uso di un filtro ma questa volta basato sull’esclusione di una Sorgente Campagna (Campaign Source) e facendo uso di una espressione regolare che fa il match di tutti i crawler conosciuti.
Nota Bene: Si raccomanda di fare molta attenzione nel creare questo filtro evitando di utilizzare l’esclusione del referral al posto di quello relativo alla sorgente campagna come suggerito anche da Google.
Creare il filtro con le espressioni regolari
Anche in questo caso il filtro viene creato a partire dal menù Amministrazione, scegliendo la vista su cui si vuole applicare e cliccando sul pulsante rosso “+Aggiungi Filtro”.
Per differenziarlo dal precedente può essere denominato ad esempio Crawling Spam Filter, poi bisogna scegliere la tipologia di filtro Personalizzato, spuntare Escludi e scegliere nella lista la voce Sorgente Campagna.
Nel Pattern filtro va inserito l’elenco dei crawler spam conosciuti o rilevati in precedenza su Analyitics, ad esempio:
4webmasters.org|semalt.com|buttons-for-website.com|free-share-buttons.com|best-seo-offer.com|best-seo-solution.com|buttons-for-your-website.com|youporn-forum.uni.me|get-free-traffic-now.com|event-tracking.com|darodar.com|free-social-buttons.com
oppure utilizzare una espressione regolare che mediante dei pattern possa includerli in maniera ottimizzata, ad esempio:
(best|100dollars|success)\-seo|(videos|buttons)\-for|anticrawler|musica\-gratis|semalt|forum69|7makemoney|sharebutton|ranksonic|sitevaluation|dailyrank|vitaly|video\-\-|profit\.xyz
Prima di salvare il filtro, è sempre buona norma verificarlo con l’apposita opzione e vedere che tipi di referral vengono eliminati dai nostri dati.
Infine, è importante considerare che potrebbero essere necessarie fino a 24 ore prima che l’effetto del filtro sia visibile nei dati e quindi non bisogna preoccuparsi se lo spam viene ancora mostrato dopo averlo applicato.
Un altro modo per bloccare lo spam
Una valida alternativa, esclusivamente contro il Crawler Spam, è rappresentata dall’uso del file .htaccess opportunamente configurato. Questo file, tra le tante cose, consente anche di controllare chi può accedere ad un sito web e per questo motivo è utile per bloccare questa tipologia di spam su Analytics come ad esempio i seguenti crawler:
semaltmedia.com, sitevaluation.org, videos-for-your-business.com.
Non ha senso usare questa tecnica contro lo spam fantasma perché, come abbiamo già riferito, non c’è alcun accesso reale al sito web.
Prima di sfruttare questo metodo e quindi di modificare il file .htaccess, si consiglia di fare un backup perché, anche un singolo carattere errato, potrebbe rendere il sito web inaccessibile.
Utilizzando il mod_rewrite, ecco i comandi da aggiungere al proprio file .htaccess, sostituendo o aggiungendo opportunamente nuovi crawler spam:
## BLOCCO CRAWLER SPAM
RewriteCond %{HTTP_REFERER} semalt\.com [NC,OR] RewriteCond %{HTTP_REFERER} 100dollars\-seo\.com [NC,OR] RewriteCond %{HTTP_REFERER} best\-seo\-solution\.com [NC,OR] RewriteCond %{HTTP_REFERER} buttons\-for\-your\-website\.com [NC,OR] RewriteCond %{HTTP_REFERER} forum69\.info [NC,OR] RewriteCond %{HTTP_REFERER} buttons\-for\-website\.com [NC,OR] RewriteCond %{HTTP_REFERER} ranksonic\.com [NC,OR] RewriteCond %{HTTP_REFERER} 7makemoneyonline\.com [NC,OR] RewriteCond %{HTTP_REFERER} sharebutton\.net [NC,OR] RewriteCond %{HTTP_REFERER} sitevaluation\.org [NC,OR] RewriteCond %{HTTP_REFERER} dailyrank\.net [NC,OR] RewriteCond %{HTTP_REFERER} videos\-for\-your\-business\.com [NC,OR] RewriteCond %{HTTP_REFERER} semaltmedia\.com [NC,OR] RewriteCond %{HTTP_REFERER} best\-seo\-offer\.com [NC] RewriteRule .* – [F]
Conclusione
Il traffico da Spam Referral ormai colpisce quasi tutti i siti web, in maggiore o minore misura a seconda dei casi. Si tratta di una problematica che non dovrebbe essere presa alla leggera soprattutto se facciamo business con il nostro sito e se analizziamo continuamente i dati di accesso per monitorare accessi e conversioni.
La soluzione ideale per bloccare lo spam su Google Analytics è rappresentata dalla combinazione dei due filtri e dall’utilizzo del file .htaccess modificato.
Queste soluzioni risultano essere efficaci e funzionali ma soprattutto semplici da adottare, nonché veloci e sicure.
Lascia un commento