Author

Analytics & GTM Expert

UX-SEO Advocate

Follow me on
Difficulty |

Filtrar spam, bots y tráfico basura de Google Analytics: ¡una solución integral!

Google Analytics es probablemente uno de los elementos más importantes del proceso de toma de decisiones de tu sitio web. El éxito o el fracaso de tus esfuerzos (SEO, campañas publicitarias, redes sociales, marketing de contenidos, etc.) pueden determinarse fácilmente por la precisión y el valor de tus informes de GA.

Si no tomas las medidas adecuadas, los datos no deseados, como bots, spam y tráfico interno disminuirán la precisión de tus informes y conducirán a malas decisiones. La buena noticia es que GA tiene una potente funcionalidad de filtro, que si se usa bien ayudará a prevenir todo ese tráfico basura. La mala noticia es que, en mi experiencia, la mayoría de los sitios no lo usan correctamente.

El 99% de los sitios que audito no usan filtros o lo hacen, pero no lo hacen correctamente, lo que empeora el problema.

Entonces, para ayudarte a basar tus decisiones en datos precisos, te mostraré:

  1. Las formas más eficientes de filtrar bots, spam y otro tráfico basura en tu Google Analytics
  2. Y también importante, cómo hacerlo de manera segura para no arriesgar tus datos reales.

Preguntas frecuentes sobre esta guía.

Para ahorrar algo de tiempo mirando los comentarios, aquí están las respuestas a algunas de las preguntas más comunes que recibo:

  • ¿Qué tipo de spam y bots cubre esta guía?
    • ¡Todos ellos! Los filtros te ayudarán a comprender y detener cualquier tipo de spam de Google Analytics: fantasmas (referencia, palabra clave, idioma, página, etc.), rastreadores y muchos bots conocidos,
  • ¿Funciona en WordPress, Joomla, Shopify, Wix, Weebly, Squarespace ...?
    • Sí. Las soluciones a continuación se basan exclusivamente en filtros GA, por lo que funcionará independientemente de la plataforma (CMS) que utilice.
  • ¿Con qué frecuencia buscas nuevas amenazas y actualiza las expresiones?
    • Superviso constantemente los bots y el nuevo spam (3-5 veces a la semana) y las expresiones se actualizan tan pronto como se detectan nuevas amenazas importantes, por lo que puedes verificarlas con frecuencia o incluso mejor, puedes recibir una notificación cuando aparezcan nuevas expresiones .
    • Mira aquí la lista negra histórica de spam bloqueada por estos filtros..
    ¿Deseas recibir notificaciones sobre actualizaciones importantes, nuevas amenazas y nuevas formas de mantener la precisión de tus datos de Analytics?

Qué hacer y qué no hacer al filtrar en Google Analytics?

Veamos rápidamente una lista de cosas que debes considerar al filtrar en GA.

  • Incorrecto: nunca uses la lista de exclusión de referencias para correo no deseado; esa lista tiene un propósito completamente diferente.
  • Incorrecto: nunca manejes el spam individualmente, esto es extremadamente ineficiente y se convertirá en una pesadilla para mantener,
  • Incorrecto: no te preocupes por el spam que perjudica tu SEO, los datos de GA no se utilizan para las clasificaciones en los resultados de búsqueda
  • Incorrecto: las soluciones que trabajan con el servidor como los complementos de WordPress o .htaccess no tendrán ningún efecto en el Spam porque nunca pasa a través de tu servidor.
  • Correcto: solución integral. Un filtro de nombre de host que se encargará de la mayor parte del spam y un conjunto de filtros con expresiones optimizadas para bloquear el spam y los robots de referencia escurridizos.
How does Ghost Spam attacks Google Analtyics?

Lo primero es lo primero. Protege tus datos de configuraciones incorrectas

Antes de crear cualquier filtro en GA, debes asegurarte de tener al menos 2 vistas, una donde aplicarás los filtros y otra que dejarás sin filtrar, esto funcionará como una copia de seguridad y para verificar el progreso de tus filtros.

Si necesitas ayuda para crear estas vistas, aquí puedes encontrar las mejores prácticas para las vistas en Google Analytics.

5 filtros para detener el spam y los bots en Google Analytics

Una vez que tus vistas estén configuradas correctamente, es hora de detener todo ese tráfico sucio que sesga tus informes y no te permite ver el rendimiento real de tu sitio.

No existe una solución única que pueda detener todo el tráfico basura a la vez, por lo que si deseas tener un análisis preciso, tendrás que trabajar para ello.

Se ha demostrado que los filtros que te voy a mostrar funcionan, durante más de 4 años los he aplicado, independientemente de los métodos utilizados por los spammers y los tipos de bots.

¿Necesitas alguna prueba? Aquí hay algunos ejemplos de usuarios que siguieron esta guía y compartieron sus resultados conmigo.
Show Examples

Las capturas de pantalla son de 2016, pero los resultados de tus análisis serán los mismos hasta la fecha.

Los filtros de Google Analytics que necesitarás son:

  1. Filtro de nombre de host válido para spam fantasma (referencia, página, spam de palabras clave, idioma, etc.),
  2. Filtros de origen de campaña para spam de referencia de rastreadores,
  3. Filtro de idioma para spam sigiloso(y algunos bots),
  4. Filtros de organización de ISP para tráfico de bot,
  5. Dominio ISP / filtro de red para detener el tráfico de bot,
  6. Extra: habilita la función incorporada "Filtrado de bots" (para excluir algunos bots conocidos)

¿No tienes tiempo? ¿Quieres que te arregle esto? Puedo revisar tu Google Analytics y aplicar todas las medidas necesarias para garantizar que recibas los datos más precisos posibles.

Notas generales sobre filtros.

  • Si bien la mayoría de los filtros comienzan a funcionar en minutos, oficialmente pueden pasar hasta 24 horas antes de que los efectos del filtro se vuelvan visibles en sus datos, así que sea paciente.
  • Aplicarás los filtros en la vista maestra, en las vistas que se usarán para el análisis o en la vista de prueba si deseas probarlos primero.
  • Los filtros solo funcionan de la fecha aplicada hacia adelante, para los datos históricos se utiliza un segmento.

a. Filtro de nombre de host válido para detener el spam fantasma

El filtro de nombre de host válido es la solución más efectiva contra el spam. Este filtro detendrá permanentemente todo el spam fantasma con nombres de host falsos, sin importar cómo venga o qué nombre use.

Google Analytics spam filter
¿Qué es un nombre de host y qué es fuente?
expand

La gente a menudo confunde los nombres de host con las fuentes. Para evitar confusiones al preparar los filtros, explicaré brevemente la diferencia:

  • La fuente es de donde proviene su visita y puede haber cualquier número de ellos, por ejemplo, Facebook, Google, Twitter, Youtube, enlaces de otros sitios a su sitio, etc.
  • El nombre de host, por otro lado, es el sitio donde llega el visitante. Su nombre de host principal será su dominio y, según la configuración de su sitio, puede haber otros.
Source vs Hostname Google Analytics
Para construir este filtro necesitarás:
  1. Hacer una lista de tus nombres de host:

    • Para ver una lista de todos los nombres de host activos, debe ir al informe de red en su Analytics:
      • Audiencia> Tecnología> Red
    • Cambie la dimensión principal aNombre de Host(texto azul en la parte superior del informe)
    • Haga una lista de todos los válidos que encuentre. Debería ver en la lista uno válido, que es su dominio principal, el resto dependerá de la configuración de su sitio.
  2. Construya su expresión de nombre de host: una vez que tenga la lista de todos sus nombres de host, debe ponerlos todos juntos separándolos con una barra "|" como este:

    Si necesita ayuda adicional para encontrar sus nombres de host válidos y construir su expresión, consulte esta guía o hágamelo saber y puedo ayudarlo personalmente.
  3. Cree el filtro: una vez que esté seguro de que la expresión es correcta, cree el filtro de la siguiente manera.

Cómo crear un filtro para bloquear el spam fantasma en Google Analytics

Para bloquear todo el spam fantasma en Google Analytics, debes crear un filtro para incluir nombres de host validos:

  • Vaya a la pestaña Administrador y seleccione la vista donde desea aplicar el filtro. Si sigue los nombres anteriores, esta será la vista Master o la vista Test.
  • Selecciona Filtrosen la columna Vista y seleccione + Añadir filtro
    Add filter button Google Anlaytics
  • Ingrese como nombre para el filtro Incluir nombres de host válidos.
  • Configure el filtro de la siguiente manera:
    • Tipo de filtro Personalizado > Incluir
    • Campo de filtro Nombre de host
  • En el cuadro Patrón de filtro, copie la expresión de nombre de host que creó anteriormente.
    How to filter spam in google analtyics?
  • Puede hacer clic en Verificar este filtro y obtendrá un vistazo rápido de cómo funcionará el filtro. Pero tenga en cuenta que esta función está limitada a una pequeña cantidad de datos. Entonces puede recibir el siguiente mensaje:

    "Este filtro no habría cambiado sus datos. O la configuración del filtro es incorrecta o el conjunto de datos muestreados es demasiado pequeño"

    Pero no se preocupe, si siguió las instrucciones en el paso anterior (Construya su expresión) ya probó su filtro, si por alguna razón se lo perdió, aquí está nuevamente cómo verificar un filtro con un filtro en la tabla. ;)

  • Una vez que se asegure de que su filtro esté bien, guarde el filtro.

IMPORTANTE: este filtro no requiere actualizaciones para el nuevo spam fantasma, pero es esencial actualizar la expresión cada vez que agregue el ID de seguimiento (UA-00000-1) a un nuevo servicio o dominio.

b. Filtro de origen para detener el spam de referencia del rastreador

El spam del rastreador usa un nombre de host válido, por lo que es un poco más difícil de detectar. Para bloquearlo, necesitará un filtro con una expresión que coincida con la fuente de todo el spam de rastreadores conocido.

Para ahorrarle algo de tiempo, he creado un conjunto de expresiones regulares optimizadas (REGEX) con todo el spam de rastreadores relevante detectado en los últimos años, los encontrará a continuación en las instrucciones.

Cómo crear un filtro para bloquear el spam de referencia del rastreador en Google Analytics?

Para bloquear el spam de referencia en Google Analytics, deberá crear un filtro de exclusión utilizando la fuente de la campaña:

  1. Vuelva a ir a la sección de administración de tu GA.
  2. En la última columna "VISTA", seleccione Filtrosy luego haga clic en +Añadir filtro
    Add filter button Google Anlaytics
  3. Ingrese como nombre para el filtro "Excluir spam de rastreadores"
  4. Configure el filtro de la siguiente manera:
    • Tipo de filtro Personalizado > Excluir
    • Campo de filtro Fuente de campaña(no use el campo de referencia o no funcionará)
      How to block referrer spam in Google Analytics?
  5. Patrón de filtro > Pegue la siguiente expresión de spam de referencia del rastreador.
    Estas expresiones fueron reconstruidas para optimizar el número de filtros. Si creaste tu filtro antes del 23 de noviembre de 2018, reemplaza todas las expresiones antiguas y elimina cualquier filtro adicional.

    Crea 1 filtro para cada expresión

    Crawler Expression 1

    TOTAL CHARACTERS: 251
    (videos|buttons)\-for\-your|share\-?button|buttons\-for(\-your)?\-website|semalt|ranksonic|timer4web|anticrawler|dailyrank|sitevaluation|forum69|profit\.xyz|checkpagerank|keywords\-monitoring|kings\-analytics|responsive\-test|fix\-website\-|top10\-way

    Crawler Expression 2

    TOTAL CHARACTERS: 231
    seo\-?(watch|services2018|2\-0|analysis|solution|offer)|(10best|auto|express|audit|dollars|success|top1|amazon|commerce|resell|99)\-?seo|(\-liar|pr\-cy)\.ru|uptime(robot|bot|check|\-|\.com)|free\-video\-|:8888|hacĸer|ɢoogl|foxweber

    Crawler Expression 3

    TOTAL CHARACTERS: 213
    (ḷ|\-backlinks)\.com|3\-letter\-|free\-fbook|your\-rankings|be\-escorts|vidyoze|blog1989|incomekey|amazon\-ads\.ovh|krumble\.net|blog100|free\-website\-traffic|mycheaptraffic|bestbaby\.life|(blogping|blogseo)\.xyz

    Crawler Expression 4

    TOTAL CHARACTERS: 63
    (artblog|howblog|seobook|merryblog|axcus|dotmass|artstart|dorothea|artpress|matpre)\.top

    Quieres notificaciones gratuitas con las expresiones actualizadas cada vez que detecte nuevos rastreadores?

  6. Después de que todo esté configurado, Guardar.

Nota: Puede encontrar otras referencias que pueden no ser spam, pero que no son relevantes para ti. Por ejemplo, sitios de prueba móviles o sitios de caché. Puede crear un filtro similar con la misma configuración y agregar todas las referencias irrelevantes para mantener sus datos precisos y confiables.

Ahora que estás familiarizado con la ventana de filtro, no repetiré las instrucciones completas en los siguientes filtros. Para crearlos, deberá seguir exactamente los mismos pasos de los 2 filtros anteriores y cambiar los siguientes campos:

  • Nombre del filtro
  • Campo de filtro
  • Expresión de filtro

c. Filtro de idioma para rastreadores y robots sigilosos

De vez en cuando puedes ver idiomas extraños que se muestran en tu Google Analytics. Preparé una expresión que evitará cualquier lenguaje que no tenga un formato adecuado como es-ESen-US, fr-FR, etc.

También agregué a la expresión el "Lenguaje c" que parece ser olvidado por los bots.

  • Cree un nuevo filtro con la siguiente configuración:
    • Nombre del filtro: Excluir idiomas no válidos
    • Configuración de filtro:
      • Tipo de filtro: Personalizado > Excluir
      • Campo de filtro: Configuración de idioma
      • Patrón de filtro: ingrese la siguiente expresión tal como está:
        \s[^\s]*\s|.{15,}|\.|,|^c$
        spam and language c google analytics

d. Organización ISP / filtro de proveedor de servicios para detener el tráfico de bot

No todo el tráfico irrelevante proviene de spammers, algunas empresas usan bots para rastrear sitios para diferentes propósitos (indexación, análisis, etc.). Es posible que esos robots no tengan malos propósitos, pero aún inflan sus informes.

Por ejemplo, los robots de Google que provienen de su ISP corporativo "Google LLC":

google llc and the referral 127.0.0.1.8888 in Google Analyitcs
O si utiliza anuncios de Facebook o Instagram, puede recibir tráfico de bot de su sitio corporativo "Facebook Ireland ltd" con las siguientes características:
  • Resolución de pantalla: 2000x2000
  • País: Perú, Filipinas, Estados Unidos
  • Ciudad: (no establecido), Ciudad Quezón, Manila
  • Proveedor de servicios: Facebook Ireland Ltd

Lista de sitios corporativos e ISP con alto uso de bots:

PROVEEDORES DE ISP COMUNES QUE UTILIZAN BOTS:
facebook ireland ltd google llc google inc.
alibaba.com llc ovh hosting inc. microsoft corp
microsoft corporation hubspot evercompliant ltd.
kazooisyee google switzerland gmbh google corporate
     

Nota: Estos son solo algunos ejemplos de ISP con alta actividad de bot, la siguiente expresión contiene más y se actualiza constantemente.

  • Cree un nuevo filtro con la siguiente configuración:Configuración de filtro:
    • Nombre del filtro: Excluir bots de proveedores de ISP
    • Filter NameExclude ISP provider bots
    • Configuración de filtro
      • Tipo de filtro: Personalizado > Excluir
      • Campo de filtro: Organización ISP
      • Patrón de filtro: ingrese las siguientes expresiones como están aquí abajo:

        IMPORTANTE

        Pruebo exhaustivamente las siguientes expresiones en docenas de propiedades de GA para evitar interferencias con datos reales del usuario. Sin embargo, en muy pocos casos las expresiones podrían coincidir con algunos datos reales del usuario.

        Por ejemplo, la siguiente expresión bloquea el ISP "Google llc" y "Microsoft corp", que son ISP utilizados en las oficinas de estas empresas.

        En la mayoría de los casos, las visitas con esos ISP provienen de bots, sin embargo, también pueden ser utilizadas por los empleados, por lo que si su sitio vende un producto a esas compañías, simplemente elimínelas de la expresión. Si no está seguro, puede probar las expresiones antes de aplicarlas a su GA.

        ISP Expression 1

        TOTAL CHARACTERS: 255
        hubspot|^google\sllc$|^google\sinc\.$|alibaba\.com\sllc|ovh\shosting\sinc\.|microsoft\scorp|facebook\sireland\sltd|online\ssas|evercompliant|early\sregistration\saddresses|inktomi\scorporation|google\scorporate|google\sswitzerland\sgmbh|kazooisyee|cloud69

        ISP Expression 2

        TOTAL CHARACTERS: 57
        amazon\sdata\sservices|vultr\sholdings|hos\-329450

        ISP Expression TEMP

        TOTAL CHARACTERS: 237
        internet\ssecurity\s\-|secure\sinternet\sllc|versia\sltd|altushost\ssweden\snetwork|web4africa\s\-ng|altushost\sluxembourg\snetwork|gz\ssystems\slimited\s\-|gz\ssystems\slimited\s\-|north\sstar\sinformation\shi\.tech|putian\scity\sfujian
        Filter google llc and 127.0.0.1.8888 in Google Analytics

e. Dominio ISP / filtro de dominio de red para detener el tráfico de bot

Este filtro es similar al anterior, pero esta vez apuntará al dominio o red ISP.

  • Create a new filter with the following settings: 
    • Nombre del filtro: Excluir bots de dominio de ISP
    • Configuración de filtro
      • Tipo de filtro: Personalizado > Excluir
      • Campo de filtro: Dominio ISP
      • Patrón de filtro: ingrese las siguientes expresiones como están aquí abajo:

        paloaltonetworks|scaleway|kcura

Este filtro cubre las palabras clave extrañas de Amazon del tráfico orgánico de Bing con el dominio de red paloaltonetworks.com

f. Extra: Habilitar "Excluir todos los hits de robots y arañas conocidos"

Este es un filtro preconstruido que se encargará de los bots conocidos de la lista de bots y arañas de IAB, no es perfecto pero ayuda.

En este caso, es un poco más fácil que los filtros personalizados porque solo necesita marcar una casilla.

Cómo habilitar el filtrado de bot

  1. Nuevamente en la sección Admin de tu Analytics, selecciona tu vista Master en la columna VIEW. (También para cualquier otra vista filtrada)
  2. Haz click en Configuración de la vista
    how to block known bots in Google Analytics
  3. Cerca de la parte inferior, marque la casillaExcluir todos los éxitos de bots y arañas conocidas(Filtrado de robots)
    Exclude all hits from known bots and spiders
  4. Guarda y repite el proceso con todas tus vistas

¿Que sigue? Obtenga aún más valor de los datos de Analytics

  1. Limpie el spam de datos pasados: los filtros anteriores evitarán futuras visitas, aquí puede encontrar instrucciones para limpiar el spam de sus datos históricos.
  2. Excluir tráfico interno: este tipo de tráfico basura a menudo se pasa por alto. Si no aplica filtros para el tráfico generado por usted u otras personas de su equipo, estos datos se mezclarán con sus datos de visitas reales, y a diferencia del spam, esto es mucho más difícil de identificar más adelante.

Recursos adicionales

En Resumen!

Ya sea que sea un blogger, un pequeño sitio web local o una empresa multinacional, filtrar sus datos es crucial para la precisión de sus informes.

"Incluso en sitios web de gran volumen donde el envío de datos no deseados sería marginal, aún debe explicar por qué hay tanta discrepancia. Como analista no puede descartarlo simplemente diciendo" no ... no estamos muy seguros de qué es ... "

-Stéphane Hamel

Sin embargo, tienes que hacerlo bien. Manejar cada spammer individualmente es lento e ineficiente. Los filtros de spam de Google Analytics explicados en esta guía pueden tardar un poco más en configurarse, pero a la larga le ahorrarán mucho tiempo.

Estaré actualizando esta guía a medida que aparezcan nuevas amenazas para que pueda mantenerla como referencia.

¿Tienes alguna pregunta o comentario?

He tratado de cubrir todos los detalles importantes en esta guía, sin embargo, si hay alguna parte de la guía en la que te hayas atascado, avísame en la sección de comentarios a continuación.

Si este artículo te ayudó, considera compartirlo o dejar un comentario a continuación sobre tu experiencia, ¡puede ayudar a otras personas! :) ¿necesita ayuda para implementar, configurar y / o proteger su Google Analytics? puedo ayudar

¿Necesita ayuda para configurar un informe robusto y confiable de Google Analytics para su sitio web / negocio?

  • Filtros para calidad de datos
  • Seguimiento de la interacción del usuario (eventos, objetivos)
  • Seguimiento de E-commerce
  • Cumplimiento GDPR
  • Implementación de Google Tag Manager
  • Integraciones (Google Ads, Search Console, etc.)
  • Informes personalizados (paneles, estudio de datos)
  • Informes mensuales y más ...
Be the first to comment :)