Filtrar bots,spam, y otro tráfico basura en Google Analytics: ¡una solución integral!
Google Analytics es probablemente uno de los elementos más importantes del proceso de toma de decisiones de tu sitio web. El éxito o el fracaso de tus esfuerzos (SEO, campañas publicitarias, redes sociales, marketing de contenidos, etc.) pueden determinarse fácilmente por la precisión y el valor de tus informes de GA.
Si no tomas las medidas adecuadas, el tráfico no deseado, como bots, spam y tráfico interno disminuyen la precisión de tus informes lo que te llevará a tomar malas decisiones. La buena noticia es que GA tiene una funcionalidad de filtro muy poderose, que si se usa bien, ayudará a prevenir todo ese tráfico basura. La mala noticia es que, en mi experiencia, la mayoría de los sitios no lo usan correctamente.
El 99% de los sitios que audito no usan filtros o lo hacen, pero no lo hacen de la forma adecuada, lo que empeora el problema.
Entonces, para ayudarte a basar tus decisiones en datos precisos, te mostraré lo siguiente:
- Las formas más eficientes de filtrar bots, spam y otro tráfico basura en tu Google Analytics
- Y también importante, cómo hacerlo de manera segura para no arriesgar tus datos reales.
Preguntas frecuentes sobre esta guía.
Para ahorrarte tiempo, aquí están las respuestas a algunas de las preguntas más comunes que recibo:
- ¿Qué tipo de tráfico basura cubre esta guía?
- Bots comunes y cualquier tipo de spam: fantasmas (referencia, palabra clave, idioma, página, etc.), rastreadores y muchos bots conocidos,
- ¿Funciona en WordPress, Joomla, Shopify, Wix, Weebly, Squarespace ...?
- Sí. Las soluciones a continuación se basan exclusivamente en filtros de GA, por lo que funcionará independientemente de la plataforma (CMS) que utilice.
- ¿Con qué frecuencia actualiza las expresiones y buscas nuevas amenazas?
Qué hacer y qué no hacer al filtrar en Google Analytics?
Antes de comenzar, veamos rápidamente una lista de cosas que debes considerar al filtrar en GA.
- Incorrecto: nunca uses la lista de exclusión de referencias para correo no deseado; esa lista tiene un propósito completamente diferente.
- Incorrecto: nunca manejes el spam individualmente, esto es extremadamente ineficiente y se convertirá en una pesadilla para mantener,
- Incorrecto: no te preocupes de que el spam dañe tu SEO, los datos de GA no se utilizan para las clasificaciones en los resultados de búsqueda
- Incorrecto: las soluciones que trabajan desde el servidor como los complementos de WordPress o .htaccess no tendrán ningún efecto en el apam porque este nunca pasa a través de tu servidor.
- Correcto: una solución integral: Un filtro de nombre de host que se encargará de la mayor parte del spam y un conjunto de filtros con expresiones optimizadas para bloquear robots.
Lo primero es lo primero. Protege tus datos de configuraciones incorrectas
Antes de crear cualquier filtro en GA, debes asegurarte de tener al menos 2 vistas, una donde aplicarás los filtros y otra que dejarás sin filtrar, esto funcionará como una copia de seguridad y para verificar el progreso de tus filtros.
5 tipos de filtros para detener el spam y los bots en Google Analytics
Una vez que tus vistas estén configuradas correctamente, es hora de detener todo ese tráfico sucio que contamina tus informes y no te permite ver el rendimiento real de tu sitio.
No existe una solución única que pueda detener todo el tráfico basura a la vez, por lo que si deseas tener un análisis preciso, tendrás que trabajar para ello.
Los filtros que te voy a mostrar han probado ser efectivos durante más de 5 años que los he aplicado, independientemente de los métodos utilizados por los spammers y los tipos de bots.
Los filtros de Google Analytics que necesitarás son:
- Filtro de nombre de host válido para spam fantasma,
- Filtros de origen de campaña para spam de referencia de rastreadores,
- Filtro de idioma para spam y algunos bots,
- Filtros de organización de ISP para bots,
- Dominio ISP / filtro de red para detener el tráfico de bots,
- Extra: habilita la función incorporada "Filtrado de bots" (para excluir algunos bots conocidos)
¿No tienes tiempo? ¿Quieres que te arregle esto? Puedo revisar tu Google Analytics y aplicar todas las medidas necesarias para garantizar que recibas los datos más precisos posibles.
Notas generales sobre filtros.
- Si bien la mayoría de los filtros comienzan a funcionar en minutos, oficialmente pueden pasar hasta 24 horas antes de que los efectos del filtro se vuelvan visibles en sus datos, así que sea paciente.
- Aplicarás los filtros las vistas que usarás para análisis o en la vista de prueba si deseas probar los filtros primero.
- Los filtros solo funcionan de la fecha aplicada hacia adelante, para los datos históricos se utiliza un segmento que más adelante mostraré.
a. Filtro de nombre de host válido para detener el spam fantasma
El filtro de nombre de host válido es la solución más efectiva contra el spam. Este filtro detendrá permanentemente todo el spam fantasma con nombres de host falsos, sin importar cómo venga o qué nombre use.
¿Qué es un Nombre de Host y qué es una fuente?
expand
La gente, a menudo confunde los nombres de host con las fuentes. Para evitar confusiones al crear los filtros, te explicaré brevemente la diferencia:
- La fuente es de donde proviene tu visita y por lo general hay muchas de ellas, por ejemplo, Facebook, Google, Twitter, Youtube, enlaces de otros sitios a tu sitio, etc.
- El nombre de host, por otro lado, es el sitio donde llega el visitante. Tu nombre de host principal será tu dominio y, según la configuración de tu sitio, puedes tener otros.
- Hacer una lista de tus nombres de host:
- Para ver una lista de todos los nombres de host activos, debes ir al informe de red en tu Google Analytics:
- Audiencia> Tecnología> Red
- Cambia la dimensión principal aNombre de Host(texto azul en la parte superior del reporte)
- Realiza una lista de todos los nombres válidos que encuentres. Deberías ver en la lista al menos uno válido, que es tu dominio principal, el resto dependerá de la configuración de tu sitio.
- Para ver una lista de todos los nombres de host activos, debes ir al informe de red en tu Google Analytics:
- Construye tu expresión de nombre de host: una vez que tengas la lista de todos tus nombres de host, debes ponerlos todos juntos separándolos con una barra como esta "|":
- tudominio|nombredehost2|nombredehost3 y así sucesivamente.
- Si necesitas ayuda adicional para encontrar tus nombres de host válidos y construir tu expresión, hásmelo saber.
- Crea el filtro: una vez que estés seguro de que la expresión es correcta, crea el filtro de la siguiente manera:
Cómo crear un filtro para bloquear el spam fantasma en Google Analytics
Para bloquear todo el spam fantasma en Google Analytics, debes crear un filtro que incluya todos los nombres de host validos:
- Ve a la pestaña Administrador y selecciona la vista donde quieras aplicar el filtro. Si sigues los nombres anteriores, esta será la vista de análisis o la vista de Test.
- Selecciona Filtrosen la columna Vista y selecciona + Añadir filtro
- Ingresa como nombre para el filtro Incluir nombres de host válidos.
- Configura el filtro de la siguiente manera:
- Tipo de filtro Personalizado > Incluir
- Campo de filtro Nombre de host
- En el cuadro Patrón de filtro, copia la expresión de nombre de host que creaste anteriormente.
- Una vez que te asegures de que tu filtro esté bien, guarda el filtro.
IMPORTANTE: este filtro no requiere actualizaciones para nuevo spam fantasma, pero es esencial actualizar la expresión cada vez que agregue el código de seguimiento (UA-00000-1) a un nuevo servicio o dominio.
b. Filtros para detener rastreadores de spam de URLS de referencia (crawlers)
Este tipo de spam usa un nombre de host válido, por lo que es un poco más difícil de detectar. Para bloquearlo, necesitas un filtro con una expresión que coincida con la fuente de todo el crawler spam conocido.
Para ahorrarte algo de tiempo, he creado un conjunto de expresiones regulares optimizadas (REGEX) con todo el spam de rastreadores relevante detectado en los últimos años, los encontrarás a continuación en las instrucciones.
Cómo crear un filtro para bloquear el spam rastreador de referencias en Google Analytics?
Para bloquear el spam de referencia en Google Analytics, deberá crear un filtro de exclusión utilizando la fuente de la campaña:
- Vuelve a ir a la sección de administración de tu GA.
- En la última columna "VISTA", selecciona Filtrosy luego presiona en +Añadir filtro
- Ingresa como nombre para el filtro "Excluir spam de rastreo"
- Configura el filtro de la siguiente manera:
- Tipo de filtro Personalizado > Excluir
- Campo de filtro Fuente de campaña(no use el campo de referencia o no funcionará)
- Patrón de filtro > Pega la siguiente expresión de crawler spam.Estas expresiones fueron reconstruidas para optimizar el número de filtros. Si creaste tu filtro antes del 23 de noviembre de 2018, reemplaza todas las expresiones antiguas y elimina cualquier filtro adicional.
Crea 1 filtro para cada expresión
Crawler Expression 1
TOTAL CHARACTERS: 50(traffic|bot|website)-?(bot|traffic|website|4free)Crawler Expression 2
TOTAL CHARACTERS: 249(axcus|dotmass|artstart|dorothea|artpress|matpre|ameblo|freeseo|jimto|seo-tips|hazblog|overblog|squarespace|ronaldblog|c\.g456|zz\.glgoo|harriett|webedu|barbarahome|verabauer|deirdre|ninacecillia|reginanahum|deniseconnie|firstblog|maxinesamson)\.topQuieres notificaciones gratuitas con las expresiones actualizadas cada vez que detecte nuevos rastreadores?
- Después de que todo esté configurado, Guardar.
Nota: Puedes encontrar otras referencias que pueden no ser spam, pero que no son relevantes para ti. Por ejemplo, sitios de prueba móviles o sitios de caché. Puedes crear un filtro similar con la misma configuración y agregar todas las referencias irrelevantes para mantener tus datos precisos y confiables.
Ahora que estás familiarizado con la ventana de filtro, no repetiré las instrucciones completas en los siguientes filtros. Para crearlos, deberás seguir exactamente los mismos pasos de los 2 filtros anteriores y cambiar los siguientes campos:
- Nombre del filtro
- Campo de filtro
- Expresión de filtro
c. Filtro de idioma para rastreadores y robots sigilosos
De vez en cuando puedes ver idiomas extraños que se muestran en tu Google Analytics. Preparé una expresión que evitará cualquier lenguaje que no tenga un formato adecuado como es-ES, en-US, fr-FR, etc.
También agregué a la expresión el "Lenguaje c" que parece ser olvidado por los bots.
- Crea un nuevo filtro con la siguiente configuración:
- Nombre del filtro: Excluir idiomas no válidos
- Configuración de filtro:
- Tipo de filtro: Personalizado > Excluir
- Campo de filtro: Configuración del idioma
- Patrón de filtro: ingresa la siguiente expresión tal como está:\s[^\s]*\s|.{15,}|\.|,|^c$
d. Organización ISP / filtro de proveedor de servicios para detener el tráfico de bot
No todo el tráfico irrelevante proviene de spammers, algunas empresas usan bots para rastrear sitios para diferentes propósitos (indexación, análisis, etc.). Es posible que esos robots no tengan malos propósitos, pero aún así inflan tus reportes.
Por ejemplo, los robots de Google que provienen de su ISP corporativo "Google LLC":

- Resolución de pantalla: 2000x2000
- País: Perú, Filipinas, Estados Unidos
- Ciudad: (no establecido), Ciudad Quezón, Manila
- Proveedor de servicios: Facebook Ireland Ltd
Lista de sitios corporativos e ISP con alto uso de bots:
PROVEEDORES DE ISP COMUNES QUE UTILIZAN BOTS: | ||
---|---|---|
facebook ireland ltd | google llc | google inc. |
alibaba.com llc | ovh hosting inc. | microsoft corp |
microsoft corporation | hubspot | evercompliant ltd. |
kazooisyee | google switzerland gmbh | google corporate |
Nota: Estos son solo algunos ejemplos de ISP con alta actividad de bot, la siguiente expresión contiene más y se actualiza constantemente.
- Crea un nuevo filtro con la siguiente configuración:
- Nombre del filtro: Excluir bots de proveedores de ISP
- Filter Name: Exclude ISP provider bots
- Configuración de filtro
- Tipo de filtro: Personalizado > Excluir
- Campo de filtro: Organización del ISP
- Patrón de filtro: ingrese las siguientes expresiones como están aquí abajo:
IMPORTANTE
Pruebo exhaustivamente las siguientes expresiones en docenas de propiedades de GA para evitar interferencias con datos reales del usuario. Sin embargo, en muy pocos casos las expresiones podrían coincidir con algunos datos reales del usuario.
Por ejemplo, la siguiente expresión bloquea el ISP "Google llc" y "Microsoft corp", que son ISP utilizados en las oficinas de estas empresas.
En la mayoría de los casos, las visitas con esos ISP provienen de bots, sin embargo, también pueden ser utilizadas por los empleados, por lo que si tu sitio vende un producto a esas compañías, simplemente elimínalas de la expresión. Si no estás seguro, puede probar las expresiones antes de aplicarlas a su GA.
ISP Bot Expression 1
TOTAL CHARACTERS: 255hubspot|^google\sllc$|^google\sinc\.$|alibaba\.com\sllc|ovh\shosting\sinc\.|microsoft\scorp|facebook\sireland\sltd|online\ssas|evercompliant|early\sregistration\saddresses|inktomi\scorporation|google\scorporate|google\sswitzerland\sgmbh|kazooisyee|cloud69ISP Bot Expression 2
TOTAL CHARACTERS: 27vultr\sholdings|hos\-329450ISP Bot Expression *
TEST THIS FILTER BEFORE APPLYING IT
The following filter could help you prevent large amounts of bot traffic, however, it should be tested in your Analytics before applying it.
I extensively test the expressions below across many GA properties to avoid interference with real user data. However, in very few cases the expressions could match some real user data.
For example, call tracking tools often use Cloud Services (bots) to send data to Google Analtyics. A common case is Callrail which uses Amazon Cloud Services, in those cases you should remove Amazon ISPs.
You can use this method to test the filter and see how it will work in your GA.
TOTAL CHARACTERS: 145chinanet\sfujian|putian\scity\sfujian|linode\sllc|amazon\.com\sinc\.|amazon\stechnologies\sinc\.|digitalocean\sllc|linode$|amazon\sdata\sservices
e. Dominio ISP / filtro de dominio de red para detener el tráfico de bot
Este filtro es similar al anterior, pero esta vez apuntará al dominio o red ISP.
- Crea un nuevo filtro con la siguiente configuración:
Este filtro cubre las palabras clave extrañas de Amazon del tráfico orgánico de Bing con el dominio de red paloaltonetworks.com
f. Extra: Habilitar "Excluir todos los hits de robots y arañas conocidos"
Este es un filtro preconstruido que se encargará de los bots conocidos de la lista de bots y arañas de IAB, no es perfecto pero ayuda.
En este caso, es un poco más fácil que los filtros personalizados porque solo necesita marcar una casilla.
Cómo habilitar el filtrado de bot
- Nuevamente en la sección Administrar en tu Google Analytics, selecciona tu vista Master en la columna VIEW. (También para cualquier otra vista filtrada)
- Haz click en Configuración de la vista
- Cerca de la parte inferior, marca la casillaExcluir todos los hits de robots y de arañas conocidos(Filtrado de robots)
- Guarda y repite el proceso con todas tus vistas
¿Que sigue? Obtenga aún más valor de los datos de tu Google Analytics
- Limpia el spam de datos pasados: los filtros anteriores evitarán futuras visitas.
- Excluir tráfico interno: este tipo de tráfico basura a menudo se pasa por alto. Si no aplica filtros para el tráfico generado por usted u otras personas de su equipo, estos datos se mezclarán con sus datos de visitas reales, y a diferencia del spam, esto es mucho más difícil de identificar más adelante.
- Guía para filtrar IP estática,
- Guía para filtrar el tráfico interno de forma dinámica.
Recursos adicionales
- Respuestas a preocupaciones comunes sobre spam y bots en Google Analytics:
- ¿El spam daña mis SEO-Rankings?
- ¿Cómo llega a tus informes?
- y muchos más.
En Resumen!
Ya sea que seas un blogger, un pequeño sitio web local o una empresa multinacional, filtrar tus datos es crucial para la precisión de tus informes.
"Incluso en sitios web de gran volumen donde el envío de datos no deseados sería marginal, aún debe explicar por qué hay tanta discrepancia. Como analista no puede descartarlo simplemente diciendo" no ... no estamos muy seguros de qué es ... "
Sin embargo, tienes que hacerlo bien. Manejar cada spammer individualmente es lento e ineficiente. Los filtros de spam de Google Analytics explicados en esta guía pueden tardar un poco más en configurarse, pero a la larga te ahorrarán mucho tiempo.
Estaré actualizando esta guía a medida que aparezcan nuevas amenazas para que pueda mantenerla como referencia.
¿Tienes alguna pregunta o comentario?
He tratado de cubrir todos los detalles importantes en esta guía, sin embargo, si hay alguna parte de la guía en la que te hayas atascado, avísame en la sección de comentarios a continuación.
Si este artículo te ayudó, considera compartirlo o dejar un comentario a continuación sobre tu experiencia, ¡puedes ayudar a otras personas! ¿necesita ayuda para implementar, configurar y / o proteger su Google Analytics? puedo ayudar
¿Necesitas ayuda para configurar un informe robusto y confiable de Google Analytics para tu sitio web / negocio?
|
|