El análisis de registros es una técnica utilizada sistemáticamente por los profesionales de SEO. Da una visión global de actuaciones del sitio, su red interna y su impacto en robots. De hecho, los archivos de registro son los únicos datos que son 100% exactos. En última instancia, el análisis de los registros es una ayuda indispensable para obtener una mejor clasificación en la los motores de búsquedamientras que aumenta el tráfico, las conversiones y las ventas.

Resumen

¿Qué es un archivo de registro del servidor?

Los archivos de registro son datos registrados por el servidor que soporta su sitio web. Estos datos pueden provenir de usuarios de Internet, como los robots. 

¿Qué son los troncos?

Cuando un usuario teclea una URL en un navegador, el navegador primero traduce la URL en 3 componentes :

        • Protocolo
        • Nombre del servidor
        • Nombre del archivo

analysis-logs-url

El nombre del servidor se convierte en una dirección IP a través del servidor NDD (Domain Name) para establecer una conexión entre el navegador y el servidor web correspondiente, donde se encuentra el archivo solicitado. A continuación, se envía una solicitud de HTTP Get al servidor web a través del protocolo asociado para la página (o archivo) deseada, que luego se interpreta para dar formato a la página que se muestra en la pantalla. Cada una de estas solicitudes se registra como un "hit" del servidor web. Estos "hits" son visibles en sus registros pero también en su Consola de búsqueda de Google.

La estructura del archivo de registro depende del tipo de servidor y de las configuraciones aplicadas, pero hay ciertos atributos que casi siempre se incluyen :

        • Servidor IP 
        • Sello de fecha y hora
        • Método (GET / POST)
        • Petición de URI (alias: Vástago de URI + petición de URI)
        • Código de estado HTTP
        • Agente-usuario

Esto es lo que parece: 

análisis-logs-estructura

¿Qué información puedes extraer de ella?

Contiene información como la IP del usuario de la web que accede a la información, una marca de tiempo, un agente de usuario, la Código de respuesta HTTP, imágenes, CSS y cualquier otro archivo necesario para mostrar la página. Por lo tanto, los archivos de registro se componen de miles de líneas cada día. La mayoría de las soluciones alojamiento retendrá automáticamente el archivos de registro por un tiempo. Por lo general, esta información sólo se pone a disposición del webmaster o del propietario del dominio.

Páginas vistas o no rastreadas por Google

El análisis del registro pone de manifiesto las páginas que más interesan a los robots y las que se abandonan. Esta información es esencial en cualquier estrategia de SEO. De hecho, cada sitio web incluye páginas muy estratégicas y páginas secundarias. Los registros le permiten ver si todas sus páginas estratégicas son rastreadas por Google. Si la tasa y/o el frecuencia de rastreo son inferiores a la media del sitio, esto significa que es necesario un trabajo fundamental para empujar a Google a consultar más estas páginas. No hay soluciones estándar que podamos aconsejarle, ya que los problemas varían de un sitio a otro. Pero le daremos algunos consejos de optimización en la segunda parte de este artículo.

La frecuencia con la que navega por su sitio web

La frecuencia de exploración de sus páginas indica si los robots vienen a explorarlos regularmente o no. No debe confundirse con el tasa de arrastre que sólo se refiere al número de rastreos asignados a una página o grupo de páginas, aunque estas dos métricas suelen estar vinculadas. De hecho, una página sin interés se arrastrará cada vez con menos frecuencia. Por consiguiente, la frecuencia del rastreo es un dato adicional para medir la relevancia de una o más páginas. Si los robots llegan a ver más a menudo las páginas que han sido optimizadas, ¡pueden concluir que su trabajo está dando frutos!

El volumen de arrastre del robot

El análisis del registro también permite conocer con precisión el volumen de rastreo diario en las URL. URLs ya conocidas y recién rastreadas. Es importante controlar diariamente los volúmenes de rastreo utilizando un vigilancia. Esta es simplemente una curva que representa el número de arrastres cada día. Una caída significativa en el volumen de rastreo puede deberse a la ralentización de los servidores, a la ralentización de la errores 500 o un problema cuando el servidor recupera los registros. Por el contrario, un gran aumento no es necesariamente positivo. Por ejemplo, si acaba de añadir muchos productos y el número de rastreos explota, debería mirar qué páginas se han rastreado para asegurarse de que no hay problemas de contenido duplicado. Un pico de arrastre también puede preceder a un Actualización de Google o ser puntual y sin ninguna razón en particular.

robot-logs-analisis

Escalada del código de error

Los datos recuperados de los registros también contienen todos los códigos de respuesta en cada evento. Si un usuario llega a su sitio y se enfrenta a un código 500 (error del servidor), se creará una línea de registro. Lo mismo ocurre con las páginas en 404 (páginas no encontradas), 200 (páginas accesibles), etc. El análisis de los códigos de respuesta HTTP tiene un doble interés: SEO y UX (experiencia del usuario). Si sus visitantes entran regularmente a su sitio, probablemente nunca regresarán, como los robots de Google, que terminarán penalizándolo.

Puede que te preguntes por qué estás analizando los códigos HTTP en tus registros cuando ya están disponibles en los resultados de tu crawler ? La explicación es muy simple: los datos del rastreador se calculan en el instante T. Si realiza su rastreo cuando su servidor no está muy ocupado (y por lo tanto es más eficiente), es posible que no note ningún problema con el código de respuesta, aunque, en realidad, la mayoría de las veces su sitio muestra muchos errores del servidor. Por lo tanto, el análisis de los códigos HTTP en los registros permite tener una idea más general y más suave con el tiempo.

Redirección 302 temporal

302 redirecciones también aparecen en los registros. A diferencia de los 301 que son permanentes y pueden ser más fácilmente "dejados correr", los 302 deben ser monitoreados. En general, es mejor evitarlas por completo, pero si no tiene otra opción, debe utilizarlas con fines ocasionales y temporales, en cuyo caso sus páginas perderán visibilidad con el tiempo. Por lo tanto, analizando sus registros, podrá ver si los bots continúan rastreando los 302 y tomar las medidas necesarias para dirigirlos a los URLs correctos, ya sea cortando los 302 o haciendo un 301.

¿Qué es el rastreo de presupuestos y cómo optimizarlo?

Los robots de Google no rastrean todas las páginas de un sitio web (a menos que se trate de un pequeño sitio de exhibición). No sabemos exactamente cómo definen los motores de búsqueda el presupuesto de rastreo, pero según Google, el motor de búsqueda tiene en cuenta dos factores: el popularidad páginas y el la frescura del contenido. Esto significa que si el contenido de una página se actualiza con frecuencia, Googlebot intentará navegar por ella con mayor frecuencia.

Así pues, se pueden observar tasas de rastreo extremadamente bajas (del orden del 2 ó 3% o incluso menos) en los sitios con grandes lagunas de SEO (mala malla interna, contenido duplicado, bajo perfil de enlaces, contenido pobre, páginas lentas, etc.). Por lo tanto, uno de los objetivos del análisis logístico esoptimizar este presupuesto de rastreo.

Detección de problemas técnicos

Los errores 5xx y 4xx son la bestia negra de los SEOs porque envían una señal muy negativa a Google. Además, perturban indirectamente la malla interna del sitio porque cuando un robot no puede acceder a una página, no puede acceder a los enlaces internos que contiene. Dependiendo de la importancia de la página, esto puede impactar en el rastreo de las páginas que están estrechamente vinculadas. Por lo tanto, es esencial corregir estos problemas técnicos, especialmente si son recurrentes.

Páginas huérfanas

Las llamadas páginas huérfanas son páginas que existen pero que no están vinculadas al sitio. Estas páginas son fácilmente detectables en mezclando los datos de un rastreador y los registros. No aparecerán en los datos del rastreador, pero pueden aparecer en los registros. Entonces te preguntas cómo puede Google explorar páginas que no están enlazadas con el sitio. Esto se debe a varias razones: o bien estas páginas fueron en su día vinculadas al sitio y han perdido sus enlaces (por ejemplo, un producto agotado que ya no aparece en la lista de la categoría), o bien reciben enlaces entrantes externos (backlinks). En ambos casos, aunque ya no reciban ningún enlace, Google puede seguir rastreándolos porque los conoce. También es difícil asegurar que los robots ya no exploren naturalmente estas páginas. Puedes quitarlos de la mapa del sitioEl primer paso es eliminar los enlaces externos y ver que Google sigue rastreándolos incansablemente. Para esto, sólo hay una solución: bloquearlos en el robots.txt. Pero esta es una solución que no es viable a largo plazo porque 1/ el número de líneas es limitado; 2/ es una gestión manual que puede llevar demasiado tiempo si el sitio es grande.

URLs duplicados

Los URLs duplicados son una de las primeras causas de penalización por parte de los robots y en particular Panda. Sin embargo, a menudo sin intención, pueden tener graves consecuencias en la referencia natural de un sitio web. Cuando te encuentres con grupos de páginas similares, puedes optar por las etiquetas rel=canónicas o incluso borrar ciertas páginas por completo. En cualquier caso, deben revisar sus registros de antemano para saber cuál es la página de referencia de los robots. Si, de unas diez páginas duplicadas, se observa que una versión está particularmente rastreada, entonces tendrá que elegirla como página de referencia.

Diagnosticar la optimización de sus páginas

análisis-registro-ilustración

Las diferentes tasas 

La tasa de páginas activas

Para desarrollar un plan de optimización y definir prioridades, es necesario utilizar diferentes métricas. La primera es, por supuesto, la velocidad de rastreo de una página o un grupo de páginas. Esto le dirá cuánto interés tienen los robots en estas páginas. Luego viene la tasa de páginas activas dentro de este grupo de páginas. La tasa de rastreo es en efecto insuficiente porque una página de rastreo no es necesariamente una página activa (= que ha recibido al menos 1 visita en los últimos 30 días). Por lo tanto, es interesante saber qué páginas están rastreadas pero no activas y encontrar las causas.

La recensión de las páginas

Entonces puedes clasificar tus páginas arrastradas y activas de acuerdo a su reciente. Es posible que Google esté más interesado en su contenido "fresco" o, por el contrario, en su contenido más antiguo. De cualquier manera, le dará una idea del plan de acción que necesita poner en marcha para destacar sus páginas más estratégicas. 

La relación número de rastreos/visitas

En el SEO, tienes que tomar decisiones para optimizar el presupuesto de rastreo. A veces hay que "cortar el pie para no cortar la pierna". Algunas páginas no estratégicas pueden, en efecto, consumir mucho arrastre, para un número demasiado bajo de visitas. Así, analizando esta relación "número de rastreo / visitas", podrá destacar las páginas que consumen demasiado presupuesto en comparación con lo que ganan. Puedes elegirofuscar los enlaces que conducen a estas páginas para que los robots ya no las vean, o simplemente las eliminan del sitio si no son de interés para el usuario. Esto "desviará" a los robots de Google a otras páginas más interesantes para ti.

La tasa de rastreo por tipo de página

En herramientas de análisis de rastreo y registro como Oncrawl o Botifypuede segmentar sus páginas según sus necesidades en términos de analítica. Esta es una operación crucial que condicionará todas sus decisiones. De este modo, observará el El comportamiento de los robots en cada tipo de página y ver la evolución de sus acciones dirigidas.

Identificar las necesidades de adaptabilidad móvil

Gracias a los datos del agente-usuario, los registros le permitirán saber si su sitio se ha movido al índice Mobile First (MFI). Si este es el caso, pronto lo descubrirás: casi todos los rastreos serán hechos por el bot móvil. Esta es una información importante que le ayudará a determinar sus acciones prioritarias. Por ejemplo, si su sitio ha sido convertido a IMF, mejorar los tiempos de carga debería ser una de sus prioridades.

Conclusión

Por lo tanto, los registros son una mina de información para todos los editores de sitios web. Al cruzar sus datos con los de un crawler, conocerá con precisión el estado de salud de su sitio y el comportamiento de los robots de los motores de búsqueda. Este esun paso esencial antes de embarcarse en una estrategia de referenciación natural. Puede parecer complejo al principio, pero se puede abordar de forma empírica y puede ser sencillamente fascinante.

class="img-responsive
   Artículo escrito por Louis Chevant

Completa tu lectura

La guía completa de la malla interna

El método paso a paso para construir sus capullos semánticos, su malla y la estructura óptima de su sitio web.