Todos los sitios web de todo el mundo son rastreados por el Googlebot, que los analiza para poder establecer una clasificación relevante en los resultados de búsqueda. Veremos en este post las diferentes acciones del Googlebot, sus expectativas y los medios a su disposición para optimizar la exploración de su sitio.

Resumen

¿Qué es Googlebot?

Googlebot es un robot virtual, desarrollado por los ingenieros del gigante de Mountain View. Este pequeño "Wall-E de la web" se desplaza por los sitios web a toda velocidad antes de indexar algunas de sus páginas. Este programa informático busca y lee el contenido de los sitios y modifica su índice según las novedades que encuentra. El índice, que contiene los resultados de la búsqueda, es como el cerebro de Google. Aquí es donde reside todo su conocimiento.

googlebot

Google utiliza miles de pequeñas computadoras para enviar sus rastreadores a cada rincón de la web para encontrar estas páginas y ver qué hay en ellas. Hay varios robots diferentes, cada uno con un propósito bien definido. Por ejemplo, los bots AdSense y AdsBot se encargan de comprobar la relevancia de los anuncios de pago, mientras que Mobile Apps Android comprueba las aplicaciones de Android. También hay un Googlebot Imágenes, Noticias... Aquí hay una lista de los más conocidos y más importantes con su nombre "User-agent":

  • Googlebot (escritorio) Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Googlebot (móvil) Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, como Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Googlebot Video Googlebot-Video/1.0
  • Googlebot Images Googlebot-Image/1.0
  • Noticias de Googlebot Noticias de Googlebot

Google proporciona la lista completa de Googlebots aquí.

¿Cómo funciona Googlebot y qué está buscando?

Googlebot es totalmente autónomo, nadie lo "conduce" realmente una vez que es lanzado. El robot utiliza mapas de sitio y los enlaces descubiertos en búsquedas anteriores. Cada vez que el rastreador encuentre nuevos enlaces en un sitio, los seguirá para visitar las páginas de destino y los añadirá a su índice si son de interés. Del mismo modo, si Googlebot encuentra enlaces rotos o modificados, los tendrá en cuenta y actualizará su índice. El propio Googlebot determina la frecuencia con la que navegará por las páginas. Asigna un "presupuesto de rastreo" a cada sitio. Por lo tanto, es normal que un sitio de varios cientos de miles de páginas no esté completamente rastreado o indexado. Para que el Googlebot pueda asegurarse de que su sitio se indexe correctamente, debe comprobar que ningún factor bloquee el rastreo o lo ralentice (comando incorrecto en el robots.txt, por ejemplo).

Los comandos del robots.txt

El robots.txt es una especie de mapa de ruta para Googlebot. Es la primera cosa a la que viene arrastrándose para poder seguir sus instrucciones. En el archivo robots.txt, es posible restringir el acceso a Googlebot a ciertas partes de su sitio. Este sistema se utiliza a menudo en las estrategias de optimización de presupuestos de rastreo. El robots.txt de cada sitio web es accesible añadiendo /robots.txt al final de la url. Es lo siguiente:

Puedes ver que este sitio prohíbe la exploración de las páginas del carrito de compras, mi cuenta y otras páginas de configuración.

Archivos CSS

CSS significa Hojas de Estilo en Cascada. Este archivo describe cómo deben mostrarse los elementos HTML en la pantalla. Ahorra mucho tiempo porque las hojas de estilo se aplican en todo el sitio. Incluso puede controlar la disposición de varios sitios al mismo tiempo. Googlebot no sólo se ocupa del texto, sino que también descarga archivos CSS para entender mejor el contenido general de una página.

Gracias al CSS también puede..:

Detectar posibles intentos de manipulación por parte de los sitios para engañar a los robots y posicionarse mejor (el más famoso: camuflaje y escritura blanca sobre fondo blanco).
Descargue algunas imágenes (logo, pictogramas...)
Lea las directrices sobre el diseño receptivo, que son esenciales para mostrar que su sitio está adaptado a la navegación móvil

Las imágenes

Googlebot descarga las imágenes de su sitio para enriquecer su herramienta "Google Imágenes". Por supuesto, el robot no "ve" la imagen todavía, pero llega a la entenderlo gracias al atributo alt y el contexto general de la página. Así que no debes descuidar tus imágenes porque pueden convertirse en una importante fuente de tráfico, aunque hoy en día sea muy complicado analizarlas con Google Analytics.

¿Cómo analizo las visitas de Googlebot a mi sitio?

El robot de Google es bastante discreto, no se ve a primera vista. Para los principiantes, es incluso una noción totalmente abstracta. Sin embargo, está ahí, y deja algunos rastros en su camino. Estos "rastros" son visibles en los registros del sitio. El análisis de los registros es una forma de entender cómo Googlebot visita su sitio. El archivo de registro también permite observar la fecha y hora exactas de la visita del bot, el archivo de destino o la página solicitada, el encabezado de respuesta del servidor, etc.

Tiene varias herramientas a su disposición para este propósito.

La consola de búsqueda de Google

La consola de búsqueda anteriormente llamada Herramientas para webmasters, es una de las herramientas gratuitas más importantes para comprobar la buena navegabilidad de su sitio. A través de sus curvas de indexación y rastreo, podrá ver la proporción de páginas rastreadas e indexadas en comparación con el número total de páginas de las que se compone su sitio. También obtendrá una lista de errores de rastreo (errores 404 o 500 por ejemplo) que puedes corregir para ayudar a Googlebot a navegar mejor en tu sitio.

Herramientas de análisis de registros pagados

Para saber con qué frecuencia Googlebot visita tu sitio y qué hace, también puedes optar por herramientas de pago pero mucho más sofisticadas que la consola de búsqueda. Algunos de los más conocidos son: Oncrawl, Botify, Kibana, Rana Gritona... Estas herramientas están más bien destinadas a sitios compuestos de muchas páginas que necesitan ser segmentadas para facilitar el análisis. En efecto, a diferencia de la consola de búsqueda que le ofrece una tasa de rastreo global, algunas de estas herramientas ofrecen la posibilidad de afinar su análisis determinando una tasa de rastreo para cada tipo de página (páginas de categoría, ficha de producto...). Esta segmentación es esencial para destacar las páginas problemáticas y luego considerar las correcciones necesarias.

El robots.txt

Google no comparte sus listas de direcciones IP utilizadas por diferentes robots porque cambian a menudo. Así que, para saber si un (verdadero) Googlebot está visitando tu sitio, puedes hacer una búsqueda IP inversa. Los spammers pueden falsificar fácilmente un nombre de agente de usuario, pero no una dirección IP. El archivo robots.txt puede ayudarle a determinar cómo Googlebot visita ciertas partes de su sitio. Tenga cuidado, este método no es ideal para los principiantes porque si se equivoca en los comandos, podría impedir que Googlebot rastree todo su sitio, lo que provocaría directamente la eliminación de su sitio de los resultados de búsqueda.

¿Cómo puedo optimizar mi sitio para que atraiga a Googlebot?

Ayudar a Googlebot a rastrear más páginas de su sitio puede ser un proceso complejo, que se reduce a derribar las barreras técnicas que impiden al robot explorar su sitio de forma óptima. Este es uno de los pilares de la optimización natural de los motores de búsqueda: optimización in situ.

Actualice el contenido de su sitio regularmente

El contenido es, con mucho, el criterio más importante para Google, pero también para otros motores de búsqueda. Es probable que los sitios que actualizan regularmente su contenido sean buscados con mayor frecuencia porque Google busca constantemente nuevo contenido. Si tienes un sitio de exhibición donde es difícil añadir contenido regularmente, puedes usar un blog, directamente vinculado a tu sitio. Esto animará al robot a venir más a menudo mientras enriquece la semántica de su sitio. En promedio, se recomienda proporcionar contenido fresco por lo menos tres veces a la semana para mejorar significativamente su tasa de exploración.

Mejorar el tiempo de respuesta del servidor y el tiempo de carga de la página

Tiempo de carga de la página es un factor determinante. De hecho, si Googlebot tarda demasiado en cargar y explorar una página, rastreará menos páginas detrás. Así que necesitas alojar tu sitio en un servidor fiable con un buen rendimiento.

Crear Sitemaps

Enviar un mapa del sitio es una de las primeras cosas que puede hacer para que los robots exploren su sitio de forma más fácil y rápida. Puede que no exploren todas las páginas del mapa del sitio, pero tendrán los caminos ya cocinados, lo que es especialmente importante para las páginas que tienden a estar mal enlazadas dentro del sitio.

Evitar la duplicación del contenido

El contenido duplicado reduce en gran medida la tasa de exploración porque Google considera que utiliza sus recursos para rastrear lo mismo. En otras palabras, ¡estás cansando a sus robots para nada! Por lo tanto, el contenido duplicado debe ser evitado en la medida de lo posible para Googlebot, pero también para este querido amigo Google Panda.

Bloquear el acceso a páginas no deseadas a través de Robots.txt

Para preservar su presupuesto de rastreo, es inútil dejar que los robots de los motores de búsqueda naveguen por páginas irrelevantes, como páginas de información, páginas de administración de cuentas, etc. Una simple modificación en el archivo robots.txt le permitirá bloquear la exploración de estas páginas por Googlebot.

Usar los servicios de Ping

El pinging es una muy buena manera de animar a los robots a venir a visitarte informándoles de las nuevas actualizaciones. Hay muchos servicios de ping manual como Pingomatic en WordPress. Puedes añadir manualmente otros servicios de ping a muchas arañas de los motores de búsqueda.

Cuida de tu red interna

El trabajo en red interno es crucial para optimizar su presupuesto de rastreo. No sólo te permite transmitir el jugo del SEO a cada página, sino también guiar mejor a los bots a las páginas más profundas. Concretamente, si tienes un blog, cuando añadas un artículo, deberías, siempre que sea posible, hacer un enlace a una página más antigua. Esta página seguirá estando poblada y continuará mostrando interés en Googlebot. Las redes internas no ayudan directamente a aumentar la tasa de rastreo de Google, pero sí ayudan a los rastreadores a explorar eficazmente las páginas profundas de su sitio que a menudo se pasan por alto.

Optimice sus imágenes

No importa cuán inteligentes sean, los robots aún no son capaces de visualizar una imagen. Necesitan indicaciones textuales. Si su sitio utiliza imágenes, asegúrese de completar los atributos alt para proporcionar una descripción clara que los motores de búsqueda entiendan e indexen. Las imágenes sólo pueden aparecer en los resultados de búsqueda si están correctamente optimizadas.

Conclusión

Googlebot es por lo tanto un pequeño robot que visita su sitio web diariamente, buscando noticias. Si ha tomado decisiones técnicas acertadas para su sitio, éste vendrá con frecuencia y rastreará muchas páginas. Si le das un contenido fresco de forma regular, volverá aún más a menudo. Por cierto, siempre que realice un cambio en su sitio, puede invitar a Googlebot a que venga a ver ese cambio desde la consola de búsqueda de Google. En principio, esto permite una indexación más rápida.

class="img-responsive
   Artículo escrito por Louis Chevant

Completa tu lectura

La guía completa de la malla interna

El método paso a paso para construir sus capullos semánticos, su malla y la estructura óptima de su sitio web.