La etiqueta de los meta-robots permite dos cosas: indicar al motor que no debe indexar un contenido, pero también (y de forma complementaria) que el robot no debe seguir los enlaces que encuentra en este contenido. Una y/o la otra de estas dos opciones son posibles.

Resumen

¿Qué es la metaetiqueta del robot?

La etiqueta de los meta robots está presente en todos los sitios web. Guía a los motores de búsqueda con una cierta cantidad de información. Este pedazo de código se encuentra en la cabeza de la página, en otras palabras, en el "encabezado" del código (no confundir con el encabezado HTTP). Esta pequeña etiqueta tiene un gran impacto en las páginas. De hecho, da el poder de decidir qué páginas deben ser vistas y exploradas por los motores de búsqueda y cuáles deben ser ocultadas y prohibidas de indexar. Por lo tanto, es esencial, pero debe utilizarse con cuidado.

beacon-meta-robots-illustration

La etiqueta de los meta robots también se puede usar en los enlaces internos, como parte de la escultura del pagerank. Utilizado durante mucho tiempo (erróneamente) para gestionar la navegación y la paginación facetada, ahora muestra su interés en los enlaces externos salientes. Por ejemplo, si un sitio de comercio electrónico crea una página sobre la marca Nike, puede ser necesario hacer un enlace que apunte al sitio de Nike. Aquí, la etiqueta de los meta robots permite mantener el jugo SEO de la página (que viene de la malla interna del sitio y de los diversos enlaces externos). Sin embargo, este método no es aceptado unánimemente por los SEO. Algunos confían lo suficiente en Google y creen que el impacto de esta pérdida de jugo sería bajo o inexistente. También consideran que esto es parte de un netlinking natural y que la etiqueta de meta robot no es esencial, a menos que los enlaces salientes sean muy numerosos. Otros prefieren jugar la carta de la precaución usando sistemáticamente los meta-robots.

¿Cómo colocar la etiqueta de los meta-robots en su cabecera?

La integración de este faro es simple y rápida. Requiere tener acceso al código de una página o un conjunto de páginas, luego a :

  •  Copie y pegue toda la cabeza en un documento separado. Hay editores de HTML adecuados para escribir código, como SublimeText que destaca por ejemplo las etiquetas mal cerradas.
  • Integrar la etiqueta como se muestra a continuación

balise-meta-robot-header

Proporcionar directrices para los agentes usuarios

Aunque esta etiqueta es estándar, también puede proporcionar instrucciones a robots específicos reemplazando "robots" por el nombre de un agente-usuario específico. Esto es útil, por ejemplo, para los rastreos previos a la producción o si desea evitar que ciertos rastreadores lanzados por la competencia rastreen su sitio.

balise-meta-robots-usuario-agente-especificación

Si quieres usar diferentes directivas de etiquetas de meta robot para diferentes agentes-usuarios, entonces necesitas separarlos para cada agente-usuario.

El X-robots-tag, una alternativa más fina a los meta robots

Si la etiqueta de los meta robots actúa sobre el comportamiento de indexación de toda la página, la etiqueta de los x-robots puede ser incluida directamente en el encabezado del HTTP y permite controlar la indexación de ciertos elementos solamente. Por lo tanto, ofrece las mismas posibilidades que los meta-robots, con más flexibilidad. Por ejemplo, se puede utilizar para bloquear archivos no html como imágenes, vídeos o flash (aunque se haya convertido en algo anecdótico). Para añadirlo a las respuestas HTTP, necesitas usar los archivos .htaccess y httpd.conf. Se parece a esto:

HTTP/1.1 200 OK

Fecha: Mar, 25 NOVIEMBRE 2018 21:48:34 GMT

(…)

X-Robots-Tag: googlebot: nofollow

X-Robots-Tag: otherbot: noindex, nofollow

Al igual que con los meta robots, puedes usar otras directivas para tu página como nosnippet, noodp, notranslate etc. Si no quieres usar robots.txt o meta robots, o si necesitas bloquear el contenido no HTML, entonces usa X-Robots-Tag. Encontrará más información aquí.

Las diferentes directivas de la etiqueta de los meta robots y sus impactos

Esta etiqueta de meta robot tiene cuatro funciones principales para los rastreadores de los motores de búsqueda.

Las directrices de Follow y Nofollow

balise-meta-robots-follow-nofollow

Estas directrices son de suma importancia. Para entender mejor sus problemas, imagina que tu sitio tiene forma de embudo con pequeños agujeros dispersos. La parte superior del embudo representa tu página de inicio. Los pequeños agujeros son todos sus eslabones internos. Entonces imagina que el líquido se vierte en la parte superior de tu sitio, desde tu página de inicio. Si todos los enlaces están en Follow, el líquido continuará y alimentará las páginas más profundas de su sitio. Por otro lado, si todos los enlaces están en Nofollow, entonces el líquido se detendrá y no alimentará las otras páginas. ¡Y estas páginas pueden ser comparadas con las plantas! Sin agua, no sobrevivirán.


Después de esta comparación bucólica, retomemos con términos más técnicos. Hace tiempo, Google usó una métrica llamada PageRank para calcular la relevancia de las páginas de un sitio. Tuvo en cuenta la malla interna pero también los enlaces externos (fuera del sitio). Ahora es una métrica anticuada pero ha sido asumida por las soluciones de SEO para evaluar la relevancia de las páginas dentro de la malla interna. Estas soluciones como BotifyOncrawl o Screaming Frog Spider envían un crawler a sitios que siguen las pautas de los meta-robots. Esto asegura que la etiqueta se use correctamente.

Las directivas Index y Noindex

Estas dos directivas son las que pueden causar más daño cuando se administran mal. Simplemente se usan para decirle a Google si la página debe aparecer o no en su índice. Así que puedes imaginar que al incluir erróneamente un "noindex" en el encabezado de una página estratégica (como la página de inicio, ¡para los menos afortunados!), las consecuencias pueden ser dramáticas. Por el contrario, el "noindex" puede ser utilizado para evitar la duplicación del contenido (aunque sea un método relativamente... ¡sucio!). Esta técnica se puede encontrar en los sitios de comercio electrónico que no admiten la reescritura de url (url rewriting) y que terminan con varios caminos para la misma página. Los enlaces a los caminos duplicados se ponen en nofollow y las páginas de destino en noindex. Una página que estaría en "índice" crearía contenido duplicado, severamente castigado por este querido amigo Google Panda. ¡Pero recuerde una vez más que esta técnica no es nada limpia! Es, como mucho, un parche temporal. El "noindex" no impide que Google explore la página. Sin embargo, este último asigna a nuestros sitios un presupuesto de rastreo que es importante utilizar sabiamente. Por lo tanto, no tiene sentido desperdiciar los rastreos en una página que no queremos indexar. Por extensión (¡y por experiencia!), también podemos decir que el "nofollow" no impide que el GoogleBots para rastrear las páginas de aterrizaje. Hay dos razones principales para esto:

  • Los enlaces entrantes (es decir, los que apuntan a esta página) solían estar en el seguimiento. Por lo tanto, Google ya ha rastreado la página y sabrá la ruta aunque cortes los enlaces. Por supuesto, después de un tiempo dejará de arrastrarse, ¡pero esto puede llevar meses!
  • Los enlaces se envían desde sitios externos. En este caso, no se puede hacer nada, salvo solicitar la eliminación de los enlaces, lo que por lo general es poco probable que tenga éxito.

Por último, está la directiva "noimageindex" que prohíbe a los motores de búsqueda indexar las imágenes de la página. Si las imágenes provienen de otro sitio, los motores de búsqueda aún pueden indexarlas. En este caso, es aconsejable usar la etiqueta de los robots X en su lugar.

La Directiva Noarchive

balise-meta-robots-noarchive

Esta directiva tiene un impacto directo en el caching de Google. Un caché es simplemente una copia de seguridad de su página en el momento en que el robot pasó. Sobre el papel, parece seguro y conveniente. Incluso en caso de mantenimiento, los usuarios pueden seguir accediendo a la página almacenada en caché. Pero tiene algunos inconvenientes especialmente para el comercio electrónico cuyas páginas cambian constantemente (precio, disponibilidad de productos...). Todos los webmasters no encuentran su interés en el caché de Google. Para contrarrestarlo, pueden usar la directiva Noarchive. Esta etiqueta sólo elimina el enlace "Cache" de la página. Google continuará indexando la página y mostrará un fragmento.

¿No es un poco arriesgado rebelarse contra Google?

Oficialmente, Google afirma que no hay consecuencias por el uso de esta etiqueta. Pero desde el punto de vista de UX, es mejor no divertirse demasiado con él si no se domina su funcionamiento.

La Directiva Nosnippet

Hay recortes y recortes ricos. Los fragmentos simplemente corresponden a los datos de los sitios que aparecen en la SERP (=resultados de la búsqueda): la url, el título, la descripción Meta... Los fragmentos ricos (o extractos enriquecidos), proporcionan más información como el precio, la disponibilidad, las clasificaciones, el número de calorías para las recetas, etc!

La etiqueta Nosnippet le dice a Google que no muestre estos datos debajo de la página en los resultados de búsqueda y evita el almacenamiento en caché.

La Directiva sobre fideos

Las meta descripciones pueden ser rellenadas por nosotros o gestionadas por Google. Si este está vacío y su sitio está listado en DMOZ Los motores de búsqueda mostrarán fragmentos de texto de su sitio web. Puedes forzar al motor de búsqueda a ignorar la información de ODP incluyendo una etiqueta de meta robot como esta:

balise-meta-robots-directivo-noodp

¿Qué diablos es el directorio Dmoz?

DMOZ fue el mayor directorio publicado por humanos con más de 4 millones de sitios web listados. Fue construido y mantenido por una vasta comunidad mundial de editores voluntarios. El rendimiento de los nuevos motores de búsqueda condujo al declive de Dmoz, que finalmente desapareció el 14 de marzo de 2017, dejando obsoleta la etiqueta Noopd.

Las directivas no available_after y no translate

La directiva no available_after le dice a los motores de búsqueda una fecha/hora después de la cual no deben mostrarla en los resultados de la búsqueda. Se puede comparar con una versión cronometrada del noindex. "Notranslate" impide que los motores de búsqueda muestren las traducciones de la página en sus resultados de búsqueda.

La etiqueta del meta robot: los errores más frecuentes

El noindex Vs no permite la confusión

El noindex impide que Google indexe una página, pero aún así puede rastrearla. Si quieres optimizar tu presupuesto de rastreo, el noindex no es muy útil. El comando lo desautoriza, que está directamente integrado en el robots.txtLa función "crawl", permite bloquear la exploración de la página y así ahorrar el presupuesto de crawl! Si quieres desindexar una página, tendrás que asegurarte de añadir el noindex antes de la denegación. De otra manera, ¿cómo puede saber Google que tiene que desindexar esta página si ya no tiene acceso a su etiqueta de meta-robots?

Coloca la etiqueta del meta robot fuera del cabezal

Es común ver etiquetas de meta robots en el cuerpo de la página. Sin embargo, si Google afirma que sus robots aún pueden leerlo, es preferible dejarlo en el encabezado que es su lugar oficial.

Olvidando o extravío de espacios y comas

La mayoría de los motores de búsqueda son capaces de interpretar la etiqueta incluso si los espacios faltan. Sin embargo, para Google, las comas son muy importantes. Sin ellos, sus robots no pueden descifrarlo.

Asegúrate de que las etiquetas de los meta robots en tu sitio son compatibles

En los sitios de exhibición con pocas páginas, la verificación manual es posible. Pero con varias decenas, cientos o miles de páginas, sólo las herramientas adecuadas serán capaces de poner de relieve las posibles anomalías. Los rastreadores de estas soluciones de SEO imitan el comportamiento de los robots de Google. Entonces son capaces de determinar el número de enlaces de nofollow o páginas de noindex. Al cruzar información como el pagerank interno, la posición promedio en los SERP o la tasa de duplicación de páginas, puede evaluar el impacto de sus diferentes pautas. Es una ayuda valiosa para la toma de decisiones.

Conclusión

Por lo tanto, la etiqueta de los meta robots es de suma importancia en la gestión de la indexación de su sitio. Sin embargo, no sigue siendo mágico y resultará insuficiente en un proyecto para optimizar el presupuesto de arrastre.

class="img-responsive
   Artículo escrito por Louis Chevant

Completa tu lectura

La guía completa de la malla interna

El método paso a paso para construir sus capullos semánticos, su malla y la estructura óptima de su sitio web.