Resumen

¿Qué es robots.txt?

El protocolo de exclusión de robots, más conocido como el robots.txtes una convención diseñada para evitar que los rastreadores de la web accedan a todo o parte de un sitio web. Es un archivo de texto que se utiliza para la referenciación natural de los sitios web y que contiene comandos para que las arañas de los motores de búsqueda les digan qué páginas pueden o no ser indexadas.

Por lo tanto, el robots.txt no se utiliza para desindexar páginas, sino para evitar que sean navegadas:
==> si la página nunca ha sido indexada antes, evitar su rastreo permitirá no indexarla nunca, en cambio si la página ya está indexada o si otro sitio de la web la enlaza, el robots.txt no permitirá desindexarla. Para evitar que una página aparezca en Google, es necesario utilizar etiquetas/directrices de noindex, o protegerla con una contraseña.

El objetivo principal del archivo robots.txt es gestionar el tiempo de rastreo del robot prohibiéndole navegar por páginas de bajo valor añadido, pero que deben existir para la ruta de usuario (carrito de la compra, etc.).

PS: el archivo robots.txt es uno de los primeros archivos analizados por los motores.

Ejemplo

Robots.txt-ejemplo
robot.txt

¿Cómo funciona?

Los motores de búsqueda tienen dos tareas principales: explorar la Web para descubrir el contenido e indexar ese contenido para que pueda ser difundido a los investigadores que buscan información.

Explicación:

Para explorar los sitios, los motores de búsqueda siguen los enlaces para ir de un sitio a otro, exploran varios miles de millones de enlaces y sitios web. Esto se llama "spidering". Una vez que el robot del motor de búsqueda accede a un sitio web, busca un archivo robots.txt. Si encuentra uno, el robot primero leerá este archivo antes de continuar navegando por la página. Si el archivo robots.txt no contiene directivas que prohíban la actividad de un agente de usuario o si el sitio no tiene un archivo robots.txt, explorará otra información del sitio.

¿Por qué necesitamos un robots.txt?

Importancia de robots.txt

Los archivos Robots.txt controlan el acceso del robot a ciertas áreas de su sitio. Aunque esto puede ser muy peligroso si accidentalmente prohibes a Googlebot explorar todo tu sitio, hay algunas situaciones en las que un archivo robots.txt puede ser muy útil.

Los casos de uso común incluyen :

  • Evite explorar en busca de contenido duplicado.
  • Evita explorar un motor de búsqueda interno.
  • Evitar que los motores de búsqueda indexen ciertas imágenes de su sitio.
  • Especifique la ubicación del plano del lugar.
  • Especificar un retraso en el escaneo para evitar que sus servidores se sobrecarguen cuando los rastreadores cargan múltiples piezas de contenido simultáneamente.

Si su sitio no contiene ninguna área a la que quiera controlar el acceso de los usuarios, es posible que no necesite un archivo robots.txt.

Robots de sintaxis.txt

El lenguaje de los archivos robots.txt

El archivo robots.txt consiste en un conjunto de bloques de instrucciones y opcionalmente directivas de mapas de sitio.

Cada bloque contiene dos partes:

  • Una o más pautas Agente-usuario Para qué robots es este bloque.
  • Una o más órdenes: Que las restricciones deben ser respetadas.
    El comando más común es No se permitelo que permite prohibir a los robots que rastreen una parte del sitio.

¿Qué es un agente de usuario?

Cuando un programa inicia una conexión con un servidor web (ya sea un robot o un navegador web estándar), da información básica sobre su identidad a través de un encabezado http llamado "user-agent".

En el caso de Google, la lista de agentes de usuario utilizados por los rastreadores de Google está disponible aquí.

Por ejemplo:

# Las líneas que empiezan con son comentarios

# Comienzo del bloque 1

Agente-usuario: Googlebot

Agente-usuario: Googlebot-News

Desactivar: /directorio1/

Desactivar: /directorio2/

# Comienzo del bloque 2

Agente de usuario: *

Desactivar: /directorio3/

# Directiva adicional del mapa del sitio

Mapa del sitio: http://www.example.com/sitemap.xml

Otros comandos de bloqueo :

  • Permita (Aplicable solo a Googlebot): Comando para indicar a Googlebot que puede acceder a una página o a una subcarpeta, incluso si se puede rechazar su página o subcarpeta principal (este comando tiene prioridad sobre el comando Anular).
  • Crawl-delay Este parámetro permite especificar y establecer el número de segundos que el robot debe esperar entre cada solicitud sucesiva.

Directrices adicionales :

  • Mapa del sitio Motores de búsqueda: permite indicar fácilmente a los motores de búsqueda las páginas de sus sitios a explorar. Un mapa del sitio es un archivo XML que enumera los URL de un sitio, así como metadatos adicionales en cada URL para ayudar a los motores de búsqueda a explorar el sitio de manera más inteligente.
    Se pueden dar directivas de múltiples mapas de sitios (para indexar múltiples archivos de mapas de sitios).

Lenguaje de los archivos robots.txt: Expresiones regulares

Los Regex son caracteres especiales que permiten simplificar la escritura de robots.txt mediante el uso de patrones.

Como parte del archivo robots.txt, la mayoría de los motores de búsqueda (Google, Bing, Yandex ...) incluyen sólo dos :

  • * : Corresponde a cualquier secuencia de caracteres
  • $ : Corresponde al final de una URL

Nota: si el uso de regex resulta en una coincidencia con varios bloques para un robot determinado, sólo se tendrá en cuenta el bloque más específico.

Por ejemplo, GoogleBot elegirá el bloque 2 aquí:

Agente de usuario: * # Inicio del bloque 1

Agente-usuario: Googlebot #Inicio del bloque 2

Ejemplos :

  • Agente de usuario: *
    El usuario-agente puede tomar cualquier valor, es decir, el bloque es aplicable a todos los robots.

  • No se permite: /*.gif$
    Este comando impide que se arrastren las urls que contengan cualquier serie de caracteres (*) seguidos de ".gif" al final de la url (".gif$"), es decir, imágenes gif.
    Nota: en el robots.txt, todas las urls comienzan con una barra porque se describen desde la raíz del sitio, representada por "/".

  • No se permite: /privado
    Evita que se arrastren todas las urls que empiezan por /private (incluyendo /privateblabla1.html), idénticas a /private*.

  • Desacreditar: /privado.
    Evita que se arrastren todas las urls que empiezan por /privado/ (incluyendo /privado/página1.html), idénticas a /privado/*.

  • No se permite: /privado/$
    Evita el rastreo desde /privado/ exactamente (por ejemplo, /privado/página1.html está siempre accesible).

  • Allow: /wp-admin/admin-ajax.php = La declaración Allow permite hacer excepciones, aquí permite a los robots explorar admin-ajax.php que es parte del directorio que previamente prohibí, /wp-admin/.

  • Mapa del sitio: "enlace del mapa del sitio" también permite indicar a los motores de búsqueda la dirección del archivo sitemap.xml del sitio, si existe.

¿Dónde poner el robots.txt?

¿No sabes si tienes un archivo robots.txt?

  1. Sólo tienes que escribir tu dominio raíz,
  2. y luego agregar /robots.txt al final del URL. Por ejemplo, el archivo de robots de "Panorabanks" se puede encontrar en "https://www.panorabanques.com".

Si no aparece una página .txt, actualmente no tiene una página robots.txt (en vivo).

Si no tienes robots... txt:

  • ¿Lo necesitas? Comprueba que no tienes ninguna página de bajo valor añadido que lo requiera. Ejemplo: carrito de compras, páginas de búsqueda de su motor de búsqueda interno, etc.
  • si lo necesitas, crea el archivo usando las directivas anteriores.

Cómo crear un robots.txt para un sitio

Un archivo robots.txt consiste en una o más reglas. Siga las reglas básicas de los archivos robots.txt, es decir, las reglas de formato, sintaxis y ubicación establecidas en las diapositivas anteriores para crear el archivo robots.txt.

En cuanto al formato y la ubicación, puedes usar casi cualquier editor de texto para crear un archivo robots.txt. El editor de texto debería ser capaz de crear archivos de texto estándar ASCII o UTF-8. No utilice procesadores de texto, ya que estos programas suelen guardar archivos en un formato propietario y pueden añadir caracteres inesperados (por ejemplo, comillas curvas), lo que puede confundir a los rastreadores.

Formato y reglas de uso

  • El nombre del archivo robots.txt debe estar en minúsculas (no Robots.txt o ROBOTS.TXT).
  • Su sitio sólo puede contener un archivo robots.txt.
  • En ausencia, se mostrará un error 404 y los robots consideran que ningún contenido está prohibido.

Buenas prácticas

  • Asegúrese de no bloquear el contenido o las secciones de su sitio web que desea explorar.
  • Los enlaces de las páginas bloqueadas por robots.txt no serán seguidos.
  • No utilice el archivo robots.txt para evitar que se muestren datos sensibles en los resultados de la SERP. Dado que otras páginas pueden ser enlazadas directamente a la página que contiene información privada, todavía pueden ser indexadas. Si desea bloquear su página de los resultados de la búsqueda, utilice un método diferente, como la protección con contraseña o la meta-guía de noindex.
  • Algunos motores de búsqueda tienen múltiples usuarios. Por ejemplo, Google utiliza Googlebot para la búsqueda natural y Googlebot-Image para la búsqueda de imágenes. La mayoría de los agentes usuarios del mismo motor de búsqueda siguen las mismas reglas. Por lo tanto, no es necesario especificar las pautas para los diferentes robots en un motor de búsqueda, pero le permite afinar la forma en que se analiza el contenido de su sitio.
  • Un motor de búsqueda guardará en caché el contenido de robots.txt, pero normalmente actualiza el contenido guardado en caché al menos una vez al día. Si cambias el archivo y quieres actualizarlo más rápido, puedes enviar tu URL de robots.txt a Google.

Robots.txt y la consola de búsqueda: validando y probando

La función Envía de laherramienta de prueba robots.txt le permite pedirnos fácilmente que exploremos e indexemos un nuevo archivo robots.txt para su sitio más rápido. Manténganos informados de los cambios en su archivo robots.txt siguiendo los siguientes pasos:

  1. Haga clic en Envía en la esquina inferior derecha del editor de archivos robots.txt. Esta acción abre un cuadro de diálogo "Enviar".
  2. Descargue el código del archivo robots.txt modificado de la página Herramienta para probar el archivo robots.txt haciendo clic en el botón Descargar del cuadro de diálogo de envío.
  3. Añada su nuevo archivo robots.txt a la raíz de su dominio como un archivo de texto llamado robots.txt. La URL de su archivo robots.txt debe ser /robots.txt.
  4. Haga clic en Validar la versión en línea para verificar que el archivo robots.txt online es la versión que quiere que exploremos.
  5. Haga clic en Envía la versión online para hacernos saber que su archivo robots.txt ha sido modificado y pedirnos que lo exploremos.
  6. Compruebe que su última versión se ha navegado con éxito actualizando la página de su navegador para actualizar el editor de la herramienta y ver el código del archivo robots.txt en línea. Una vez que la página se actualiza, también puede hacer clic en el menú desplegable sobre el editor de texto para mostrar la marca de tiempo que indica cuando vimos por primera vez el última versión de tu archivo robots.txt.

test-robots.txt

Conclusión:

El robots.txt permite excluir el acceso a los robots en ciertas partes de sus páginas web, especialmente si un área de su página es privada o si el contenido no es esencial para los motores de búsqueda. Por lo tanto, el robots.txt es una herramienta esencial para controlar la indexación de sus páginas.

class="img-responsive
   Artículo escrito por Louis Chevant

Completa tu lectura

La guía completa de la malla interna

El método paso a paso para construir sus capullos semánticos, su malla y la estructura óptima de su sitio web.