Robots.txt (Español)

¿Qué es un archivo robots.txt?

Robots.txt es un archivo de texto que los webmasters crean para instruir a los robots web ( normalmente robots de motores de búsqueda) cómo rastrear páginas en su sitio web. El archivo robots.txt es parte del protocolo de exclusión de robots (REP), un grupo de estándares web que regulan la forma en que los robots rastrean la web, acceden e indexan contenido, y entregan ese contenido a los usuarios. El REP también incluye directivas como meta robots, así como instrucciones para todo el sitio, subdirectorio o página sobre cómo los motores de búsqueda deben tratar los enlaces (como «seguir» o «nofollow»).

En En la práctica, los archivos robots.txt indican si ciertos agentes de usuario (software de rastreo web) pueden o no rastrear partes de un sitio web. Estas instrucciones de rastreo se especifican «denegando» o «permitiendo» el comportamiento de determinados agentes de usuario (o de todos).

Formato básico:
User-agent: Disallow: 

Juntas, estas dos líneas se consideran un archivo robots.txt completo, aunque un archivo de robots puede contener varias líneas de agentes de usuario y directivas (es decir, rechaza, permite, retrasos en el rastreo, etc.).

Dentro de un archivo robots.txt, cada conjunto de directivas de agente de usuario aparece como un conjunto discreto, separado por un salto de línea:

En un archivo robots.txt con varias directivas de agente de usuario, cada regla de no permitir o no permitir solo se aplica al agente de usuario ( s) especificado en ese conjunto de líneas separadas por saltos de línea particular. Si el archivo contiene una regla que se aplica a más de un agente de usuario, un rastreador solo prestará atención (y seguirá las directivas) del grupo de instrucciones más específico.

Aquí hay un ejemplo:

Msnbot, discobot y Slurp se llaman específicamente, por lo que esos agentes de usuario solo prestarán atención a las directivas en sus secciones del archivo robots.txt. Todos los demás agentes de usuario seguirán las directivas del grupo user-agent: *.

Ejemplo de robots.txt:

A continuación, se muestran algunos ejemplos de robots.txt en acción para un www.example.com sitio:

URL del archivo Robots.txt: www.example.com/robots.txt
Bloqueo de todos los rastreadores web de todo el contenido
User-agent: * Disallow: /

El uso de esta sintaxis en un archivo robots.txt indicaría a todos los rastreadores web que no rastreen ninguna página en www.example.com, incluida la página de inicio.

Permitir todos los rastreadores web acceden a todo el contenido
User-agent: * Disallow: 

El uso de esta sintaxis en un archivo robots.txt indica a los rastreadores web que rastreen todas las páginas de www.example.com, incluidas la página de inicio.

Bloquear un rastreador web específico desde una carpeta específica
User-agent: Googlebot Disallow: /example-subfolder/

Esta sintaxis solo indica al rastreador de Google (nombre de usuario-agente Googlebot ) no rastrear ninguna página que contenga la cadena de URL www.example.com/example-subfolder/.

Bloquear un rastreador web específico desde una página web específica
User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Esta sintaxis solo le dice al rastreador de Bing (nombre de agente de usuario Bing) que evite rastrear la página específica en www.example.com/example-subfolder/blocked-page .html.

¿Cómo funciona robots.txt?

Los motores de búsqueda tienen dos funciones principales:

  1. rastrear la web para descubrir contenido;
  2. Indexar ese contenido para que pueda ser ofrecido a los buscadores que buscan información.

Para rastrear sitios, los motores de búsqueda siguen enlaces para ir de un sitio a otro; en última instancia, rastrear en muchos miles de millones de enlaces y sitios web. Este comportamiento de rastreo a veces se conoce como «spidering».

Después de llegar a un sitio web, pero antes de hacerlo, el rastreador de búsqueda buscará un archivo robots.txt. Si encuentra uno, lo leerá. primero antes de continuar por la página. Dado que el archivo robots.txt contiene información sobre cómo debe rastrear el motor de búsqueda, la información que se encuentre allí indicará que el rastreador debe realizar más acciones en este sitio en particular. Si el archivo robots.txt no contiene ninguna directiva que no permitir la actividad de un usuario-agente (o si el sitio no tiene un archivo robots.txt), se procederá a rastrear otra información en el sitio.

Otros conocimientos básicos sobre robots.txt rápidos:

(discutido con más detalle a continuación)

  • Para que se pueda encontrar, un archivo robots.txt debe colocarse en el directorio de nivel superior de un sitio web.

  • Robots.txt distingue entre mayúsculas y minúsculas: el archivo debe llamarse «robots.txt» (no Robots.txt, robots.TXT ni de ningún otro modo).

  • Algunos agentes de usuario (robots) m Puede optar por ignorar su archivo robots.txt. Esto es especialmente común con rastreadores más nefastos como robots de malware o raspadores de direcciones de correo electrónico.

  • El archivo /robots.txt está disponible públicamente: simplemente agregue /robots.txt al final de cualquier dominio raíz para ver las directivas de ese sitio web (si ese sitio tiene un archivo robots.txt).Esto significa que cualquiera puede ver qué páginas desea o no rastrear, así que no las use para ocultar información privada del usuario.

  • Cada subdominio en una raíz El dominio utiliza archivos robots.txt independientes. Esto significa que tanto blog.example.com como example.com deben tener sus propios archivos robots.txt (en blog.example.com/robots.txt y example.com/robots.txt).

  • Por lo general, es una buena práctica indicar la ubicación de cualquier mapa del sitio asociado con este dominio en la parte inferior del archivo robots.txt. Aquí hay un ejemplo:

Sintaxis técnica de robots.txt

La sintaxis de Robots.txt se puede considerar como el «lenguaje» de los archivos robots.txt. Hay cinco términos comunes con los que probablemente te encuentres en una Archivo. Incluyen:

  • User-agent: el rastreador web específico al que le está dando instrucciones de rastreo (generalmente un motor de búsqueda). Puede encontrar una lista de la mayoría de los agentes de usuario aquí.

  • Disallow: el comando que se usa para decirle a un usuario-agente que no rastree una URL en particular. Solo se permite una línea «Disallow:» para cada URL.

  • Permitir (solo aplicable para Googlebot): el comando para indicarle al robot de Google que puede acceder a una página o subcarpeta aunque su página principal o subcarpeta no esté permitida.

  • Rastreo-demora: cuántos segundos debe esperar un rastreador antes de cargar y rastrear el contenido de la página. Tenga en cuenta que el robot de Google no reconoce este comando, pero la frecuencia de rastreo se puede configurar i n Google Search Console.

  • Mapa del sitio: se utiliza para indicar la ubicación de cualquier mapa del sitio XML asociado con esta URL. Tenga en cuenta que este comando solo es compatible con Google, Ask, Bing y Yahoo.

Coincidencia de patrones

Cuando se trata de las URL reales para bloquear o permitir, los archivos robots.txt pueden volverse bastante complejos, ya que permiten el uso de la coincidencia de patrones para cubrir una variedad de posibles opciones de URL. Google y Bing respetan dos expresiones regulares que se pueden usar para identificar páginas o subcarpetas que un SEO quiere excluir. Estos dos caracteres son el asterisco (*) y el signo de dólar ($).

  • * es un comodín que representa cualquier secuencia de caracteres
  • $ coincide con el final del URL

Google ofrece una gran lista de posibles sintaxis y ejemplos de coincidencia de patrones aquí.

¿Dónde se coloca el archivo robots.txt en un sitio?

Cuando llegan a un sitio, los motores de búsqueda y otros robots de rastreo web (como el rastreador de Facebook, Facebot) saben que deben buscar un archivo robots.txt. Pero, solo buscarán ese archivo en un lugar específico: el directorio principal (por lo general, su dominio raíz o página de inicio). Si un agente de usuario visita www.example.com/robots.txt y no encuentra un archivo robots allí, asumirá que el sitio no tiene uno y procederá a rastrear todo en la página (y tal vez incluso en todo el sitio). Incluso si la página de robots.txt existiera en, digamos, example.com/index/robots.txt o www.example.com/homepage/robots.txt, los agentes de usuario no la descubrirían y, por lo tanto, el sitio sería tratado como si no tuviera ningún archivo robots.

Para garantizar que se encuentre su archivo robots.txt, inclúyalo siempre en su directorio principal o dominio raíz.

¿Por qué ¿Necesita robots.txt?

Los archivos Robots.txt controlan el acceso del rastreador a determinadas áreas de su sitio. Si bien esto puede ser muy peligroso si accidentalmente no permite que Googlebot rastree todo su sitio (!!), existen algunas situaciones en las que un archivo robots.txt puede ser muy útil.

Algunos casos de uso comunes incluyen:

  • Evitar que aparezca contenido duplicado en las SERP (tenga en cuenta que los meta robots suelen ser una mejor opción para esto)
  • Mantener la privacidad de secciones enteras de un sitio web (por ejemplo, su ingeniería sitio de ensayo del equipo)
  • Evitar que las páginas de resultados de búsqueda internos aparezcan en un SERP público
  • Especificar la ubicación de los mapas del sitio
  • Evitar que los motores de búsqueda indexen ciertos archivos en su sitio web (imágenes, PDF, etc.)
  • Especificar un retraso en el rastreo para evitar que sus servidores se sobrecarguen cuando los rastreadores cargan varias partes de contenido a la vez

Si no hay áreas en su sitio a las que desee controlar el acceso de usuario-agente, es posible que no necesite un archivo robots.txt en absoluto.

Verificar si tiene un robot s.txt archivo

¿No está seguro de tener un archivo robots.txt? Simplemente escriba su dominio raíz, luego agregue /robots.txt al final de la URL. Por ejemplo, el archivo robots de Moz se encuentra en moz.com/robots.txt.

Si no aparece una página .txt, significa que actualmente no tiene una página robots.txt (activa).

Cómo crear un archivo robots.txt

Si descubrió que no tenía un archivo robots.txt o desea modificar el suyo, crear uno es un proceso sencillo. Este artículo de Google explica el proceso de creación del archivo robots.txt y esta herramienta le permite probar si su archivo está configurado correctamente.

¿Está buscando algo de práctica para crear archivos robots?Esta publicación de blog muestra algunos ejemplos interactivos.

Mejores prácticas de SEO

  • Asegúrese de no bloquear ningún contenido o secciones de su sitio web que desee rastrear.

  • No se seguirán los enlaces de las páginas bloqueadas por robots.txt. Esto significa 1.) A menos que también estén vinculados desde otras páginas accesibles a los motores de búsqueda (es decir, páginas no bloqueadas mediante robots.txt, meta robots u otros), los recursos vinculados no se rastrearán y es posible que no se indexen. 2.) No se puede pasar ningún valor de enlace de la página bloqueada al destino del enlace. Si tiene páginas a las que desea que se transfiera la equidad, utilice un mecanismo de bloqueo diferente al de robots.txt.

  • No utilice robots.txt para evitar datos confidenciales (como información privada del usuario) que aparezca en los resultados de SERP. Debido a que otras páginas pueden vincular directamente a la página que contiene información privada (evitando así las directivas de robots.txt en su dominio raíz o página de inicio), aún puede indexarse. Si desea bloquear su página de los resultados de búsqueda, utilice un método diferente como la protección con contraseña o la metadirectiva noindex.

  • Algunos motores de búsqueda tienen múltiples agentes de usuario. Por ejemplo, Google usa Googlebot para búsqueda orgánica y Googlebot-Image para búsqueda de imágenes. La mayoría de los agentes de usuario del mismo motor de búsqueda siguen las mismas reglas, por lo que no es necesario especificar directivas para cada uno de los múltiples rastreadores de un motor de búsqueda, pero tener la capacidad de hacerlo le permite ajustar cómo se rastrea el contenido de su sitio.

  • Un motor de búsqueda almacenará en caché el contenido de robots.txt, pero normalmente actualiza el contenido en caché al menos una vez al día. Si cambia el archivo y desea actualizarlo más rápido de lo que está ocurriendo, puede enviar su URL de robots.txt a Google.

Robots.txt vs meta robots vs x -robots

¡Tantos robots! ¿Cuál es la diferencia entre estos tres tipos de instrucciones de robot? En primer lugar, robots.txt es un archivo de texto real, mientras que meta y x-robots son meta directivas. Más allá de lo que realmente son, los tres cumplen funciones diferentes. Robots.txt dicta el comportamiento de rastreo de todo el sitio o directorio, mientras que los metadatos y los robots x pueden dictar el comportamiento de indexación a nivel de página individual (o elemento de página).

Siga aprendiendo

  • Metadirectrices de robots
  • Canonicalización
  • Redirección
  • Protocolo de exclusión de robots

Ponga sus habilidades a trabajar

Moz Pro puede identificar si su archivo robots.txt está bloqueando nuestro acceso a su sitio web. Pruébelo > >

Write a Comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *