Robots.txt (Français)

Qu’est-ce qu’un fichier robots.txt?

Robots.txt est un fichier texte que les webmasters créent pour indiquer aux robots Web ( généralement les robots des moteurs de recherche) comment explorer les pages de leur site Web. Le fichier robots.txt fait partie du protocole d’exclusion des robots (REP), un groupe de normes Web qui régissent la manière dont les robots explorent le Web, accèdent et indexent le contenu, et servent ce contenu aux utilisateurs. Le REP comprend également des directives telles que les méta-robots, ainsi que des instructions à l’échelle de la page, du sous-répertoire ou du site sur la manière dont les moteurs de recherche doivent traiter les liens (comme « suivre » ou « nofollow »).

In pratique, les fichiers robots.txt indiquent si certains agents utilisateurs (logiciels d’exploration du Web) peuvent ou non explorer des parties d’un site Web. Ces instructions d’exploration sont spécifiées par « interdire » ou « autoriser » le comportement de certains (ou de tous) agents utilisateurs.

Format de base:
User-agent: Disallow: 

Ensemble, ces deux lignes sont considérées comme un fichier robots.txt complet – même si un fichier robots peut contenir plusieurs lignes d’agents utilisateurs et de directives (c’est-à-dire, interdit, autorise, délais d’exploration, etc.).

Dans un fichier robots.txt, chaque ensemble de directives user-agent apparaît comme un ensemble discret, séparé par un saut de ligne:

Dans un fichier robots.txt avec plusieurs directives user-agent, chaque règle d’interdiction ou d’autorisation s’applique uniquement à l’agent utilisateur ( s) spécifié dans cet ensemble séparé par saut de ligne. Si le fichier contient une règle qui s’applique à plus d’un user-agent, un robot ne fera attention (et suivra les directives) qu’au groupe d’instructions le plus spécifique.

Voici un exemple:

Msnbot, discobot et Slurp sont tous appelés en particulier, de sorte que ces agents utilisateurs ne prêteront attention qu’aux directives dans leurs sections du fichier robots.txt. Tous les autres user-agents suivront les directives du user-agent: * group.

Exemple de robots.txt:

Voici quelques exemples de robots.txt en action pour un Site www.example.com:

URL du fichier Robots.txt: www.example.com/robots.txt
Blocage de tous les robots d’exploration de tout le contenu
User-agent: * Disallow: /

L’utilisation de cette syntaxe dans un fichier robots.txt indiquerait à tous les robots d’exploration de ne pas explorer les pages de www.example.com, y compris la page d’accueil.

Autoriser tous les robots d’exploration Web accèdent à tout le contenu
User-agent: * Disallow: 

L’utilisation de cette syntaxe dans un fichier robots.txt indique aux robots d’exploration Web d’explorer toutes les pages de www.example.com, y compris la page d’accueil.

Blocage d’un robot d’exploration Web spécifique à partir d’un dossier spécifique
User-agent: Googlebot Disallow: /example-subfolder/

Cette syntaxe n’indique que le robot d’exploration de Google (nom de l’agent utilisateur Googlebot ) pour ne pas explorer les pages contenant la chaîne d’URL www.example.com/example-subfolder/.

Bloquer un robot d’exploration Web spécifique à partir d’une page Web spécifique
User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Cette syntaxe indique uniquement au robot d’exploration de Bing (nom de l’agent utilisateur Bing) d’éviter d’explorer la page spécifique sur www.example.com/example-subfolder/blocked-page .html.

Comment fonctionne le fichier robots.txt?

Les moteurs de recherche ont deux tâches principales:

  1. Explorer le Web pour découvrir du contenu;
  2. Indexer ce contenu afin qu’il puisse être diffusé aux internautes qui recherchent des informations.

Pour explorer des sites, les moteurs de recherche suivent des liens pour aller d’un site à un autre – en fin de compte, l’exploration sur plusieurs milliards de liens et de sites Web. Ce comportement d’exploration est parfois appelé « spidering ».

Après être arrivé sur un site Web mais avant de le spider, le robot d’exploration recherchera un fichier robots.txt. S’il en trouve un, le robot le lira avant de continuer sur la page. Étant donné que le fichier robots.txt contient des informations sur la manière dont le moteur de recherche doit explorer, les informations qu’il contient indiqueront une action ultérieure du robot d’exploration sur ce site particulier. Si le fichier robots.txt ne contient aucune directive interdire l’activité d’un user-agent (ou si le site n’a pas de fichier robots.txt), il procédera à l’exploration d’autres informations sur le site.

Autres informations rapides à connaître sur le fichier robots.txt:

(discuté plus en détail ci-dessous)

  • Pour être trouvé, un fichier robots.txt doit être placé dans le répertoire de premier niveau d’un site Web.

  • Robots.txt est sensible à la casse: le fichier doit être nommé « robots.txt » (pas Robots.txt, robots.TXT ou autre).

  • Certains agents utilisateurs (robots) m Ayez le choix d’ignorer votre fichier robots.txt. Ceci est particulièrement courant avec les robots d’exploration les plus infâmes comme les robots malveillants ou les scrapers d’adresses e-mail.

  • Le fichier /robots.txt est accessible au public: ajoutez simplement /robots.txt à la fin de n’importe quel domaine racine pour voir les directives de ce site Web (si ce site a un fichier robots.txt!).Cela signifie que n’importe qui peut voir les pages que vous faites ou ne voulez pas être explorées, alors ne les utilisez pas pour masquer les informations privées des utilisateurs.

  • Chaque sous-domaine sur une racine domain utilise des fichiers robots.txt séparés. Cela signifie que blog.example.com et example.com doivent avoir leurs propres fichiers robots.txt (sur blog.example.com/robots.txt et example.com/robots.txt).

  • Il est généralement recommandé d’indiquer l’emplacement de tout plan de site associé à ce domaine au bas du fichier robots.txt. Voici un exemple:

Syntaxe technique du fichier robots.txt

La syntaxe du fichier robots.txt peut être considérée comme le « langage » des fichiers robots.txt. Il y a cinq termes courants que vous rencontrerez probablement dans un fichier robots fichier. Ils incluent:

  • User-agent: le robot d’exploration Web spécifique auquel vous donnez des instructions d’exploration (généralement un moteur de recherche). Une liste de la plupart des agents utilisateurs peut être trouvée ici.

  • Disallow: La commande utilisée pour dire à un agent utilisateur de ne pas explorer une URL particulière. Une seule ligne « Disallow: » est autorisée pour chaque URL.

  • Autoriser (uniquement applicable pour Googlebot): la commande pour indiquer à Googlebot qu’il peut accéder à une page ou à un sous-dossier même si sa page ou sous-dossier parent peut être interdit.

  • Délai d’exploration: combien de secondes un robot d’exploration doit attendre avant de charger et d’explorer le contenu de la page. Notez que Googlebot ne reconnaît pas cette commande, mais la vitesse d’exploration peut être définie i n Google Search Console.

  • Plan du site: utilisé pour indiquer l’emplacement de tout plan de site XML associé à cette URL. Notez que cette commande n’est prise en charge que par Google, Ask, Bing et Yahoo.

Correspondance de modèle

En ce qui concerne les URL réelles à bloquer ou autoriser, les fichiers robots.txt peuvent devenir assez complexes car ils permettent l’utilisation de la correspondance de modèles pour couvrir une gamme d’options d’URL possibles. Google et Bing honorent tous deux deux expressions régulières qui peuvent être utilisées pour identifier des pages ou des sous-dossiers qu’un référencement souhaite exclure. Ces deux caractères sont l’astérisque (*) et le signe dollar ($).

  • * est un caractère générique qui représente toute séquence de caractères
  • $ correspond à la fin du URL

Google propose une excellente liste d’exemples et de syntaxes de correspondance de modèle possibles ici.

Où va le fichier robots.txt sur un site?

Chaque fois qu’ils accèdent à un site, les moteurs de recherche et autres robots d’exploration du Web (comme le robot d’exploration de Facebook, Facebot) savent qu’il faut rechercher un fichier robots.txt. Mais, ils ne rechercheront ce fichier qu’à un endroit spécifique: le répertoire principal (généralement votre domaine racine ou votre page d’accueil). Si un agent utilisateur visite www.example.com/robots.txt et n’y trouve pas de fichier robots, il supposera que le site n’en a pas et procédera à l’exploration de tout sur la page (et peut-être même sur l’ensemble du site). Même si la page robots.txt existait à, par exemple, example.com/index/robots.txt ou www.example.com/homepage/robots.txt, elle ne serait pas découverte par les agents utilisateurs et le site serait donc traité comme s’il ne contenait aucun fichier robots.

Afin de vous assurer que votre fichier robots.txt est trouvé, incluez-le toujours dans votre répertoire principal ou domaine racine.

Pourquoi le faites-vous besoin du fichier robots.txt?

Les fichiers Robots.txt contrôlent l’accès des robots d’exploration à certaines zones de votre site. Bien que cela puisse être très dangereux si vous interdisez accidentellement à Googlebot d’explorer l’intégralité de votre site (!!), il existe certaines situations dans lesquelles un fichier robots.txt peut être très pratique.

Voici quelques cas d’utilisation courants:

  • Empêcher le contenu dupliqué d’apparaître dans les SERP (notez que les méta-robots sont souvent un meilleur choix pour cela)
  • Garder des sections entières d’un site Web privées (par exemple, votre ingénierie site de préparation de l’équipe)
  • Empêcher les pages de résultats de recherche internes de s’afficher sur un SERP public
  • Spécifier l’emplacement du ou des plans de site
  • Empêcher l’indexation des moteurs de recherche certains fichiers de votre site Web (images, PDF, etc.)
  • Spécifier un délai d’exploration afin d’éviter que vos serveurs ne soient surchargés lorsque les robots d’exploration chargent plusieurs éléments de contenu à la fois

S’il n’y a aucune zone de votre site à laquelle vous souhaitez contrôler l’accès de l’agent utilisateur, vous n’avez peut-être pas du tout besoin d’un fichier robots.txt.

Vérification si vous avez un robot Fichier s.txt

Vous ne savez pas si vous avez un fichier robots.txt? Tapez simplement votre domaine racine, puis ajoutez /robots.txt à la fin de l’URL. Par exemple, le fichier robots de Moz se trouve à l’adresse moz.com/robots.txt.

Si aucune page .txt n’apparaît, vous n’avez actuellement pas de page robots.txt (en direct).

Comment créer un fichier robots.txt

Si vous constatez que vous n’avez pas de fichier robots.txt ou que vous souhaitez modifier le vôtre, en créer un est un processus simple. Cet article de Google décrit le processus de création de fichiers robots.txt, et cet outil vous permet de tester si votre fichier est correctement configuré.

Vous cherchez à vous entraîner à créer des fichiers robots?Cet article de blog présente quelques exemples interactifs.

Bonnes pratiques SEO

  • Assurez-vous de ne pas bloquer le contenu ou les sections de votre site Web que vous souhaitez explorer.

  • Les liens sur les pages bloquées par robots.txt ne seront pas suivis. Cela signifie 1.) À moins qu’elles ne soient également liées à partir d’autres pages accessibles aux moteurs de recherche (c’est-à-dire des pages non bloquées via robots.txt, méta-robots ou autre), les ressources liées ne seront pas explorées et ne pourront pas être indexées. 2.) Aucune valeur de lien ne peut être transmise de la page bloquée à la destination du lien. Si vous avez des pages auxquelles vous voulez que l’équité soit transmise, utilisez un mécanisme de blocage différent autre que le fichier robots.txt.

  • N’utilisez pas le fichier robots.txt pour empêcher les données sensibles (comme informations d’utilisateur privé) d’apparaître dans les résultats SERP. Étant donné que d’autres pages peuvent créer un lien direct vers la page contenant des informations privées (en contournant ainsi les directives robots.txt sur votre domaine racine ou votre page d’accueil), elles peuvent toujours être indexées. Si vous souhaitez bloquer votre page des résultats de recherche, utilisez une méthode différente comme la protection par mot de passe ou la directive méta noindex.

  • Certains moteurs de recherche ont plusieurs agents utilisateurs. Par exemple, Google utilise Googlebot pour la recherche organique et Googlebot-Image pour la recherche d’images. La plupart des agents utilisateurs du même moteur de recherche suivent les mêmes règles, il n’est donc pas nécessaire de spécifier des directives pour chacun des multiples robots d’exploration d’un moteur de recherche, mais avoir la possibilité de le faire vous permet d’affiner la manière dont le contenu de votre site est analysé.

  • Un moteur de recherche mettra en cache le contenu du fichier robots.txt, mais mettra généralement à jour le contenu mis en cache au moins une fois par jour. Si vous modifiez le fichier et que vous souhaitez le mettre à jour plus rapidement que ce qui se passe, vous pouvez envoyer votre URL robots.txt à Google.

Robots.txt vs meta robots vs x -robots

Tant de robots! Quelle est la différence entre ces trois types d’instructions de robot? Tout d’abord, robots.txt est un véritable fichier texte, alors que les méta et x-robots sont des méta directives. Au-delà de ce qu’ils sont réellement, les trois ont tous des fonctions différentes. Robots.txt dicte le comportement d’exploration du site ou de l’annuaire, tandis que les méta et x-robots peuvent dicter le comportement d’indexation au niveau de la page (ou de l’élément de page) individuel.

Continuez à apprendre

  • Méta-directives sur les robots
  • Canonisation
  • Redirection
  • Protocole d’exclusion des robots

Mettez vos compétences au travail

Moz Pro peut identifier si votre fichier robots.txt bloque notre accès à votre site Web. Essayez-le > >

Write a Comment

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *