Comment bien configurer son fichier robots.txt : le décryptage complet

Comment bien configurer son fichier robots.txt : le décryptage complet

Le fichier robots.txt joue un rôle stratégique dans la gestion de l’exploration de votre site web par les moteurs de recherche. Cet obscur fichier texte, souvent négligé, constitue en réalité la clé de voûte d’une stratégie SEO. En maîtrisant sa configuration, vous pouvez optimiser le budget de crawl, donner des indications précises aux robots d’indexation et améliorer considérablement votre visibilité en ligne.

Ce guide indispensable vous dévoilera les secrets d’un fichier robots.txt parfaitement optimisé. Vous apprendrez à décrypter chaque directive, à définir les bonnes pratiques à adopter et à éviter les pièges les plus courants. Des exemples concrets pour différents types de sites vous guideront dans la mise en œuvre d’une configuration sur mesure, adaptée à vos besoins spécifiques. Au-delà de la théorie, des outils pratiques vous permettront de tester et valider votre fichier, garantissant une exploration optimale de vos contenus par les crawleurs.

Maîtriser le fichier robots.txt, c’est prendre le contrôle de sa visibilité en ligne.

Qu’est-ce qu’un fichier robots.txt ?

Rôle du fichier robots.txt

Le fichier robots.txt est un fichier texte placé à la racine d’un site web qui permet de communiquer avec les robots d’exploration des moteurs de recherche. Son rôle principal est d’indiquer aux crawlers quelles pages du site ils sont autorisés à explorer et lesquelles leur sont interdites.

Grâce à ce fichier, les webmasters gardent le contrôle sur l’accessibilité de leur site pour les robots. Le fichier robots.txt s’inscrit dans le cadre du protocole d’exclusion des robots (REP) qui établit les règles de bonne conduite pour l’exploration des sites web par les robots des moteurs de recherche.

Importance du fichier robots.txt pour le SEO

Le fichier robots.txt est un élément clé dans une stratégie de référencement naturel. Lorsqu’il est correctement configuré, il permet de maximiser le budget crawl alloué par les moteurs de recherche au site en leur signalant de ne pas gaspiller de ressources sur des pages sans valeur ajoutée pour les internautes. Il contribue à éviter que le site soit pénalisé suite à l’indexation de contenu dupliqué, de pages non publiques ou de mauvaise qualité. En indiquant aux robots les pages à explorer en priorité, le fichier robots.txt participe à obtenir un meilleur positionnement sur les requêtes importantes.

Emplacement et nommage du fichier robots.txt

Pour être reconnu par les robots, le fichier robots.txt doit absolument être placé à la racine du site web et accessible via une URL directe du type http://www.monsite.com/robots.txt.
Il est impératif de le nommer exactement « robots.txt » en minuscules. Tout autre emplacement ou variation dans le nom du fichier ne sera pas pris en compte par les robots d’indexation.
Si le fichier robots.txt est absent, les moteurs de recherche considèrent par défaut que l’exploration complète du site est autorisée sans aucune restriction.

Syntaxe et structure du fichier robots.txt

Directives User-agent

La directive User-agent permet d’indiquer au robot d’exploration les règles qu’il doit suivre lors de sa visite sur le site. L’instruction « User-agent: * » s’applique de manière générique à l’ensemble des robots, mais il est aussi possible de cibler spécifiquement certains d’entre eux comme Googlebot pour Google ou Bingbot pour Bing. Le fichier robots.txt offre la possibilité de définir des directives distinctes pour chaque robot listé.

Directives Allow et Disallow

Les directives Allow et Disallow constituent le cœur de la configuration du fichier robots.txt pour autoriser ou bloquer l’accès à certaines pages ou répertoires du site.

Si la directive Allow, uniquement prise en charge par Google et Bing, permet d’indiquer les URLs accessibles au robot, la directive Disallow spécifie au contraire celles qui lui sont interdites. Les chemins renseignés doivent débuter par un slash « / » tout en étant sensibles à la casse et peuvent inclure l’astérisque « * » comme caractère générique. Une ligne « Disallow: » laissée vide signifie que le robot est autorisé à explorer l’intégralité du site.

Directive Sitemap

Bien que facultative, la directive Sitemap joue un rôle important pour communiquer aux moteurs de recherche l’emplacement du plan du site au format XML. Elle prend la forme de l’URL complète pointant vers le fichier Sitemap, par exemple « Sitemap: http://www.monsite.com/sitemap.xml ». Son utilisation est fortement recommandée pour faciliter le travail des robots et s’assurer qu’ils découvrent efficacement toutes les pages importantes du site à explorer.

Commentaires dans le fichier robots.txt

Afin de rendre le fichier robots.txt plus lisible et compréhensible, on peut y ajouter des commentaires qui permettent d’expliquer les règles mises en place. Pour ce faire, chaque commentaire doit être précédé du symbole « # ».
Tout le texte qui suit ce caractère jusqu’à la fin de la ligne sera alors ignoré par les robots lors de leur analyse du fichier. Les commentaires sont un excellent moyen de documenter la configuration choisie.

Bonnes pratiques de configuration du fichier robots.txt

Autoriser l’accès aux pages importantes

Le fichier robots.txt ne doit pas bloquer par erreur les pages essentielles au référencement du site comme la page d’accueil, les pages de contenu principales et les catégories majeures. Les ressources CSS et JavaScript nécessaires au bon affichage des pages doivent aussi rester accessibles aux robots des moteurs de recherche pour une indexation optimale. Les directives Allow permettent d’autoriser spécifiquement certaines pages importantes se trouvant dans un répertoire bloqué de façon globale.

Bloquer l’accès aux pages sensibles ou non pertinentes

À l’inverse, les pages d’administration, de connexion ou les pages en cours de construction sont à exclure de l’exploration par les moteurs via une directive Disallow dans le fichier robots.txt. Pour bloquer tout un répertoire, on précisera son chemin en le terminant par « / ». Pour une page individuelle, son chemin relatif exact doit être renseigné. Les pages de recherche interne, le panier d’achat, les flux RSS ou pages de commentaires sont souvent à désindexer pour éviter du contenu dupliqué peu intéressant.

Gestion des paramètres d’URL dans le fichier robots.txt

La présence de paramètres d’URL (chaînes de requête introduites par un point d’interrogation) est une source fréquente de contenu dupliqué et doit être gérée avec précaution. Bien qu’il soit possible de bloquer les URLs avec paramètres via robots.txt, cela empêchera de prendre en compte les liens pointant vers ces URLs depuis d’autres sites. La meilleure approche est d’autoriser les URLs avec les paramètres jugés pertinents pour le référencement et d’implémenter des balises canoniques pour éviter les problèmes de contenu dupliqué.

Prise en compte des différents robots des moteurs de recherche

Google, Bing, Yahoo et les autres moteurs de recherche utilisent différents robots identifiables par des noms spécifiques comme Googlebot ou Bingbot. On peut cibler ces robots individuellement dans le fichier robots.txt si nécessaire. Cependant, en général, tous les robots d’un même moteur suivent les mêmes règles. Des directives spécifiques ne sont donc pas indispensables, sauf besoin particulier comme dans le cas de Googlebot-Image, le robot d’indexation d’images de Google.

Un fichier robots.txt ne contenant que des directives sous « User-agent: * » s’applique déjà par défaut à l’ensemble des robots des principaux moteurs.

Erreurs courantes à éviter dans le fichier robots.txt

Bloquer par inadvertance l’accès à l’ensemble du site

La directive « Disallow: / » est à manier avec précaution dans un fichier robots.txt. Elle a pour conséquence de bloquer complètement l’exploration du site par les robots des moteurs de recherche. Son usage doit rester ponctuel, par exemple lors d’une phase de maintenance ou d’une migration du site vers un autre domaine.

Il faut également être vigilant à ne pas introduire de directives contradictoires en interdisant l’accès à la racine « / » tout en autorisant certains répertoires spécifiques. Cela perturberait les robots qui ne sauraient plus quelles instructions suivre. Si le fichier robots.txt ne contient que quelques exclusions ciblées de pages avec Disallow, il est important de s’assurer que le site reste accessible par défaut en spécifiant « Allow: / ».

Utilisation incorrecte des caractères spéciaux

Le fichier robots.txt supporte un nombre limité de caractères spéciaux :

  • L’astérisque * permet de remplacer n’importe quelle chaîne de caractères dans une URL
  • Le signe $ indique la fin d’une URL

Ce dernier doit être utilisé avec précaution car mal employé, il pourrait autoriser l’accès à des pages non désirées. Il est recommandé de le spécifier uniquement pour bloquer un type de fichier en particulier, par exemple « Disallow: /*.pdf$ ».

Certains caractères spéciaux présents dans les URLs, comme les espaces ou les accents, nécessitent d’être correctement encodés pour être interprétés dans un fichier robots.txt.

Directives contradictoires ou redondantes

Au sein d’un fichier robots.txt, chaque directive Allow ou Disallow doit avoir un sens précis pour un user-agent donné. Des instructions contradictoires pour un même robot créent de la confusion et doivent être évitées. Les chemins bloqués doivent être organisés du plus générique au plus spécifique. En cas de conflit, les règles situées en bas de la liste surchargent celles présentes plus haut. Il est inutile de spécifier plusieurs lignes Disallow successives pour un même répertoire, seule la première sera prise en compte. C’est aussi valable pour des directives Allow identiques qui seraient répétées.

Oubli de la directive User-agent: *

Un fichier robots.txt correctement structuré doit inclure des règles qui s’appliquent à l’ensemble des robots d’exploration. Cela passe à minima par la présence d’une ligne « User-agent: * » qui définit les directives pour tous les robots. En l’absence d’un user-agent spécifié, les instructions Allow et Disallow ne seront pas appliquées. La mention « User-agent: * » est donc indispensable, même si des règles sont définies par ailleurs pour des robots en particulier. Elle doit apparaître en fin de fichier, après les éventuels user-agents spécifiques qui surchargent les règles générales.

Cas pratiques et exemples de configuration

Fichier robots.txt pour un site WordPress

Voici à quoi pourrait ressembler un fichier robots.txt pour un site WordPress :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /category/*/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?
Allow: /wp-content/uploads/
Sitemap: http://www.monsite.com/sitemap.xml

Fichier robots.txt pour un site e-commerce

Voici un exemple possible de robots.txt pour un site e-commerce :

User-agent: *
Allow: /produits/
Disallow: /panier/
Disallow: /mon-compte/
Disallow: /checkout/
Disallow: /commande/
Disallow: /cgi-bin/
Disallow: /*?currency*
Disallow: /*?ref=*
Disallow: /*?sort=*
Disallow: /catalogsearch/
Sitemap: http://www.monsite.com/sitemap.xml

Fichier robots.txt pour un site multilingue

Pour un site disponible en plusieurs langues, on pourrait avoir un fichier robots.txt de ce type :

User-agent: *
Disallow: /fr/connect/
Disallow: /en/login/
Disallow: /es/admin/
Allow: /fr/
Allow: /en/
Allow: /es/
Sitemap: http://www.monsite.com/sitemap-fr.xml
Sitemap: http://www.monsite.com/sitemap-en.xml
Sitemap: http://www.monsite.com/sitemap-es.xml

Fichier robots.txt pour un site avec contenu généré par les utilisateurs

Voici un exemple de structure robots.txt pour un site communautaire avec du contenu utilisateur :

User-agent: *
Disallow: /users/
Disallow: /profile/
Disallow: /login/
Disallow: /register/
Disallow: /search/
Disallow: /cgi-bin/
Allow: /forum/
Allow: /blog/
Sitemap: http://www.monsite.com/sitemap.xml

Tester et valider son fichier robots.txt

Outils de test et de validation du fichier robots.txt

Pour s’assurer que son fichier robots.txt est correctement configuré, plusieurs outils sont à disposition. Google met à disposition un outil officiel dans la Google Search Console qui permet de tester directement le fichier en listant les éventuelles erreurs et en simulant le comportement du robot d’exploration. Des outils en ligne comme celui proposé par Websiteplanet offrent la possibilité de vérifier la syntaxe du fichier robots.txt sans avoir à se connecter à la Search Console. Certains sites vont même jusqu’à guider l’utilisateur étape par étape pour générer un fichier robots.txt optimal, à l’image de Seoptimer.

Analyse des logs du serveur pour vérifier le comportement des robots

L’analyse approfondie des logs du serveur web fournit des informations sur le comportement réel des robots d’exploration des moteurs de recherche. Elle permet de vérifier quelles pages sont effectivement crawlées. Un outil d’analyse de logs performant comme Screaming Frog Log Analyser est capable de détecter un pic anormal de crawl sur une page normalement interdite aux robots, révélant ainsi une anomalie dans le fichier robots.txt. L’étude détaillée des logs aide à s’assurer que les directives spécifiées dans robots.txt sont bien respectées par les robots.

Surveillance de l’indexation des pages dans les outils des moteurs de recherche

Les outils pour webmasters des principaux moteurs de recherche offrent une visibilité sur l’exploration et l’indexation des pages. Dans la Google Search Console, les statistiques affichées permettent de repérer une page bloquée par robots.txt qui serait explorée mais non indexée. Bing Webmaster Tools met aussi à disposition un rapport sur les pages crawlées et les éventuels problèmes rencontrés.

Suivre régulièrement le nombre de pages indexées pour son site permet de détecter un problème de configuration de robots.txt qui bloquerait par mégarde l’indexation de pages importantes du site.

Gestion avancée du fichier robots.txt

Utilisation de wildcards et de règles spécifiques

Pour définir des motifs plus flexibles dans le fichier robots.txt, on peut utiliser des wildcards, des caractères spéciaux qui remplacent n’importe quelle chaîne de caractères. L’étoile * par exemple permet de bloquer tous les sous-répertoires portant un certain nom, comme « Disallow: */prive/* » qui bloquera les répertoires « prive ».

Le signe $ quant à lui indique la fin d’une URL et permet donc d’interdire certains types de fichiers, par exemple « Disallow: /*.pdf$ » pour les PDF. En combinant wildcards et chemins classiques, on peut créer des directives très précises et puissantes pour guider finement l’exploration des robots.

Gestion des différents robots d’exploration (Google, Bing, etc.)

Chaque grand moteur de recherche utilise son propre robot d’exploration, avec un nom spécifique comme Googlebot ou Bingbot. Dans le fichier robots.txt, il est possible de cibler ces différents robots en utilisant la directive User-agent suivie du nom du robot concerné. Cela permet si besoin d’appliquer des règles d’exploration différentes en fonction du moteur de recherche. Si aucun User-agent spécifique n’est indiqué, les directives qui suivent s’appliqueront par défaut à tous les robots. Cette fonctionnalité offre une grande souplesse pour adapter le comportement des robots en fonction de leurs particularités.

Combinaison avec les balises meta robots

Le fichier robots.txt permet de bloquer l’exploration de certaines pages par les moteurs de recherche, mais n’empêche pas forcément leur indexation. Pour être certain qu’une page explorée ne soit pas indexée, il faut utiliser en complément une balise meta robots avec la valeur NOINDEX, placée dans l’en-tête de chaque page concernée. La syntaxe est meta name="robots" content="noindex". Cette balise sera prise en compte par les moteurs qui auront exploré la page.

Le fichier robots.txt et les balises meta robots sont donc deux moyens complémentaires à utiliser conjointement pour contrôler précisément le référencement des différentes pages d’un site.

Mise à jour et maintenance du fichier robots.txt

Le fichier robots.txt n’est pas figé dans le marbre. Il doit au contraire être maintenu et mis à jour régulièrement pour rester en phase avec l’évolution du site. Quand on ajoute de nouveaux contenus, il faut s’assurer qu’ils ne sont pas bloqués involontairement par des directives trop larges.

À l’inverse, lorsqu’on retire des pages ou des sections entières, on peut les bloquer via robots.txt de façon à accélérer leur désindexation par les moteurs de recherche. Pour faciliter le suivi, il est recommandé d’inclure un commentaire dans le fichier robots.txt à chaque modification, afin de garder un historique clair des changements.

Cas particuliers

Gestion des sites multilingues ou multi-domaines

Pour les sites web déclinés en plusieurs langues ou sur différents domaines, il est préférable de créer un fichier robots.txt distinct pour chaque version. Ces fichiers doivent inclure des règles adaptées à la structure spécifique de chaque version linguistique ou domaine, avec des directives « Disallow » appropriées. Il faut bien s’assurer que les différents fichiers robots.txt soient cohérents entre eux et n’empêchent pas l’accès à certaines versions du site pour les robots des moteurs de recherche.

Utilisation des directives Crawl-delay et Request-rate

Les fichiers robots.txt peuvent inclure les directives non-standard « Crawl-delay » et « Request-rate » pour gérer la fréquence et la vitesse d’exploration des robots. La directive « Crawl-delay » permet de définir un délai en secondes entre chaque accès d’un robot, tandis que « Request-rate » limite le nombre de requêtes par minute. Cependant, l’utilisation de ces directives est déconseillée, sauf en cas de problème avéré de charge serveur. Leur prise en charge par les différents moteurs de recherche peut varier.

Combinaison avec le fichier .htaccess ou les meta robots

Pour bloquer de manière fiable l’accès des robots à certains répertoires sensibles, le fichier .htaccess offre une solution efficace grâce à la directive « SetEnvIfNoCase ». Les balises meta robots, placées dans l’en-tête HTML des pages, constituent une alternative intéressante pour empêcher l’indexation au cas par cas. En combinant de manière correcte le fichier robots.txt, le fichier .htaccess et les balises meta robots, il est possible d’obtenir un contrôle total et flexible sur l’exploration et l’indexation d’un site par les moteurs de recherche.

Configuration spécifique pour les robots des réseaux sociaux

Certains réseaux sociaux, tels que Facebook, LinkedIn ou Twitter, utilisent leurs propres robots pour explorer les sites web et collecter des informations. Ces robots ne respectent pas toujours les directives du fichier robots.txt standard. Dans certains cas, des solutions spécifiques, comme un fichier robots.txt dédié, peuvent être nécessaires.

Par exemple, pour bloquer l’explorateur de Facebook, il suffit de placer un fichier robots.txt à la racine du site contenant uniquement la ligne « User-agent: facebookexternalhit Disallow: ».

La clé pour une présence web maîtrisée

Le fichier robots.txt est l’outil indispensable pour contrôler l’exploration de votre site par les moteurs de recherche. Sa configuration adéquate conditionne en grande partie votre visibilité sur le web.

Une compréhension fine de ce petit fichier vous permettra de canaliser les robots d’indexation avec précision. En dosant savamment les directives, vous optimiserez le crawl de vos contenus tout en réduisant les ressources consommées inutilement. Au-delà des fonctionnalités de base, les usages avancés vous ouvriront une myriade de possibilités pour affiner votre stratégie SEO. L’expérience utilisateur n’en sera que plus fluide et agréable. Avec un fichier robots.txt parfaitement réglé, vous reprendrez les rênes de votre présence en ligne.

Mais n’oublions pas que le fichier robots.txt n’est qu’un petit maillon de la grande chaîne du référencement naturel. Son impact reste relatif s’il n’est pas orchestré en synergie avec les autres leviers techniques et éditoriau. La création de contenus de qualité, l’acquisition de backlinks pertinents et l’optimisation globale du site web sont autant d’éléments indispensables pour atteindre les sommets des résultats de recherche.

Un article rédigé par Aurélien Remy-Dionisi – Consultant SEO Senior chez Pulsem

PULSEM

Fondée en 2013 par un Consultant spécialisé en référencement naturel (SEO) et payant (SEA), Pulsem est une agence Search indépendante. Nous accompagnons des entreprises dans l'optimisation de leur visibilité sur les pages de résultats des moteurs de recherche. Nos locaux sont situés au cœur de Paris, dans le 4e arrondissement.

Contacts

PULSEM - Téléphone : 01 88 32 84 92
30-32 boulevard de Sébastopol
75004 Paris

Tweets