Skip to main content

Qu’est-ce qu’un fichier robots.txt ?

Robots.txt est un court fichier texte qui indique aux robots d’exploration du Web (par exemple Googlebot) ce qu’ils sont autorisés à explorer sur votre site Web.

Du point de vue du référencement, robots.txt permet d’explorer les pages les plus importantes en premier et empêche les robots de visiter les pages qui ne sont pas importantes.

Voici à quoi peut ressembler le fichier robots.txt :

Où trouver le fichier robots.txt

La recherche des fichiers robots.txt est assez simple… allez sur la page d’accueil de n’importe quel domaine et ajoutez « /robots.txt » à la fin de celle-ci.

Cela vous montrera un vrai fichier robots.txt qui fonctionne, voici un exemple :

https://yourdomain.com/robots.txt

Le fichier robots.txt est un dossier public qui peut être consulté pratiquement sur n’importe quel site Web. Vous pouvez même le trouver sur des sites tels qu’Amazon, Facebook ou Apple.

Pourquoi le fichier robots.txt est-il important ?

L’objectif du fichier robots.txt est d’indiquer aux robots les parties de votre site web auxquelles ils peuvent accéder et comment ils doivent interagir avec les pages.

D’une manière générale, il est important que le contenu du site Web puisse être exploré et indexé en premier lieu. Les moteurs de recherche doivent trouver vos pages avant qu’elles puissent apparaître dans les résultats de recherche.

Cependant, dans certains cas, il est préférable d’interdire aux robots d’indexation de visiter certaines pages (par exemple, les pages vides, la page de connexion à votre site Web, etc.)

Ceci peut être réalisé en utilisant un fichier robots.txt qui est toujours vérifié par les crawlers avant qu’ils ne commencent à explorer le site web.

Note : Le fichier Robots.txt peut empêcher les moteurs de recherche de crawler, mais pas d’indexer.

Bien que les crawlers puissent être interdits de visiter une certaine page, les moteurs de recherche peuvent tout de même l’indexer si des liens externes pointent vers elle.

Cette page indexée peut donc apparaître dans les résultats de recherche, mais sans aucun contenu utile puisque les robots d’exploration n’ont pas pu extraire de données de cette page.

Pour empêcher Google d’indexer vos pages, utilisez d’autres méthodes appropriées (par exemple, la balise méta noindex) pour indiquer que vous ne souhaitez pas que certaines parties de votre site Web apparaissent dans les résultats de recherche.

Outre l’objectif fondamental du fichier robots.txt, il existe également quelques avantages en matière de référencement qui peuvent être utiles dans certaines situations.

1. Optimiser le budget de crawl

Le budget d’exploration détermine le nombre de pages que les robots d’exploration Web tels que Googlebot vont explorer (ou ré-explorer) au cours d’une période donnée.

Beaucoup de grands sites Web contiennent généralement des tonnes de pages sans importance qui n’ont pas besoin d’être fréquemment (ou pas du tout) explorées et indexées.

L’utilisation de robots.txt indique aux moteurs de recherche les pages à explorer et celles à éviter complètement, ce qui optimise l’efficacité et la fréquence de l’exploration.

2. Gérer le contenu dupliqué

Robots.txt peut vous aider à éviter l’exploration de contenu similaire ou dupliqué sur vos pages.

De nombreux sites Web contiennent une certaine forme de contenu dupliqué : qu’il s’agisse de pages avec des paramètres d’URL, de pages www ou non www, de fichiers PDF identiques, etc.

En signalant ces pages via le fichier robots.txt, vous pouvez gérer le contenu qui n’a pas besoin d’être exploré et aider le moteur de recherche à n’explorer que les pages que vous souhaitez voir apparaître dans la recherche Google.

3. Prévenir la surcharge des serveurs

L’utilisation de robots.txt peut contribuer à empêcher le serveur du site de tomber en panne.

En règle générale, Googlebot (et d’autres robots respectables) savent déterminer la vitesse à laquelle ils doivent explorer votre site Web sans dépasser la capacité du serveur.

Toutefois, vous pouvez souhaiter bloquer l’accès aux robots d’exploration qui visitent votre site trop souvent.

Dans ce cas, le fichier robots.txt peut indiquer aux robots les pages sur lesquelles ils doivent se concentrer, en laissant les autres parties du site Web tranquilles et en évitant ainsi la surcharge du site.

Ou comme l’a expliqué Martin Splitt, le Developer Advocate de Google :

« C’est le taux de crawl, c’est-à-dire le niveau de stress que l’on peut imposer à votre serveur sans le faire planter ou sans qu’il soit trop endommagé.« 

En outre, vous pouvez souhaiter bloquer certains bots qui causent des problèmes sur le site : qu’il s’agisse d’un « mauvais » bot qui surcharge votre site de requêtes, ou de bloquer les scrapers qui tentent de copier tout le contenu de votre site.

Comment fonctionne le fichier robots.txt ?

Les principes fondamentaux du fonctionnement du fichier robots.txt sont assez simples : il se compose de deux éléments de base qui déterminent quel robot d’exploration Web doit faire quelque chose et ce que cela doit être exactement :

  • User-agents : spécifier les robots d’exploration qui seront dirigés pour éviter (ou explorer) certaines pages
  • Guidelines : indique aux agents utilisateurs ce qu’ils doivent faire avec certaines pages.

Voici l’exemple le plus simple de ce à quoi peut ressembler le fichier robots.txt avec ces 2 éléments :

User-agent: Googlebot
Disallow: /wp-admin/

Regardons de plus près ces deux éléments.

User-agents

Le user-agents est le nom d’un robot d’exploration spécifique qui recevra des directives sur la façon d’explorer votre site Web.

Par exemple, le user-agents pour le robot d’exploration général de Google est « Googlebot » pour le crawler, Bing c’est « BingBot« , pour Yahoo « Slurp« , etc.

Pour marquer tous les types de crawlers web pour une certaine directive en même temps, vous pouvez utiliser le symbole  » *  » (appelé wildcard) : il représente tous les robots qui « obéissent » au fichier robots.txt.

Dans le fichier robots.txt, cela ressemblerait à ceci :

User-agent: * 
Disallow: /wp-admin/

Note : Gardez à l’esprit qu’il existe de nombreux types d’agents utilisateurs, chacun d’entre eux se concentrant sur l’exploration à des fins différentes.

Si vous souhaitez savoir quels sont les user-agents utilisés par Google, consultez cette présentation des crawlers de Google.

Directives

Les directives Robots.txt sont les règles que le user-agents spécifié suivra.

Par défaut, les robots sont chargés d’explorer toutes les pages Web disponibles. Le fichier robots.txt précise alors quelles pages ou sections de votre site web ne doivent pas être explorées.

Il y a 3 règles les plus courantes qui sont utilisées :

  • « Interdire l’accès à«  : indique aux robots d’exploration qu’ils ne doivent pas accéder à ce qui est spécifié dans cette directive. Vous pouvez attribuer plusieurs instructions disallow aux user-agents.
  • « Autoriser«  : indique aux crawlers qu’ils peuvent accéder à certaines pages de la section du site déjà interdite.
  • « Plan du site«  : si vous avez mis en place un plan de site XML, robots.txt peut indiquer aux robots d’indexation où ils peuvent trouver les pages que vous souhaitez explorer en les faisant pointer vers votre plan de site.

Voici un exemple de ce à quoi robots.txt peut ressembler avec ces 3 directives simples :

User-agent: Googlebot
Disallow: /wp-admin/ 
Allow: /wp-admin/random-content.php 
Sitemap: https://www.example.com/sitemap.xml

Avec la première ligne, nous avons déterminé que la directive s’applique à un robot d’exploration spécifique : Googlebot.

Dans la deuxième ligne (la directive), nous avons indiqué à Googlebot que nous ne voulons pas qu’il accède à un certain dossier. Dans ce cas, c’est la page de connexion d’un site WordPress.

Dans la troisième ligne, nous avons ajouté une exception : bien que Googlebot ne puisse pas accéder à tout ce qui se trouve sous le dossier /wp-admin/, il peut visiter une adresse spécifique.

Avec la quatrième ligne, nous avons indiqué à Googlebot où trouver votre plan du site avec une liste d’URL que vous souhaitez faire explorer.

Il existe également quelques autres règles utiles qui peuvent être appliquées à votre fichier robots.txt, surtout si votre site contient des milliers de pages qui doivent être gérées.

* (Caractère générique)

Le caractère générique * est une directive qui indique une règle pour la correspondance des motifs.

Cette règle est particulièrement utile pour les sites Web qui contiennent des tonnes de contenu généré, des pages de produits filtrées, etc.

Par exemple, au lieu d’interdire chaque page de produit sous la section /products/ individuellement (comme dans l’exemple ci-dessous) :

User-agent: * 
Disallow: /products/shoes?
Disallow: /products/boots?
Disallow: /products/sneakers?

nous pouvons utiliser le caractère générique * pour les interdire toutes en même temps :

User-agent: * 
Disallow: /products/*?

Dans l’exemple ci-dessus, il est demandé aux user-agents de ne pas explorer les pages de la section /products/ contenant le point d’interrogation  » ? » (souvent utilisé pour les URL paramétrées de catégories de produits).

$ (dollars)

Le symbole $ est utilisé pour indiquer la fin d’une URL. Il est possible d’indiquer aux robots d’exploration qu’ils ne doivent pas (ou doivent) explorer les URL ayant une certaine fin :

User-agent: *
Disallow: /*.gif$

Le signe  » $  » indique aux robots qu’ils doivent ignorer toutes les URL qui se terminent par  » .gif « .

# (hashtag)

Le signe # sert uniquement de commentaire ou d’annotation pour les lecteurs humains, il n’a aucun impact sur un user-agents et ne sert pas de directive :

# Nous ne voulons pas qu'un crawler visite notre page de connexion !
User-agent: *
Disallow: /wp-admin/

Comment créer un fichier robots.txt

Créer votre propre fichier robots.txt n’est pas sorcier.

Si vous utilisez WordPress pour votre site, vous aurez un fichier robots.txt de base déjà créé et similaire à ceux présentés ci-dessus.

Cependant, si vous envisagez d’apporter des modifications supplémentaires à l’avenir, il existe quelques plugins simples qui peuvent vous aider à gérer votre fichier robots.txt, tels que :

Ces plugins qui permettent de contrôler facilement ce que vous souhaitez autoriser et interdire, sans avoir à écrire une syntaxe compliquée par vous-même.

Vous pouvez également modifier votre fichier robots.txt par FTP : si vous savez comment y accéder et le modifier, le téléchargement d’un fichier texte est assez facile.

Cependant, cette méthode est beaucoup plus compliquée et peut rapidement introduire des erreurs.

Comment vérifier un fichier robots.txt

Il existe plusieurs façons de vérifier (ou de tester) votre fichier robots.txt. Tout d’abord, vous devez essayer de trouver le fichier robots.txt par vous-même.

Sauf si vous avez indiqué une URL spécifique, votre fichier sera hébergé à l’adresse « https://yourdomain.com/robots.txt« . Si vous utilisez un autre constructeur de sites Web, l’URL spécifique peut être différente.

Pour vérifier si les moteurs de recherche comme Google peuvent effectivement trouver et « obéir » à votre fichier robots.txt, vous pouvez soit :

  • Utiliser le testeur de robots.txt : un outil simple de Google qui peut vous aider à déterminer si votre fichier robots.txt fonctionne correctement.
  • Consultez la Google Search Console : vous pouvez rechercher les erreurs causées par le fichier robots.txt dans le champ « Coverage » dans l’onglet  » Google Search Console « . Assurez-vous qu’il n’y a pas d’URLs qui rapportent des messages « bloquée par robots.txt » non intentionnellement.

Google Search Console - bloqué par l'exemple de robots.txt

Meilleures pratiques pour le fichier robots.txt

Les fichiers Robots.txt peuvent facilement devenir complexes, il est donc préférable de garder les choses aussi simples que possible.

Voici quelques conseils qui peuvent vous aider à créer et à mettre à jour votre propre fichier robots.txt :

  • Utilisez des fichiers séparés pour les sous-domaines : Si votre site Web comporte plusieurs sous-domaines, vous devez les traiter comme des sites Web distincts. Créez toujours des fichiers robots.txt séparés pour chaque sous-domaine que vous possédez.
  • Spécifier les agents utilisateurs une seule fois : Essayez de fusionner toutes les directives qui sont attribuées à un user-agent spécifique. Cela permettra de simplifier et d’organiser votre fichier robots.txt.
  • Assurer la spécificité : Veillez à spécifier des chemins URL exacts et faites attention aux barres obliques ou aux signes spécifiques présents (ou absents) dans vos URL.