Fichier Robots.txt : Maîtrisez l'Indexation et le Crawl Budget

Le fichier robots.txt contrôle l'accès des moteurs à votre site. Apprenez à l'optimiser pour préserver votre budget de crawl et indexer uniquement les pages utiles.
G
Ghesquiere MaximeAuteur
Publié le
Partager :
Audit SEO Technique
Robots.txt : Guide Complet pour Contrôler l'Indexation
💡

En Bref

  • Rôle : Le fichier robots.txt est la première chose qu'un robot (Googlebot) regarde. Il lui dit où il a le droit d'aller (Allow) et où il n'a pas le droit (Disallow).
  • Emplacement : Il doit impérativement se trouver à la racine du site : monsite.com/robots.txt.
  • Indexation : Attention, bloquer une page dans le robots.txt n'empêche pas toujours son indexation (si elle a des liens externes). Pour désindexer, préférez la balise noindex.
  • Budget de Crawl : Il est essentiel pour économiser les ressources de crawl de Google sur les gros sites.

Avant même de lire le moindre mot de votre contenu, Googlebot frappe à une porte bien précise : celle de votre fichier robots.txt.

Ce petit fichier texte, souvent méconnu, détient un pouvoir immense : il peut autoriser Google à explorer votre site... ou lui interdire totalement l'accès, rendant votre site invisible aux yeux du monde.

Maîtriser le robots.txt est une compétence fondamentale du SEO technique. C'est le gardien de votre site, celui qui dirige le trafic des robots pour optimiser votre budget de crawl.

Qu'est-ce que le fichier robots.txt ?

Le robots.txt est un fichier texte simple placé à la racine de votre site web (ex: https://www.monsite.com/robots.txt). Il utilise le Robots Exclusion Protocol, un standard qui permet aux sites web de communiquer avec les robots d'exploration (crawlers).

Son rôle est d'indiquer aux robots quelles parties du site ils peuvent explorer (Allow) et quelles parties leur sont interdites (Disallow).

À quoi ressemble-t-il ?

Voici un exemple classique de fichier robots.txt :

User-agent: *
Disallow: /admin/
Disallow: /panier/
Allow: /admin/public/
Sitemap: https://www.monsite.com/sitemap.xml

Pourquoi est-il crucial pour le SEO ?

1. Optimiser le Budget de Crawl

Google n'a pas des ressources infinies. Il alloue à chaque site un "budget" de temps et de pages à explorer. Si votre site contient des milliers de pages inutiles (filtres, facettes, pages de session), Googlebot va perdre son temps dessus au détriment de vos pages stratégiques. Le robots.txt permet de bloquer ces zones inutiles.

2. Protéger les zones sensibles

Vous ne voulez pas que vos pages d'administration, vos scripts de test ou vos fichiers PDF privés apparaissent dans Google. Le robots.txt est la première barrière.

3. Éviter le contenu dupliqué

En bloquant l'accès aux versions imprimables des pages ou aux paramètres d'URL générant dupliqués, vous assainissez votre structure.

Les commandes principales à connaître

User-agent

Définit à quel robot s'applique la règle.

  • User-agent: * : S'applique à tous les robots.
  • User-agent: Googlebot : S'applique uniquement au robot de Google.

Disallow (Interdire)

Indique le chemin d'accès interdit.

  • Disallow: / : Bloque tout le site (Attention danger !).
  • Disallow: /dossier-prive/ : Bloque tout le contenu de ce dossier.

Allow (Autoriser)

Par défaut, tout ce qui n'est pas "Disallow" est autorisé. Cette commande sert à créer une exception dans un dossier bloqué.

  • Exemple : Je bloque tout le dossier admin, sauf le fichier logo.png.
    Disallow: /admin/
    Allow: /admin/logo.png
    

Sitemap

Indique l'emplacement de votre plan de site XML pour aider les robots à le trouver.

  • Sitemap: https://www.monsite.com/sitemap_index.xml

Erreurs courantes et Dangers

L'erreur fatale : Disallow: /

Si vous écrivez ceci :

User-agent: *
Disallow: /

Vous dites à tous les moteurs de recherche de ne rien explorer sur votre site. C'est souvent une configuration laissée par erreur après une mise en production. Résultat : désindexation totale.

Confondre "Ne pas crawler" et "Ne pas indexer"

C'est la nuance la plus importante.

  • Robots.txt (Disallow) : Empêche le robot de lire la page. Mais si cette page reçoit des liens externes, Google peut quand même l'indexer (en affichant "La description de ce résultat n'est pas disponible").
  • Meta Noindex : Laisse le robot lire la page, mais lui ordonne de ne pas l'afficher dans les résultats.

Conseil d'expert : Si vous voulez être sûr qu'une page disparaisse de Google, utilisez la balise <meta name="robots" content="noindex"> plutôt que le robots.txt.

Bloquer les ressources CSS et JS

Ancienne pratique à bannir. Aujourd'hui, Google "voit" les pages comme un internaute. Si vous bloquez les fichiers CSS/JS, il ne pourra pas vérifier si votre site est "Mobile Friendly", ce qui nuira à votre classement.

Comment créer et tester son robots.txt ?

  1. Création : Un simple éditeur de texte (Notepad) suffit. Enregistrez le fichier sous le nom robots.txt (tout en minuscules).
  2. Mise en ligne : Déposez-le à la racine de votre hébergement via FTP.
  3. Test : Utilisez l'outil de test du robots.txt dans la Google Search Console. Il simulera le passage de Googlebot et vous signalera les erreurs ou les blocages involontaires.

Questions Fréquentes

Le robots.txt est-il obligatoire ?

Non, mais il est fortement recommandé. Sans lui, Googlebot essaiera de tout explorer, y compris vos pages d'administration ou vos contenus dupliqués.

Comment tester mon fichier robots.txt ?

Utilisez l'outil de test du robots.txt dans la Google Search Console. Il vous dira si vous bloquez par erreur des pages importantes.

Quelle est la différence entre Disallow et Noindex ?

Disallow (robots.txt) empêche le robot d'accéder à la page. Noindex (meta tag) laisse le robot accéder mais lui demande de ne pas afficher la page dans les résultats.

Puis-je bloquer des fichiers CSS ou JS ?

Évitez ! Google a besoin de ces fichiers pour comprendre le rendu visuel de votre page (Mobile Friendly). Ne bloquez que les scripts non essentiels.

Prenez le contrôle de l'exploration

Le fichier robots.txt est un levier puissant d'optimisation technique. Bien configuré, il guide Google vers vos pépites de contenu. Mal configuré, il peut saboter votre visibilité.

Vous n'êtes pas sûr que votre robots.txt est optimal ? Vous avez peur de bloquer des pages importantes ?

Partager :