Accéder au contenu principal

Est ce que le robots.txt bloque les bons fichiers de mon site ?

Valentin Garcia est l'auteur de l’article Is Robots.txt Blocking the Right Files on My Site? dont la traduction est autorisée par ostraining.com

robots testerPar défaut toutes les URLs de votre site peuvent être  indexées par Google. Cependant si vous souhaitez que certaines pages spécifiques ne soient pas indexées par Google, vous pouvez utiliser votre fichier robots.txt.

Dans votre robots.txt vous prouvez spécifiez à Google de ne pas indexer certaines de vos pages en utilisant la règle "Disallow": 

Disallow: /ne-pas-scanner-cette-url/

Dans ce tutoriel, je vais vous montrer comment utiliser la Google Search Console (ex Google Outils pour les Webmasters) pour vérifier si vous avez réussit à bloquer l'indexation d'une URL spécifique .

Vérifiez que l'URL est bien en Disallow

Pour utiliser cet outil, vous avez besoin d'avoir votre site vérifié dans la Google Search Console.

  • Rendez-vous sur la page de test du robots.txt
  • Choisissez une propriété validée à partir la liste déroulante. Si votre site n'est pas listé cliquez sur le bouton Ajouter une propriété, puis continuez le processus et revenez à ce tutoriel.

tester votre robots.txt 1

L'écran suivant chargera le contenu de votre fichier robots.tx, il est situé à la racine de votre site : www.votresite.any/robots.txt. L'emplacement de ce fichier est le même que vous utilisiez Joomla, Drupal ou WordPress ou tout autre plateforme.

tester votre robots.txt 2

En bas de cet écran, entrez une URL pour confirmer qu'elle est bien "Disallowed" dans le robots.txt. Choisissez de laisser Googlebot comme bot de recherche. Cliquez sur le bouton TESTER.

tester votre robots.txt 3

Si une règle  Disallow correspond à l'URL saisit, elle apparaîtra en rouge et le bouton TESTER est remplacé par BLOQUEE .

tester votre robots.txt 4

Ce qui confirme que cette URL ne sera pas indexée par Google.

Comment "Disallow" des URLs avec des variables

Il est facile de "disallow" une URL simple, cependant comment peut-on "disallow" tout une série d'URLs avec des variables ?

Prenons un exemple pour clarifier cette approche, nous voulons "disallow" ces pages:

www.votresite.any/en/component/content/
www.votresite.any/en/component/weblinks/
www.votresite.any/fr/component/content/
www.votresite.any/fr/component/weblinks/

Je pourrai bien sur ajouter 4 lignes dans le fichier robots.txt, une ligne par URL. Mais je peux aussi obtenir le même résultat avec une seul ligne qui cible ces pages en utilisant des variables :

 Disallow: /*/component/*

Cette syntaxe s’applique aux 4 URLs ci-dessus. Dans ce contexte les * sont des variables qui remplacent les caractères en gras des 4 pages ci-dessus.

Pour confirmer que ce type de variables sont bien comprises par Google bot nous pouvons tester et constater que ces 4 URLs sont bien "disallowed" :

  • www.votresite.any/en/component/content/ 

tester votre robots.txt 5

  •  www.votresite.any/en/component/weblinks/

tester votre robots.txt 6

  • www.votresite.any/fr/component/content/

tester votre robots.txt 7

  • www.votresite.any/fr/component/weblinks/

tester votre robots.txt 8