Est ce que le robots.txt bloque les bons fichiers de mon site ?

Valentin Garcia est l'auteur de l’article Is Robots.txt Blocking the Right Files on My Site? dont la traduction est autorisée par ostraining.com

Par défaut toutes les URLs de votre site peuvent être indexées par Google. Cependant si vous souhaitez que certaines pages spécifiques ne soient pas indexées par Google, vous pouvez utiliser votre fichier robots.txt.

Dans votre robots.txt vous prouvez spécifiez à Google de ne pas indexer certaines de vos pages en utilisant la règle "Disallow":

Disallow: /ne-pas-scanner-cette-url/

Dans ce tutoriel, je vais vous montrer comment utiliser la Google Search Console (ex Google Outils pour les Webmasters) pour vérifier si vous avez réussit à bloquer l'indexation d'une URL spécifique .

Vérifiez que l'URL est bien en Disallow

Pour utiliser cet outil, vous avez besoin d'avoir votre site vérifié dans la Google Search Console.

Rendez-vous sur la page de test du robots.txt
Choisissez une propriété validée à partir la liste déroulante. Si votre site n'est pas listé cliquez sur le bouton Ajouter une propriété, puis continuez le processus et revenez à ce tutoriel.

L'écran suivant chargera le contenu de votre fichier robots.tx, il est situé à la racine de votre site : www.votresite.any/robots.txt. L'emplacement de ce fichier est le même que vous utilisiez Joomla, Drupal ou WordPress ou tout autre plateforme.

En bas de cet écran, entrez une URL pour confirmer qu'elle est bien "Disallowed" dans le robots.txt. Choisissez de laisser Googlebot comme bot de recherche. Cliquez sur le bouton TESTER.

Si une règle Disallow correspond à l'URL saisit, elle apparaîtra en rouge et le bouton TESTER est remplacé par BLOQUEE .

Ce qui confirme que cette URL ne sera pas indexée par Google.

Comment "Disallow" des URLs avec des variables

Il est facile de "disallow" une URL simple, cependant comment peut-on "disallow" tout une série d'URLs avec des variables ?

Prenons un exemple pour clarifier cette approche, nous voulons "disallow" ces pages:

www.votresite.any/en/component/content/
www.votresite.any/en/component/weblinks/
www.votresite.any/fr/component/content/
www.votresite.any/fr/component/weblinks/

Je pourrai bien sur ajouter 4 lignes dans le fichier robots.txt, une ligne par URL. Mais je peux aussi obtenir le même résultat avec une seul ligne qui cible ces pages en utilisant des variables :

Disallow: /*/component/*

Cette syntaxe s’applique aux 4 URLs ci-dessus. Dans ce contexte les * sont des variables qui remplacent les caractères en gras des 4 pages ci-dessus.

Pour confirmer que ce type de variables sont bien comprises par Google bot nous pouvons tester et constater que ces 4 URLs sont bien "disallowed" :