checklist seo

Robots.txt + meta tag

La balise meta robots et le fichiers robots.txt sont deux mécanismes différents et indépendants pour passer certaines informations aux bots des moteurs de recherche. L' un ne remplace pas l'autre, et vous devez savoir comment les utiliser et les paramétrer tous les deux.

Robots.txt

La configuration du fichier robots.tx se fait en dehors de l'administration de Joomla, pour le modifiez éditez ce fichier qui est situé à a racine de votre site Joomla.

Le fichier robots.txt est un fichier qui contient des informations sur les parties du site qui doivent être accessibles ou non au public. Il existe essentiellement pour les bots des moteurs de recherche, qui parcourent les sites internet, afin de définir quelles pages doivent être incluses dans leur index. Par défaut, les bots des moteurs de recherche peuvent parcourir l’ensemble de votre site, si vous souhaitez leur bloquer l'accès à certaines partie du site vous devrez le préciser dans ce fichier.

Notez que bloquer un URL via le robots.txt n'empêchera pas Google d'indexer la page. Il s' arrêtera simplement de vérifier cette page. Regardez ce résultat de recherche pour Raven tools SEO , qui est très bien positionné.

robots.txt

Par conséquent pour être absolument sur qu'une page ne soit pas indexée, utilisez la balise méta robots, tel que détaillé plus bas dans cette article.

L'installation de Joomla inclut un fichier standard robots.txt, qui est ok pour la plus part des sites, mis à part pour un problème important : il bloque l'accès des bots des moteurs de recherche au répertoire /images. Ce qui empêche les images de votre site de se faire indexées, ce que bien sur personne ne souhaite. Il vous faut donc soit commenter cette ligne ou la supprimer.

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
# Disallow: /images/    <------
Commentez cette ligne avec un #
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
# Disallow: /media/
<------ Commentez cette ligne avec un #
Disallow: /modules/
Disallow: /plugins/
# Disallow: /templates/
<------ Commentez cette ligne avec un #
Disallow: /tmp/

Note: Depuis Joomla 3.3, ce problème a été corrigé et ces répertoires ne sont plus bloqués.

Comme vous pouvez le voir, ce fichier est utilisé pour bloquer les fichiers systèmes de Joomla. Vous pouvez aussi utiliser le fichier robots.txt pour empêcher l'indexation de pages spécifiques, telle que votre page de login ou votre page d'erreur 404, mais ce sera fait de façon plus efficace que si vous utiliser la balise méta robots à cette fin.

Pour vérifier que votre fichier robots.txt fonctionne comme prévu rendez-vous dans Google Outils pour les webmasters dans la section Exploration > Outils de test du fichier robots.txt.

Paramétrages avancés avec le fichier robots.txt

Les utilisateurs avancés peuvent utiliser le fichier robots.txt pour bloquer l'indexation de pages en utilisant le pattern matching. Par exemple vous pouvez bloquer l'indexation de toutes les pages contenant un "?" afin de vous prémunir du contenu dupliqué provenant d'URLs non réécrites :

User-agent: *
Disallow: /*?*

Soyez prudent avec ce type de paramétrages. Plus d'exemples de ce type sont disponibles sur searchengineland.com.

Allow CSS and Javascript ?

Google a récemment fait une une remarque concernant les sites accessibles sous smartphones (voir la video de Matt Cutts à ce sujet) :

Don't block CSS, Javascript and other resource files by default. This prevents Google bot from properly rendering the page and understanding that it's optimized for mobile.

C'est pourquoi le répertoire /templates n'est plus bloqué lors de l'installation de Joomla depuis Juillet 2014 (idem pour le répertoire /media).

Assurez vous toutefois que tous vos fichiers ressources ne soient pas bloqués. Si vous utilisez un plugin tel que JCH-optimize, qui combine de multiples fichiers CSS et Javascript en deux fichiers uniques, vous pouvez avoir besoin de débloquer (allow) certaines règles comme ceci :

Allow: /plugins/system/jch_optimize/assets2/
Allow: /plugins/system/jch_optimize/assets/

Testez votre fichier robots.txt dans Google Outils pour les Webmasters

En 2014, Google est devenu plus strict quant au contenu de fichier robots.txt. Il est devenu plus pointilleux concernant le blocage de certaines ressources (CSS et JS), mais il a aussi introduit des outils de test dans Google Outils pour les Webmasters  pour vous aider à tester votre fichier robots.txt. Le premier est le l'Outil de test du fichier robots.txt, que vous retrouverez dans la section Exploration.

Outil de test du fichier robots.txt de Google Outils pour les webmasters

Dans l'exemple ci-dessus il n'y a ni erreurs (Errors) ni avertissement (Warnings). Soyez conscient qu'il ne s'agit que d'un test basic qui ne fait que tester les lignes que vous avez saisi, il ne vérifie pas si les ressources bloquées sont  cruciales ou non pour votre site.

C'est à ce stade que l'outil "Explorer comme Google" (Exploration > Explorer comme Google) devient est très intéressant. Je vous conseille vivement de tester votre site avec cet outil, vous pourriez découvrir des résultats très surprenants. Cet outil essaye de tester votre site comme le feraient les bots de Google qui parcourent votre site. Maintenant regardons le rendu d'un site a travers cet outil, en cliquant sur le bouton " Explorer et afficher" (fetch and render) :

fetch as google

Le résultat peut être un "ok" vert, à droite du mot Partielle (Partial), ce résultat  est donc partiel, nous n'en donc avons pas encore fini !!! Cliquez sur le mot Partielle de la colonne Etat, qui ouvrira une nouvelle page. Maintenant votre site peut ressembler à la seconde image ci-dessous : 

mobile view distorted

Ce peut être le rendu de votre site lorsque Google rencontre des répertoires bloqués de votre template, ou sont stockés les fichiers CSS et JS de votre template. Il est donc maintenant très facile de découvrir quels fichiers sont bloqués par votre robots.txt, puisque Google vous le précise sur cette page.

Un article plus détaillé sur ce sujet est disponible ici : Robots.txt: do not block CSS and Javascript. Assurez-vous de bien faire cette vérification, car cela pourrait avoir un impact sur le positionnement de votre site dans les résultats de recherche si Google n'est pas en mesure de restituer correctement votre site. Et donc ne peut savoir si votre site est responsif ou non.

Précisez l'emplacement de votre sitemap

Le fichier robots.txt peut être aussi utilisé pour préciser l'emplacement de votre fichier sitemap xml, c'est à faire si celui-ci n'est pas situé à la racine de votre site, ce qui est communément le cas si votre sitemap est générée par une extension Joomla comme Xmap, Osmap, Jsitemap etc. Pour ce faire regarder dans les paramétrages de votre extension pour trouver l'emplacement de votre sitemap, puis ajouter le à la fin du fichier robots.txt, comme ceci :

  Sitemap: index.php?option=com_osmap&view=xml&tmpl=component&id=1

Les mises à jour de Joomla et modification du fichier robots.txt

De temps en temps le projet Joomla met à jour le fichier robots.txt, par exemple en débloquant certains répertoires. Lorsque cela se produit ils ne fournissent pas simplement un nouveau fichier robots.txt, en effet cela aurait pour effet de d'effacer toute customisation que vous auriez pu lui apporter, ils fournissent par conséquent un fichier nommé robots.txt.dist. Si vous n'avez fait aucune customisation vous pouvez tout simplement supprimer votre fichier robots.txt existant et renommer le fichier robots.txt.dist en robots.txt.

Si vous customisé votre robots.txt, vérifiez les changements inclus dans le robots.txt.dist et copier ces modifications dans celui customisé. En général, après une mise à jour Joomla vous serez notifié dans un message de post installation qu'une modification est disponible.  Notez que la même procédure est applicable pour le fichier .htaccess .

Balise meta robots

La balise meta robots, est une meilleur solution pour bloquer l'indexation de contenu., mais vous ne pouvez le faire que pour des URLs et non pas pour des répertoires systèmes. Cette une méthode très efficace pour garder du contenu hors de l'index Google. Avec Joomla vous avez la possibilité de paramétrer cette balise à différents endroits en même temps que vous saisissez d'autres paramétrages SEO comme les méta description. Sur un niveau global pour votre site, laissez le paramétrage par défaut de page Configuration  dans la rubrique Paramètres des métadonnées. Comme vous pouvez le voire, vous avez 4 combinaisons de paramétrage possibles :

meta data robots options

A moins que vous ne souhaitiez cacher votre site aux moteurs de recherche (ce qui peut être utile en phase de développement), gardez la valeur par défaut Index, Follow. Pour des pages spécifiques vous pouvez faire un choix différent, soit au niveau de l'article ou de son élément de menu  ce qui prendra le pas sur celui de la configuration générale du site. Par exemple la page de résultat de recherche ne devrait pas être indexée, mais si vous souhaitez que ses liens soient suivis par les bots des moteurs de recherche : choisissez la balise No Index, follow. Vous trouverez plus d'infos sur ce sujet dans cet excellent E-book du même auteur.

Quand vous paramétrez cette balise dans Joomla, vous générez en fait le code HTML ci-dessous, en consultant le code source de votre page vous pourrez vérifier si votre paramétrage est correcte.

<meta name="robots" content="NOINDEX, NOFOLLOW">

Avertissement : Si vous utilisez Noindex, Nofollow pour cacher votre site en cours de développement, n'oubliez pas de le modifier lorsque vous le mettrez en ligne (cela m'est arrivé) autrement votre score SEO risque fort d'être plus que mauvais...

Simon Kloostra est l'auteur de l' article : Robots.txt + meta tagdont la traduction est autorisée par joomlaseo.com

4.9444444444444 1 1 1 1 1 1 1 1 1 1 Notez cet article 4.94 (9 Votes)

Commentaires (5)

  1. Christophe Avonture

    J'ai testé ce matin et je confirme que Google Webmaster Tools indique le chargement de la page comme "Partiel" lorsqu'il y a des fichiers css et js dans des dossiers tels que /template et lorsque robots.txt contient l'instruction Disallow: /template.

    Donc, oui, en désactivant cette interdiction dans robots.txt, GWT charge totalement la page reste que, à ce stade, je suis ennuyé par cette modification : si on autorise les robots à crawler les dossiers /media, /plugins, /templates, est-ce que nous risquons d'avoir nos fichiers css p.ex. immédiatement accessible dans les SERP du moteur de recherche ?

    Ce comportement m'interpelle.

    1. Thierry Tardif    Christophe Avonture

      Bonjour Christophe,
      Merci pour ton test et ton excellente remarque, à priori et à mon humble avis je ne pense pas que Google listera dans les SERPs ce type de fichiers, en effet à quelle fin les lister pour les internautes ?
      Toujours est-il que Google recommande de ne pas bloquer l'exploration de ces fichiers, car "Cela peut avoir un impact négatif sur le classement de votre site" cf http://googlewebmastercentral-fr.blogspot.fr/2014/10/mise-jour-de-nos-consignes-techniques.html

      1. GOUDE Jean-François

        Article intéressant, du coup, comme j'utilise JCH-Optimize depuis ... pas mal de temps, j'ai voulu regarder ce qu'il en était et ... pas moyens de trouver un répertoire /plugins/system/jch_optimize/assets/ pas plus que assets2 d'ailleurs. Comme ma version de JCH-Optimize est à jour, peut être est ce l'article qui lui ne l'est pas sur ce point en tout cas.

        1. Bernard Bass

          Du coup, je suis entrain de creuser cette question, et j'en suis au niveau de l'avis de Christophe.
          J'ai trouvé des sources, qui proposent effectivement de ne pas bloquer le template.
          Pour le moment, j'en suis a chercher, pour voir, si oui, ou non, j'ouvre mon template aux robots.
          Avez vous de nouvelles informations ?

          1. Thierry Tardif    Bernard Bass

            Bonjour,
            Avec le nouvel algorithme google "mobile-friendly" lancé le 21/04, pour les sites responsifs qui ne souhaitent pas être pénalisés dans les résultats de recherche fait sous mobile il vous faut donner accès au répertoire de votre template

            Il n'y a pas encore de commentaire

            Ajoutez votre commentaire

            Pièces jointes (0 / 3)
            Share Your Location

            Ils nous ont fait confiance

            Universités & organismes de recherche

            L' INSERM - unité U999, Université Paris Sud - Centre Chirurgical Marie Lannelongue

            The Center for Groundwater Studies - Australie

            L 'ENSAE : École Nationale de la statistique et de l'administration

            La Maison des Sciences de l'Homme Paris Nord , UMS de l'université Paris 8, de l'université Paris 13 et du CNRS

            L' Institut Supérieur de Développement - ISD Flaubert

            Monpellier RIO imaging (MRI), plate - Forme Technologique (PFT), labellisée IBiSA.

            Organismes publics

            Ministère de la défense : État Major de la 3ème Brigade Mécanisée

            La mairie de la ville de Marly le Roi

            La mairie de la ville de Breuillet

            La mairie de la ville de Thuir

            L' Agence Locale de l'Energie de la métropole marseillaise

            L' Institut de Formation en Masso-kinésithérapie de Montpellier - Centre Hospitalié Universitaire de Bellevu

            Le Centre de Gestion de la fonction Publique Territoriale des Alpes de Haute Provence

            La Capitelle - couveuse d'entreprises du Gard

            Le Centre Social Intercommunal de Saint Quentin de la Poterie

            Le collège & lycée Saint Charles

            Le lycée Philippe Lamour

            Le centre François Baclesse: Centre de Lutte Contre le Cancer (CLCC)

            Entreprises

            Astrium une filiale EADS No 1 européen et No 3 mondial de l'industrie spatiale

            Messer France

            Photonlines

            Shânti Gestion

            App-Line

            Vincent et Mireille

            Axiom Information

            Galerie Art City

            Le Château de Boisson

            LM Control

            Vagabonde International

            Photonlines Energy

            la Pisciculture la Croisière

            FHSolution

            NaturEditions

            Etudions à l'étranger

            E.P.A.

            Microeconomix

            Alatak

            Jade Black Design

            Une bague une destinée

            Schmulb

            Espace revêtements

            Partenaire de réussite

            Stylitek

            Fun-Kart

            The Crew Coach

            Sanitval

            Ateliers d'écriture de Virginie Lou

            cam4you

            SDB+

            Armelle Bongrain - architecte d'intérieur

            ECIM

            Riveria Expat Consultants

            Florence Thorez - Diététicienne Nutritionniste

            Le Séchoir

            Le Moulin de Bouydou

            L' Espace de Formation Clinique et Psychanalytique

            Cours de musique à Montpellier

            Leads Planet

            Agerix

            Etudions à l'étranger

            Biopreserv

            Aloes RED

            InfoTour

            EverNew

            Synalabs

            Bureau d'Etudes Arlaud

            Stage de musique été

            Fermetures Neuvillaises

            Linguapolis

            Weblligence

            ASD Protect

            Véronique Crépaux - praticienne en Energétique Traditionnelle Chinoise

            Françoise Léon - Psychologue du comportement alimentaire

            Inovtolerie

            BlueSafe

            Viasocial

            Repco Marine

            King Jouet

            Dr Abbas - cabinet ORL

            ER3M

            Cryo'net

            Vectoring Talents

            Desir d'écrire

            Installation yperreault

            Viaortho

            Viadentiste

            Alice Sweet Home

            ONG / Associations

            UNESCO: International Music Council

            L' Association de Recherche en Soins Infirmiers

            L' Union Internationale Contre la Tuberculose et les maladies respiratoires

            Le Centre National des Risques Industriels

            L' Institut International des Hautes Études en Psychanalyse

            SurdiFrance : Association nationale de malentendants

            La fondation Internationale de l'Hôpital Albert ScMhweitzer à Lambaréné

            La Maison des Professions Libérales Ile de France

            Le Conseil National de l' Enseignement Agricole Privé

            La ligue Dauphiné Savoie de tennis

            Le Conseil Permanent Régional des Associations d’Environnement

            Le Syndicat des Podologues d'Île de France

            La compagnie aux grands pieds

            L'Espace de l'Ouest Lyonnais

             

            En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour notamment réaliser des statistiques de visites