Robots.txt + meta tag
La balise meta robots et le fichier robots.txt sont deux mécanismes différents et indépendants pour passer certaines informations aux robots des moteurs de recherche. Ils vous permettent de spécifier quelles parties de votre site doivent être indexées par les moteurs de recherche de celles qui ne le doivent ne pas . Ils sont touts les deux très puissants, et il faut être prudent car de petites erreurs peuvent avoir de sérieuses conséquences !
Différence entre le fichier robots.txt & la balise meta robots
Robots.txt est utilisé pour bloquer les dossiers système, comme le répertoire /plugins qui est installé par défaut lors de l' installation de Joomla. Il indique au robot Google de ne pas "crawler" lorsqu'il tente d'explorer le fichier ou le répertoire, ce qui a pour effet d'obfusquer tout contenu qu'il contient.
La balise meta robots est elle utilisée spécifiquement pour bloquer l' indexation de certaines pages. Par exemple, Google n' est pas friant de vos pages de recherche internes pour les incorporer dans son index (pour plus d'informations consultez www.seroundtable.com/google-block-search-results-pages-24279.html) utilisez la balise meta robots pour bloquer leurs indexations. Donc en résumé robots.txt dit à Google ne va pas là alors que la balise meta robots dit ne m'indexe pas. Ce sont deux choses différentes !
Les deux solutions ne se remplacent pas l'une et l'autre, elles ont toutes deux leur utilité spécifique. Ne les utilisez pas en même temps ! Je vais discuterai des deux solutions en profondeur.
Robots.txt
La configuration du fichier robots.txt se fait en dehors de l'administration de Joomla, il suffit d'ouvrir et de modifier le fichier en question. Le fichier robots.txt est un fichier qui contient essentiellement des informations sur les parties du site qui doivent être accessibles au public. Il est destiné aux robots des moteurs de recherche qui parcourent les sites web afin de déterminer quelles pages doivent être intégrées à l'index. Par défaut, les moteurs sont autorisés à tout explorer. Si certaines parties du site doivent être bloquées, vous devez les spécifier.
Notez que le blocage des URLs dans le fichier robots.txt n'empêche pas Google d'indexer la page. Il cessera simplement de vérifier la page. Il suffit de vérifier ce résultat ci-dessous pour le logiciel de référencement Raven tools, qui est en fait très haut dans les classements, où l'URL a été bloquée dans robots.txt, alors qu'elle est toujours indexée :
Par conséquent pour être absolument sur qu'une page ne soit pas indexée, utilisez la balise méta robots, tel que détaillé plus bas dans cet article.
Revenons au fichier robots.txt : Joomla est livré avec un fichier robots.txt standard qui devrait fonctionner correctement pour la plupart des sites, sauf pour les sites plus anciens : dans les anciennes versions de Joomla, il bloquait les dossiers /images, /media et /templates. Cela empêche l'indexation des images ou des feuilles de style CSS de votre site, ce que vous ne souhaitez évidemment pas. Par conséquent, si vous voyez encore ce blocage dans votre fichier robots.txt, supprimez le complètement :
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
# Disallow: /images/ <-------- supprimer
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
# Disallow: /media/ <-------- supprimer
Disallow: /modules/
Disallow: /plugins/
# Disallow: /templates/ <-------- supprimer
Disallow: /tmp/
Note : Depuis Joomla 3.3, ce problème est corrigé et ces lignes ne sont plus bloquées. Mais si votre site a été lancé avec une version antérieure, l'ancienne version de robots.txt peut encore être présente !
Comme vous pouvez le constater, ce fichier est principalement utilisé pour bloquer les dossiers système. Par ailleurs, vous pouvez également utiliser ce fichier pour empêcher l'indexation de certaines pages, comme les pages de connexion ou les pages 404, mais il est préférable d'utiliser la métabalise « robots ».
Vous pouvez également vérifier si votre fichier robots.txt fonctionne correctement en utilisant la section URL bloquées de la Google Search Console.
Modification avancée avec le fichier robots.txt
Les utilisateurs avancés peuvent utiliser le fichier robots.txt pour bloquer l'indexation des pages à l'aide d'un système de filtrage. Vous pouvez par exemple bloquer toute page contenant un '?' pour éviter le contenu dupliqué à partir d'URL non-SEF (ce qui n'est pas une pratique conseillée de nos jours) :
User-agent: *
Disallow: /*?*
Inutile de dire qu'il faut être prudent avec ce type de modifications. D'autres exemples sont disponibles sur searchengineland.com.
Allow CSS and Javascript?
Voici une remarque que Google a récemment faite au sujet des sites mobiles (voir cette vidéo où Matt Cutts de Google s'exprime) :
Ne bloquer pas CSS, Javascript & d'autres fichiers ressources par défaut . En effet cela empêcherait les bots de Google de bien comprendre la page et son rendu mais aussi de vérifier que le site est bien optimisé pour une visualisation sous smartphones.
C'est pourquoi les répertoires /templates & /média ne sont plus bloqué lors de l'installation de Joomla depuis Juillet 2014 (idem pour le répertoire ). Assurez vous tout de même que tous vos fichiers ressources ne sont pas bloqués. Assurez vous toutefois que tous vos fichiers ressources ne soient pas bloqués. Si vous utilisez un plugin tel que JCH-optimize, qui combine de multiples fichiers CSS et Javascript en fichiers uniques, vous pourriez avoir besoin de spécifier un Allow comme ceci :
Allow: /plugins/system/jch_optimize/assets2/
Allow: /plugins/system/jch_optimize/assets/
Précisez l'emplacement de votre sitemap
Le fichier robots.txt peut être aussi utilisé pour préciser l'emplacement de votre fichier xml-sitemap xml, c'est à faire si celui-ci n'est pas situé à la racine de votre site, ce qui est communément le cas si votre sitemap est générée par une extension Joomla comme PWT Sitemap, Osmap, Jsitemap etc. Pour ce faire regarder dans les paramétrages de votre extension pour trouver l'emplacement de votre sitemap, puis ajouter le à la fin du fichier robots.txt, comme ceci :
Sitemap: index.php?option=com_osmap&view=xml&tmpl=component&id=1
Les mises à jour de Joomla et modification du fichier robots.txt
De temps en temps le projet Joomla met à jour le fichier robots.txt, par exemple en débloquant certains répertoires. Lorsque cela se produit ils ne fournissent pas simplement un nouveau fichier robots.txt, en effet cela aurait pour effet de d'effacer toute customisation que vous auriez pu lui apporter, ils fournissent par conséquent un fichier nommé robots.txt.dist. Si vous n'avez fait aucune customisation vous pouvez tout simplement supprimer votre fichier robots.txt existant et renommer le fichier robots.txt.dist en robots.txt.
Si vous avez customisé votre robots.txt, vérifiez les changements inclus dans le nouveau robots.txt.dist et copier ces modifications dans votre robots.txt customisé. En général, après une mise à jour Joomla vous serez notifié dans un message de post installation qu'une modification est disponible. Notez que la même procédure est applicable pour le fichier .htaccess .
Balise meta robots
La balise meta robots, est une meilleur solution pour bloquer l'indexation de contenu, mais vous ne pouvez le faire que pour des URLs et non pas pour des répertoires systèmes. Cette une méthode très efficace pour mettre du contenu hors de l'index Google. Avec Joomla vous avez la possibilité de paramétrer cette balise à différents endroits en même temps que vous saisissez d'autres paramétrages SEO comme les méta description. Sur un niveau global pour votre site, laissez le paramétrage par défaut de page Configuration Globale dans la rubrique Métadonnées. Comme vous pouvez le voire, vous avez 4 combinaisons de paramétrage possibles :
À moins que vous ne souhaitiez cacher votre site aux moteurs de recherche (ce qui est utile pour le développement), laissez l'option par défaut Index, Follow . Pour des pages spécifiques, vous pouvez modifier ce paramètre, soit à partir de l'article, soit à partir de l'élément de menu. Par exemple : les pages de recherche interne ne doivent pas être indexées, mais vous souhaitez que les liens soient suivis : réglez la balise sur No index, follow. Vous trouverez plus d'informations à ce sujet dans l'E-book.
Lorsque vous utilisez la Balise meta robots, vous créez le code suivant dans votre HTML, ce qui vous permet de vérifier facilement si votre configuration est correcte :
<meta name="robots" content="NOINDEX, NOFOLLOW">
Un avertissement : si vous utilisez Noindex, Nofollow pour cacher vos sites en cours de développement, assurez vous de changer ce paramétrage une fois que le site est en ligne (cela m'est arrivé...), sinon vos scores de référencement seront très mauvais... Pour en savoir plus sur ce sujet, consultez cet article sur Moz.com.. :
Paramétrages des Snippets
En 2019, Google a introduit un paramétrage avancé pour le meta robots tag dans le but de configurer comment vos snippets doivent être rendus. Il y a plusieurs combinations possibles, mais pour la plus part des sites, les paramétrages les paramétrages suivants sont conseillés pour une visibilité optimum dans les résultats de recherche :
<meta name="robots" content="max-snippet:-1, max-image-preview:large, max-video-preview:-1" class="4SEO_robots_tag">
Pour en savoir plus, vous pouvez consulter cette article searchengineland.com/google-adds-new-snippet-controls-to-enable-control-over-how-your-search-listings-are-displayed-322456.
Pour les mettre en place vous aurez besoin d' une extension ad hoc. Certaines extensions SEO le font telle que 4SEO.
Cet article est une traduction libre du tutoriel de Simon Kloostra : : Robots.txt + meta tag.