A quoi sert le fichier robot.txt dans le référencement de mon site ?

Publié par nicolas le 15 avril 2018

Tous les administrateurs de site web doivent oeuvrer au bon référencement de leurs projets dans les moteurs de recherche. Pour ce faire, nombreuses techniques de référencement naturel et consignes importantes sont à suivre avec minutie. Parmi elles, il y a la création du fichier robot.txt.

Qu’est-ce que le fichier robot.txt ?

Il s’agit d’un fichier texte qui est placé à la racine d’un nom de domaine. Il permet au webmaster de contrôler la restriction et de l’autorisation d’accès des robots des moteurs de recherche à un site Internet. En d’autres termes, le fichier robot.txt est un protocole d’exclusion qui permet de préciser quelles pages indexer et quelles pages ne pas indexer. En effet, il ne peut y a voir qu’un unique fichier robot.txt sur un domaine. Il doit se situer au niveau de la racine, tout comme le sitemap. Les données qui se trouvent dans un fichier robot de ce genre font référence à l’intégralité de l’arborescence d’un répertoire. C’est d’ailleurs ce qui le différencie des fichiers robots méta et de leurs redirections qui ne sont valables que pour une page HTML unique. Ce qui est primordial pour ce type de fichier, c’est que celui-ci soit pris en compte par les moteurs de recherche comme étant une directive à suivre.

Est-ce obligatoire d’avoir ce genre de fichier ?

Ce type de fichier n’est pas obligatoire pour la conception d’un site. Par contre, en cas d’absence de celui-ci, les robots des moteurs de recherche analyseront toutes les adresses de la liste des url du site sans aucune exception. Avec la plupart des solutions modernes de créations de sites Internet (WordPress ou Prestashop pour ce parler que de celles-là…), le contenu du fichier robot est généré automatiquement dès la création du site. Sa modification s’avère être nécessaire même si ce n’est pas obligatoire, pour les besoins du référencement naturel du site. La restauration du fichier de base est réalisable à tout moment, si besoin est.

Pour faire simple et répondre à la question directement, demandez-vous si certaines pages (dont l’accès est libre, c’est à dire non protégé par un login et un mot de passe…) méritent de ne pas être affichées dans les résultats de recherche des moteurs. Si la réponse est positive, alors, vous devez avoir recours à ce type de protocole d’exclusion. Dans le cas contraire, si vous n’avez besoin d’aucune exclusion pour l’index de vos pages, il n’est d’aucune utilité. Par exemple, vous pourriez avoir crée des landing pages pour vos campagnes de recrutement. Ces pages étant spécialement optimisées pour la conversion, il faut vous demander si elles doivent être indexée.

L’utilisation de ce protocole d’exclusion est également nécessaire pour empêcher l’apparition non souhaitée des fichiers images dans les résultats de recherche. Bien que les moteurs de recherche ne fassent pas apparaitre les fichiers images sans autorisation, certains sites peuvent faire usage de liens qui pointent vers ceux-ci.

Comment savoir si votre fichier robot.txt est opérationnel ?

Pour la création d’un fichier robot.txt, il faut, en premier lieu, avoir accès à la racine de votre domaine. Ensuite, vous avez le choix entre la création manuelle, l’usage d’outils en ligne ou le recours à des CMS comme WordPress.

Pour être sûr que le fichier robot est vraiment fonctionnel et est conforme à vos besoins, il est possible de le tester. Pour cela, vous pouvez utiliser GSC ou « Google search console ». Ce service gratuit de test de fichier robot vous indique si votre protocole d’exclusion empêche les spiders des moteurs de recherche d’avoir accès à certaines URL de votre domaine. L’utilisation d’un service comme GSC est loin d’être plus compliqué. Il suffit, en effet, d’insérer la liste des url que vous souhaitez bloquer. L’outil vérifiera l’index de vos adresses. Ensuite, les résultats seront détaillés en listant les adresses sur lesquelles il y a eu restriction d’accès.

Les limites du protocole d’exclusion via le fichier robot.txt

Avant de mettre en pratique la création du fichier robot texte, vous devez prendre en compte les risques associés à l’usage de ce protocole d’exclusion. De cette façon, vous saurez s’il est judicieux ou pas d’avoir ce type de fichier comme solution pour la protection des adresses URL de votre site web.

En effet, il est bon de garder en tête que les directives indiquées dans les fichiers robots texte ne sont pas des règles, mais représentent de simples consignes. De ce fait, les spiders peuvent ne pas les suivre. En effet, les Google bot et certains spiders sérieux obéissent à la lettre aux directives que vous mettez en programme dans les fichiers robots, mais d’autres peuvent les contourner. Si vous souhaitez donc protéger les informations sensibles et éviter leur récupération par les spiders d’exploration, il est nécessaire d’avoir recours à d’autres méthodes de blocage pour compléter la protection. L’utilisation des mots de passe sur les fichiers sensibles du serveur peut constituer une excellente alternative.

Ainsi, la création d’un fichier robot.txt ne sert pas directement à améliorer le positionnement d’une page. Il participe à la bonne compréhension de votre site Internet par les moteurs de recherche et donc à son score général. En effet, si vous indexez trop de pages à faible contenu (qui pourraient être indiquées comme non indatables…), la réputation globale de votre site pourrait en pâtir.