SEO
Qu'est-ce que Robots.txt ?
Robots.txt est un fichier standard utilisé par les sites Web pour communiquer avec les robots d'exploration et autres robots Web afin de les informer des pages Web et des zones du site Web qu'ils ne doivent pas être traités, analysés ou indexés dans les résultats des moteurs de recherche.
Que fait Robot.txt ?
Un fichier robots.txt indique aux robots Web, également appelés robots d'exploration, les pages ou les fichiers que le propriétaire du domaine ne souhaite pas qu'ils « explorent ». Les robots visitent votre site Web, puis indexent (enregistrent) vos pages Web et vos fichiers avant de les répertorier sur les pages de résultats des moteurs de recherche.
Si vous ne souhaitez pas que certaines pages ou fichiers soient répertoriés par Google et d'autres moteurs de recherche, vous devez les bloquer à l'aide de votre fichier robots.txt.
Vous pouvez vérifier si votre site Web dispose d'un fichier robots.txt en ajoutant /robots.txt immédiatement après votre nom de domaine dans la barre d'adresse en haut :
Comment fonctionne Robot.txt ?
Avant qu'un moteur de recherche n'explore votre site Web, il examine votre fichier robots.txt pour obtenir des instructions sur les pages qu'il est autorisé à explorer et à indexer dans les résultats des moteurs de recherche.
Les fichiers Robots.txt sont utiles si vous souhaitez que les moteurs de recherche n'indexent pas :
1) Pages en double ou cassées sur votre site Web.
2) Pages de résultats de recherche internes.
3) Certaines zones de votre site Web ou un domaine entier.
4) Certains fichiers de votre site Web tels que des images et des PDF.
5) Pages de connexion.
6) Sites Web de préparation pour les développeurs.
7) Votre Sitemap XML.
L'utilisation de fichiers robots.txt vous permet d'éliminer les pages qui n'ajoutent aucune valeur, de sorte que les moteurs de recherche se concentrent plutôt sur l'exploration des pages les plus importantes. Les moteurs de recherche disposent d’un « budget d’exploration » limité et ne peuvent explorer qu’un certain nombre de pages par jour. Vous souhaitez donc leur donner les meilleures chances de trouver rapidement vos pages en bloquant toutes les URL non pertinentes.
Vous pouvez également implémenter un délai d'exploration, qui indique aux robots d'attendre quelques secondes avant d'explorer certaines pages, afin de ne pas surcharger votre serveur. Attention, Googlebot ne reconnaît pas cette commande, optimisez donc plutôt votre budget d'exploration pour une solution plus robuste et évolutive.
Comment créer un fichier Robots.txt ?
Si vous ne disposez pas actuellement d'un fichier robots.txt, il est conseillé d'en créer un dès que possible. Pour ce faire, vous devez :
1) Créez un nouveau fichier texte et nommez-le « robots.txt » – Utilisez un éditeur de texte tel que le programme Notepad sur les PC Windows ou TextEdit pour Mac, puis « Enregistrer sous » un fichier délimité par du texte, en vous assurant que l'extension de le fichier s'appelle « .txt ».
2) Téléchargez-le dans le répertoire racine de votre site Web – Il s'agit généralement d'un dossier au niveau racine appelé « htdocs » ou « www » qui le fait apparaître directement après votre nom de domaine.
3) Créez un fichier robots.txt pour chaque sous-domaine – Uniquement si vous utilisez des sous-domaines.
4) Test – Vérifiez le fichier robots.txt en saisissant votredomaine.com/robots.txt dans la barre d'adresse du navigateur.
En savoir plus ici.
[optin-monster slug=”em8z7q6hga9elmy1dbgb”]