Logo sc2017


Blog

robotsQu'est ce que le fichier robot.txt ?

Le fichier robot.txt est un fichier situé à la racine du site. Il est le premier fichier lu par les robots en arrivant sur votre site.

Le fichier robot.txt va fournir des informations aux robots et leur interdire l'exploration de certaines pages, de certains répertoires.

Comment créer un fichier robot.txt ?

Le fichier robot.txt est un fichier texte. Il doit être nommé robot.txt.
Vous pouvez créer le fichier avec le bloc-note puis le télécharger à la racine de votre site internet : monsite.com/robot.txt

La syntaxe des fichiers robot.txt

Les fichiers robots.txt les plus simples utilisent : User-agentDisallow et Allow
Les user-agents : les robots de moteur de recherche ou des robots d'exploration.
Disallow : interdit au user-agent l'accès à une URL particulière
Allow : permet au user-agent l'accès à une URL particulière 

La syntaxe est la suivante :

User-agent: [Le nom du robot auquel les règles s'appliquent]
Disallow: [l'URL à bloquer]
Allow: [l'URL autorisée]

Pour que la commande s'applique à tous les robots : User-agent: *
 

Comment autoriser tous les robots à accéder à votre site ?

User-agent: *
Disallow:

Comment interdire l'accès de votre site à tous les robots ?

User-agent: *
Disallow: /

Comment interdire l'accès à un répertoire et son contenu ?

Disallow: /sample-directory/

Comment interdire l'accès à certaines pages ?

User-agent: *
Disallow: /mapage-a.html
Disallow: /mapage-b.html

Un fichier robot.txt pour Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
# Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Source : Fichier robot.txt pour Joomla

Robot.txt est utilisé pour bloquer les fichiers systèmes de Joomla. Il peut être utilisé aussi pour empêcher l'indexation de la page de login ou la page d'erreur 404. Si vous souhaitez que le contenu du répertoire image soit indexé.  Il suffit de commenter cette ligne ou la supprimer.

Pour vérifier que votre fichier robots.txt fonctionne correctement : dans Google Outils pour les webmasters.
Exploration > Outils de test du fichier robots.txt. 

Un fichier robot.txt pour wordpress

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Allow: /wp-content/uploads/

robot.txt empêche l'exploration des répertoires de WordPress mais autorise l'exploration des contenus multimédias (répertoire /uploads/).

Source : Fichier robot.txt pour wordpress