Ressources gratuites pour aider les débutants à créer, gérer et développer leur site Joomla

Qu'est-ce le fichier "robots.txt" ?

Googlebot est le nom générique du robot d'exploration de Google. C'est aussi le plus connu. Les robots d'exploration sont également appelés crawlers ou spiders. Ce sont des programmes qui parcourent automatiquement le Web pour en indexer le contenu. Le robots.txt, vous permet, en tant qu'administrateur de votre propre site Web, de définir les parties de votre site que vous souhaitez interdire aux robots. En effet vous pouvez autoriser l'accès à certaines pages web et interdire l'accès à certains répertoires, si vous ne souhaitez pas que certaines pages soient indexées.

Où est placé le fichier robots.txt ? 

Un fichier robots.txt est situé à la racine du domaine ou du sous-domaine. Il est le premier fichier lu par les spiders en arrivant sur votre site.

Le contenu du robots.txt 

Le contenu standard d'un fichier robots.txt est le suivant :

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Syntaxe des fichiers robots.txt

Les fichiers robots.txt les plus simples utilisent : 

User-agent, Disallow et Allow
Les user-agents : les robots de moteur de recherche ou des robots d'exploration.
Disallow : interdit au user-agent l'accès à une URL particulière
Allow : permet au user-agent l'accès à une URL particulière 

La syntaxe est la suivante :

User-agent: [Le nom du robot auquel les règles s'appliquent]
Disallow: [l'URL à bloquer]
Allow: [l'URL autorisée]

Pour que la commande s'applique à tous les robots : User-agent: *
 

Autoriser tous les robots à accéder à votre site

User-agent: *
Disallow:

Interdire l'accès de votre site à tous les robots

User-agent: *
Disallow: /

Interdire l'accès à un répertoire

Disallow: /sample-directory/

Interdire l'accès à certaines pages

User-agent: *
Disallow: /mapage-a.html
Disallow: /mapage-b.html

Robot.txt est utilisé pour bloquer les fichiers systèmes de Joomla. Il peut être utilisé aussi pour empêcher l'indexation de la page de login ou la page d'erreur 404. Si vous souhaitez que le contenu du répertoire image soit indexé.  Il suffit de commenter cette ligne ou la supprimer.

Vérifier la syntaxe du robots.txt

Vérificateur de Google : https://support.google.com/webmasters/answer/6062598

Créer un fichier robots.txt

Le fichier robots.txt est un fichier texte. Il doit être nommé robots.txt. Vous pouvez créer le fichier avec le bloc-note puis le télécharger à la racine de votre site internet : monsite.com/robots.txt

FAQ

Comment Googlebot accède-t-il à votre site ?

Dans la plupart des cas, les accès de Googlebot à votre site devraient être espacés de plusieurs secondes en moyenne. Cependant, des retards peuvent accroître légèrement cette fréquence sur de courtes périodes.

Googlebot est conçu pour être exécuté simultanément sur plusieurs machines afin d'améliorer les performances et de s'adapter à la croissance du Web. En outre, pour limiter l'utilisation de la bande passante, nous exécutons de nombreux robots d'exploration sur des machines situées à proximité des sites qu'ils peuvent être amenés à explorer. Par conséquent, vos journaux peuvent indiquer différentes visites de google.com, toutes classées sous le user-agent Googlebot. Notre objectif est d'explorer autant de pages de votre site que possible à chaque visite, sans surcharger la bande passante de votre serveur. Si votre site rencontre des difficultés pour répondre aux demandes d'exploration de Google, vous pouvez demander une modification de la vitesse d'exploration.

En règle générale, Googlebot effectue l'exploration via HTTP/1.1. Toutefois, depuis novembre 2020, le protocole HTTP/2 peut être utilisé pour les sites qui peuvent en bénéficier, dans la mesure où ils acceptent ce protocole. Cela contribue à économiser les ressources informatiques (par exemple, le processeur et la mémoire RAM) pour les sites concernés et pour Googlebot, sans affecter leur indexation ni leur classement.

Pour désactiver l'exploration via HTTP/2, demandez au serveur qui héberge votre site de répondre avec un code d'état HTTP 421 lorsque Googlebot tente d'explorer votre site via ce protocole. En cas d'échec, vous pouvez envoyer un message à l'équipe Googlebot (notez toutefois que cette solution est temporaire).

Comment fonctionne la recherche Google ?

La recherche Google fonctionne en trois étapes : 

  1. Exploration : Google recherche constamment les nouvelles pages afin de les ajouter à la liste des pages connues. D'autres pages sont découvertes lorsque nous suivons un lien depuis une page connue vers une nouvelle page ou d'autres pages lorsque vous envoyez votre sitemap à explorer
  2. Indexation : Lorsque Google découvre une nouvelle URL, il peut l'explorer pour en savoir plus. Toutefois, Googlebot n'explore pas toutes les pages. Certaines pages peuvent être rendues indisponible pour exploration par le propriétaire du site (robots.txt) .. 
  3. Diffusion des résultats de recherche : Lorsqu'un internaute saisit une requête, Google recherchent parmi les pages indexées celles qui correspondent à la requète et renvoit les résultats qu'il estime être les plus pertinents. 
  4. Source : Support Google

Articles en relation

Agence Joomla

Téléphone : 0672271069

Email : contact@sylvie-ceci.info

Lun Vend 8h00 18h00

Liens utiles