Le fichier robots.tx

Présentation

Cet article vous présente l’utilisation du fichier “robots.txt” en lien avec votre boutique.

Dans la page principale de votre boutique, vous trouverez une section “ROBOTS FILE”.

Cette section ne s’affiche que si vous avez déclaré votre propre nom de domaine.

photo1

 

Qu’est-ce qu’un fichier robots.txt?

C’est un fichier qui sert à indiquer aux robots des moteurs de rechercher (Google, Bing, Yahoo, etc) la manière de visiter votre site. Surtout les pages ou contenu dont vous ne souhaitez pas l’indexation et donc que les robots ne doivent pas visiter.

Ce fichier est un fichier .txt très simple. De manière standard, votre fichier robots.txt sera configuré comme suit:

User-Agent: *
Disallow: /product-price-grid
Disallow: /template-details

Disallow: /basket
Disallow: /account/register
Disallow: /account/login

“User-agent: *” signifie que les données s’appliquent à tous les robots.

“Disallow: /” précise au robot qu’il ne doit pas visiter ces pages sur le site.

/product-price-grid (le slug URL peut varier d’un site à l’autre) correspond au type de page “Grille de prix”.

Par exemple, cette page:

Capture d'écran 2016-03-29 à 17.38.50

 

 

/template-details (le slug URL peut varier d’un site à l’autre) correspond au type de page “Templates: Details”.

Par exemple, cette page:

Capture d'écran 2016-03-29 à 17.39.01

Pourquoi voudrais-je exclure certaines pages de l’indexation?

Les robots des moteurs de recherche ont un temps limité pour explorer votre site. Si un site a un contenu identique à plusieurs endroits, cela laisse moins de temps pour les pages de base.

Ce contenu identique peut être causé par des liens présents sur deux pages, ce qui va forcer le moteur de recherche à en choisir un plutôt que l’autre. Ce phénomène de lien en double entraînera deux pages plus faibles que s’il y avait juste une page de base.

Différents facteurs peuvent créer un contenu identique, par exemple:

Pages en double en raison de filtres
www et les versions non www
Pages générées dynamiquement

Donc, en utilisant le fichier robots.txt, on indique aux moteurs de recherche sur quel contenu concentrer leur temps.

Faire en sorte que tout contenu en double soit évité par les moteurs de recherche privilégie les pages importantes de votre site sur la page de résultats d’un moteur de recherche (SERP).

Modification de votre fichier robots.txt

Difficulté = facile, mais à utiliser avec prudence !

Vous pouvez ajouter, modifier ou supprimer des éléments du fichier robots.txt standard. Il suffit de modifier le fichier texte pour ajouter, modifier ou supprimer les urls cotées.

Vous devez créer une ligne distincte “Disallow” pour chaque slug URL que vous souhaitez exclure.

Meta “noindex ”

Difficulté = Intermédiaire mais à utiliser avec prudence !

ATTENTION:

Ajouter ceci uniquement à des pages spécifiques. Ne pas ajouter à la section “Header snippets” de la page principale de votre site.

En outre, vous pouvez utiliser le Meta “noindex”. Cette étiquette indique aux moteurs de recherche de ne pas indexer cette page. Cependant, idéalement, vous devriez utiliser le fichier robots.txt pour que tout soit définit dans un même emplacement.

Ci-dessous, un exemple d’ajout de la balise meta dans la section “Header Snippets” de la page dont vous ne souhaitez pas l’indexation:

Capture d'écran 2016-03-29 à 17.39.21

noindex = Ne plus afficher cette page dans les résultats de recherche et ne pas montrer de lien “En cache” dans les résultats de recherche.

nofollow = Ne pas suivre les liens sur cette page

Mais, mon site a déjà été indexé !

Si votre site a déjà été indexé et que vous souhaitez que certains éléments de votre site qui n’ont pas été indexés le soient, vous devez retirer tout contenu “disallow” de votre fichier robots.txt. Puis ajouter le Meta “noindex” aux pages que vous voulez ré-indexer.

Ceci permet aux moteurs de recherche d’explorer ces pages et de voir les tags “noindex, nofollow”. Une fois que Google a exploré votre site à nouveau, et ré-indexé les pages pertinentes, vous pouvez ajouter le contenu à rejeter dans le fichier robots.txt.