vendredi 16 août 2013

Langage technique : les metas, le "robots.txt" et le référencement naturel


Comment interdire aux robots l'accès à certains
dossiers ou fichiers : noindex et robots.txt

A première vue, on n'y pense pas - mais pour un bon référencement, il est nécessaire de décider, quelles pages doivent apparaître dans les moteurs de recherche ou non. Car retrouver certaines pages de notre site sur les premières positions peut déranger le référencement naturel des pages qui sont vraiment importantes.

Nous nous référons, par exemple, à des pages qui n'intéressent l'internaute qu'au moment où il a décidé d'acheter chez nous ou, au moins, d'entamer une relation plus ou moins professionnelle avec notre site. Lorsqu'un internaute clique sur une position dans Google, il attend une page d'accueil ou, alternativement, une page d'information très claire sur le sujet qu'il cherche. Si, au contraire, il tombe sur une page de détails sur une marchandise ou d'un service sans, d'abord, connaître le produit ou sur une page de "contact" ou de prix ou, à l'extrême, du paiement, il ne se sent pas à la bonne place - et quitte le site.

Mais ce problème ne concerne pas seulement l'internaute. Au cas où un robot tombe sur plusieurs pages de ce style - c'est-à-dire des pages sans informations concrètes - il risque également de quitter le site, et notre référencement naturel en souffre.

Comment faire, alors, pour que les robots comprennent, quelles pages ils sont censés référencer ou non ? - La réponse est simple car prévue par les créateur du HTML ou xhtml et leur langage technique. La solution de base se trouve dans les balises "meta" dans le head de notre document ou, plus exactement, dans

L'attribut "index" représente la demande aux robots de bien vouloir référencer la page - de "l'indexer". Si, par contre, nous souhaitons qu'elle ne soit pas référencée, il suffit de remplacer "index" par noindex - et le tour est joué.

Une possibilité plus sophistiquée - on s'en sert dans les cas où le site contient un nombre assez élevé des pages, voir des dossiers entiers, qui sont interdits aux robots - de communiquer aux robots les noms des pages qu'ils doivent référencer consiste dans un fichier "robots.txt", c'est-à-dire un simple fichier texte (.txt) que nous chargeons au niveau source de notre site - donc directement sur
http://www.monsite.com/robots.txt

Dans ce fichier "robots.txt", nous indiquons d'abord les pages que, en général, doivent être visitées par les robots, c'est-à-dire le site entier, pour ajouter les exceptions plus tard :
# Robots.txt file for http://www.monsite.com

Ensuite, nous communiquons aux robots que nous acceptons toute sorte de visite de la part des moteurs et décidons du rythme dans lequel nous souhaitons être visités :
User-agent: *
Crawl-delay: 14

Soit dit à part - si nous ne disposons pas d'un site qui est mis à jour tout le temps, il vaut mieux ne pas "ennuyer" les robots et se contenter d'une visite tous les 14 jours, c'est-à-dire que nous indiquons
Crawl-delay: 14

Finalement, si nous disposons d'un sitemap (on en parlera un autre jour), nous ajoutons encore son adresse qui, par principe, correspond à la source du site
Sitemap: http://www.monsite.com/sitemap.xml

Lorsque, maintenant, nous ne souhaitons pas que nos pages soient visitées - ceci est possible pour, par exemple, un site qui ne concerne qu'un groupe de personnes bien défini - nous ajoutons
# Robots.txt file for http://www.monsite.com
User-agent: *
Disallow: /
Crawl-delay: 14
Sitemap: http://www.monsite.com/sitemap.xml

Au cas où, par contre, nous ne voulons barrer que le chemin vers certains dossiers, nous les indiquons aux robots :
# Robots.txt file for http://www.monsite.com

User-agent: *
Disallow: /bureau/contact/
Crawl-delay: 14
Sitemap: http://www.monsite.com/sitemap.xml

Dans ce cas, tous les fichiers du dossier "http://www.monsite.com/bureau/contact" sont interdits aux robots. Mais si nous ne voulons fermer que certaines pages, le "robots.txt" fournit carrément la liste des "terres interdites" :
User-agent: *
Disallow: /bureau/contact/contact-client.html
Disallow: /bureau/contact/contact-interne.html
Crawl-delay: 14
Sitemap: http://www.monsite.com/sitemap.xml
Copyright - Texte : Doris Kneller - Photo d'arrière-plan : Doris Kneller 


Aucun commentaire:

Enregistrer un commentaire