Comment
interdire aux robots l'accès à certains
dossiers ou fichiers : noindex et robots.txt
dossiers ou fichiers : noindex et robots.txt
A première
vue, on n'y pense pas - mais pour un bon référencement, il est nécessaire de décider,
quelles pages doivent apparaître dans les moteurs de recherche ou non. Car
retrouver certaines pages de notre site sur les premières positions peut
déranger le référencement naturel des pages qui sont vraiment importantes.
Nous nous
référons, par exemple, à des pages qui n'intéressent l'internaute qu'au moment
où il a décidé d'acheter chez nous ou, au moins, d'entamer une relation plus ou
moins professionnelle avec notre site. Lorsqu'un internaute clique sur une
position dans Google, il attend une page d'accueil ou, alternativement, une
page d'information très claire sur le sujet qu'il cherche. Si, au contraire, il
tombe sur une page de détails sur une marchandise ou d'un service sans, d'abord,
connaître le produit ou sur une page de "contact" ou de prix ou, à
l'extrême, du paiement, il ne se sent pas à la bonne place - et quitte le site.
Mais ce
problème ne concerne pas seulement l'internaute. Au cas où un robot tombe sur
plusieurs pages de ce style - c'est-à-dire des pages sans informations
concrètes - il risque également de quitter le site, et notre référencement naturel
en souffre.
Comment
faire, alors, pour que les robots comprennent, quelles pages ils sont censés
référencer ou non ? - La réponse est simple car prévue par les
créateur du HTML ou xhtml et leur langage technique. La solution de base se trouve dans les balises
"meta" dans le head de notre document ou, plus exactement,
dans
L'attribut
"index" représente la demande aux robots de bien vouloir référencer la
page - de "l'indexer". Si, par contre, nous souhaitons qu'elle ne
soit pas référencée, il suffit de remplacer "index" par noindex -
et le tour est joué.
Une
possibilité plus sophistiquée - on s'en sert dans les cas où le site contient
un nombre assez élevé des pages, voir des dossiers entiers, qui sont interdits
aux robots - de communiquer aux robots les noms des pages qu'ils doivent
référencer consiste dans un fichier "robots.txt", c'est-à-dire un
simple fichier texte (.txt) que nous chargeons au niveau source de notre site -
donc directement sur
http://www.monsite.com/robots.txt
Dans ce
fichier "robots.txt", nous indiquons d'abord les pages que, en
général, doivent être visitées par les robots, c'est-à-dire le site entier,
pour ajouter les exceptions plus tard :
# Robots.txt file for http://www.monsite.com
Ensuite,
nous communiquons aux robots que nous acceptons toute sorte de visite de la
part des moteurs et décidons du rythme dans lequel nous souhaitons être visités
:
User-agent:
*
Crawl-delay: 14
Soit dit à
part - si nous ne disposons pas d'un site qui est mis à jour tout le temps, il
vaut mieux ne pas "ennuyer" les robots et se contenter d'une visite
tous les 14 jours, c'est-à-dire que nous indiquons
Crawl-delay:
14
Finalement,
si nous disposons d'un sitemap (on en parlera un autre jour), nous
ajoutons encore son adresse qui, par principe, correspond à la source du site
Sitemap:
http://www.monsite.com/sitemap.xml
Lorsque,
maintenant, nous ne souhaitons pas que nos pages soient visitées - ceci est
possible pour, par exemple, un site qui ne concerne qu'un groupe de personnes
bien défini - nous ajoutons
# Robots.txt file for http://www.monsite.com
User-agent: *
Disallow: /
Crawl-delay: 14
Sitemap:
http://www.monsite.com/sitemap.xml
Au cas où,
par contre, nous ne voulons barrer que le chemin vers certains dossiers, nous les
indiquons aux robots :
# Robots.txt file for http://www.monsite.com
User-agent: *
Disallow: /bureau/contact/
Crawl-delay: 14
Sitemap:
http://www.monsite.com/sitemap.xml
Dans ce
cas, tous les fichiers du dossier
"http://www.monsite.com/bureau/contact" sont interdits aux robots. Mais
si nous ne voulons fermer que certaines pages, le "robots.txt"
fournit carrément la liste des "terres interdites" :
User-agent: *
Disallow: /bureau/contact/contact-client.htmlDisallow: /bureau/contact/contact-interne.html
Crawl-delay: 14
Sitemap: http://www.monsite.com/sitemap.xml
Copyright -
Texte : Doris Kneller - Photo d'arrière-plan : Doris Kneller