vendredi 16 août 2013

Langage technique : les metas, le "robots.txt" et le référencement naturel


Comment interdire aux robots l'accès à certains
dossiers ou fichiers : noindex et robots.txt

A première vue, on n'y pense pas - mais pour un bon référencement, il est nécessaire de décider, quelles pages doivent apparaître dans les moteurs de recherche ou non. Car retrouver certaines pages de notre site sur les premières positions peut déranger le référencement naturel des pages qui sont vraiment importantes.

Nous nous référons, par exemple, à des pages qui n'intéressent l'internaute qu'au moment où il a décidé d'acheter chez nous ou, au moins, d'entamer une relation plus ou moins professionnelle avec notre site. Lorsqu'un internaute clique sur une position dans Google, il attend une page d'accueil ou, alternativement, une page d'information très claire sur le sujet qu'il cherche. Si, au contraire, il tombe sur une page de détails sur une marchandise ou d'un service sans, d'abord, connaître le produit ou sur une page de "contact" ou de prix ou, à l'extrême, du paiement, il ne se sent pas à la bonne place - et quitte le site.

Mais ce problème ne concerne pas seulement l'internaute. Au cas où un robot tombe sur plusieurs pages de ce style - c'est-à-dire des pages sans informations concrètes - il risque également de quitter le site, et notre référencement naturel en souffre.

Comment faire, alors, pour que les robots comprennent, quelles pages ils sont censés référencer ou non ? - La réponse est simple car prévue par les créateur du HTML ou xhtml et leur langage technique. La solution de base se trouve dans les balises "meta" dans le head de notre document ou, plus exactement, dans

L'attribut "index" représente la demande aux robots de bien vouloir référencer la page - de "l'indexer". Si, par contre, nous souhaitons qu'elle ne soit pas référencée, il suffit de remplacer "index" par noindex - et le tour est joué.

Une possibilité plus sophistiquée - on s'en sert dans les cas où le site contient un nombre assez élevé des pages, voir des dossiers entiers, qui sont interdits aux robots - de communiquer aux robots les noms des pages qu'ils doivent référencer consiste dans un fichier "robots.txt", c'est-à-dire un simple fichier texte (.txt) que nous chargeons au niveau source de notre site - donc directement sur
http://www.monsite.com/robots.txt

Dans ce fichier "robots.txt", nous indiquons d'abord les pages que, en général, doivent être visitées par les robots, c'est-à-dire le site entier, pour ajouter les exceptions plus tard :
# Robots.txt file for http://www.monsite.com

Ensuite, nous communiquons aux robots que nous acceptons toute sorte de visite de la part des moteurs et décidons du rythme dans lequel nous souhaitons être visités :
User-agent: *
Crawl-delay: 14

Soit dit à part - si nous ne disposons pas d'un site qui est mis à jour tout le temps, il vaut mieux ne pas "ennuyer" les robots et se contenter d'une visite tous les 14 jours, c'est-à-dire que nous indiquons
Crawl-delay: 14

Finalement, si nous disposons d'un sitemap (on en parlera un autre jour), nous ajoutons encore son adresse qui, par principe, correspond à la source du site
Sitemap: http://www.monsite.com/sitemap.xml

Lorsque, maintenant, nous ne souhaitons pas que nos pages soient visitées - ceci est possible pour, par exemple, un site qui ne concerne qu'un groupe de personnes bien défini - nous ajoutons
# Robots.txt file for http://www.monsite.com
User-agent: *
Disallow: /
Crawl-delay: 14
Sitemap: http://www.monsite.com/sitemap.xml

Au cas où, par contre, nous ne voulons barrer que le chemin vers certains dossiers, nous les indiquons aux robots :
# Robots.txt file for http://www.monsite.com

User-agent: *
Disallow: /bureau/contact/
Crawl-delay: 14
Sitemap: http://www.monsite.com/sitemap.xml

Dans ce cas, tous les fichiers du dossier "http://www.monsite.com/bureau/contact" sont interdits aux robots. Mais si nous ne voulons fermer que certaines pages, le "robots.txt" fournit carrément la liste des "terres interdites" :
User-agent: *
Disallow: /bureau/contact/contact-client.html
Disallow: /bureau/contact/contact-interne.html
Crawl-delay: 14
Sitemap: http://www.monsite.com/sitemap.xml
Copyright - Texte : Doris Kneller - Photo d'arrière-plan : Doris Kneller 


vendredi 9 août 2013

Le référenceur des sites multilingues et le référencement naturel



Sites multilingues : le référencement naturel exige-t-il la création de plusieurs sites unilingues ?

Tout le monde ne parle pas français ni anglais ni... Et pourtant, l'Internet est un média international. Quoi de plus logique que de vendre nos produits, grâce à Internet, aux internautes partout dans le monde ?

Or, la barrière des langues existe. Bien qu'Internet rapproche le monde, ce monde n'arrive toujours pas à communiquer dans une seule et même langue. Pour s'adresser à un public international, nous avons donc besoin d'un site multilingue.

Toutefois, que le référencement naturel pense-t-il des sites multilingues ? - On s'en doute que ses règles ne sont pas opposées à de tels sites, mais...

Le "mais" de base est le fait que les moteurs de recherche, notamment Google, travaillent séparément dans chaque pays. Ce qui signifie que Google France ne parle ni allemand ni anglais, que Google Allemagne ne parle pas espagnol etc. Il faut donc faire en sorte de s'adresser aux moteurs de chaque pays à leur tour. Si un site est bien référencé en France, cela ne veut pas dire qu'il est visible en Angleterre, aux États-Unis ou en Allemagne.

Si vous envisagez un site multilingue, vous avez alors besoin non seulement d'un traducteur, mais aussi d'un référenceur pour chaque langue - ou, bien sûr, un référenceur multilingue. Il doit faire en sorte que les textes soient rédigés en prenant compte des mots clés de la langue concernée, que les bons mots clés figurent au bon endroit dans la structure des pages et, bien sûr, veiller à ce que chaque version reçoive des liens d'autres sites rédigés dans sa langue. Il ne sert donc à rien, ou presque, d'avoir des liens en provenance de sites français si on veut booster la version anglaise.

Ainsi, du point de vue du référencement naturel, chaque version doit être considérée comme un site à part. Pour présenter ces différentes versions, nous avons - techniquement - deux possibilités : plusieurs sites ou un seul site avec plusieurs versions. Quelle solution est la meilleure pour être bien référencé ?

Sans doute, le plus facile et le plus sûr - pour le référencement - est de constituer un site pour chaque langue avec l'extension .fr pour la France, .de pour l'Allemagne et .com pour les pays anglophones. Il va de soi que nous adaptons aussi les noms des sites : "musique-pour-les-jeunes.fr" devient "music-for-young-people.com" ou "musik-fur-junge-leute.de".

S'il nous manque les moyens de payer plusieurs hébergements, nous pouvons nous débrouiller avec un seul site. Mais attention - une page doit toujours contenir une seule langue. Les robots de Google sont capables de comprendre plusieurs langues sur un seul site, mais ils ne savent accepter qu'une seule langue par page.

Dans le cas d'un seul site pour plusieurs versions linguistiques, il se pose la question de l'appel des différentes versions. Beaucoup de Webmasters misent toujours sur un petit script dans le header des pages (l'espace où on trouve à priori les informations dirigées aux navigateurs et moteurs de recherche) qui lit le code du pays, c'est-à-dire le numéro IP, de l'internaute et le dirige automatiquement vers la version dans la langue adéquate...

Pour l'internaute, ceci fonctionne sans problème. Pour les robots des moteurs de recherche, cela fonctionne pour la version anglaise. Car Google, le plus important de nos moteurs, est situé aux États-Unis, ce qui signifie que ses robots, peut importe pour quel pays ils travaillent, naviguent toujours avec un IP américain. Le script les reconnaîtrait alors toujours comme issu d'un pays anglophone et les dirige vers la version anglaise. Ils ne consulteraient donc jamais les autres versions.

Reste alors la possibilité d'une page d'accueil avec des boutons pour l'appel de plusieurs versions. Or, comme nous avons dit plus haut, les moteurs de recherche n'acceptent pas une page en plusieurs langues - notre page d'accueil doit donc obligatoirement être rédigée dans une seule langue, ce qui signifie que les internautes des autres pays sont obligés de passer par une page avec une langue qui n'est pas la leur...

Une page d'accueil qui ne contient que des boutons pour les différentes versions n'est pas une solution non plus : car n'oublions pas qu'un site ne serait jamais bien référencé si les moteurs n'acceptent pas la page d'accueil. Et pour être accepté, elle doit contenir un texte qui contient les mots clés principaux du site... nous tournons donc en ronde.

Par conséquent, la seule solution logique - bien que Google permette plusieurs versions linguistiques dans un seul site - est de créer un site pour chaque langue et de le référencer dans la langue concernée.

Copyright - Texte : Doris Kneller - Photo d'arrière-plan : Doris Kneller 

jeudi 8 août 2013

Le référencement naturel et le contenu d'un site




La rédaction du contenu d'un site optimisé pour les internautes,
les robots de Google et le référencement naturel

Selon les statistiques, nous devons partir du principe que 50 à 60 pour cent du trafic sur notre site parvient des moteurs de recherche et, notamment, de Google. Les autres 40 à 50 pour cent sont des internautes qui nous gardent dans leurs favoris, des gens qui nous trouvent par un lien sur un autre site ou, toujours, le "bouche à oreille".

Autrement dit, notre site doit "plaire" autant aux internautes qu'aux robots de Google - peut-être même un peu plus aux robots. L'optimal, toutefois, serait de créer un site qui "plait" aux visiteurs humains et, en même temps, aux visiteurs virtuels.

Un site, grosse modo, consiste dans le graphisme - la présentation optique du site - et dans le contenu. Le contenu d'un site, de son côté, peut consister en images de toute sorte, flash, vidéos et texte écrit. A nos visiteurs humains, le graphisme transmet la fameuse "première impression" - c'est-à-dire que, si le graphisme ne les accroche pas, ils ne restent pas sur le site. Ce n'est que plus tard que l'internaute s'intéresse au contenu du site et à la question, si ce contenu peut lui fournir les informations qu'il attend.

Les robots de Google et d'autres moteurs de recherche n'ont pas besoin de "première impression". Ils ont "l'ordre" de visiter un site et ne s'interrogent pas s'il leur plait ou non. Ainsi, il est évidemment important de soigner la présentation d'un site - un internaute qui ne se sent pas bien sur notre site ne nous place pas dans ses favoris, ne nous donne pas un lien à partir de son blog ou site, ne parle pas de nous à ses copains et, bien sûr, n'achète rien -, mais du point de vue du référencement naturel, ce n'est que le contenu qui compte.

On peut dire que Google et les autres moteurs de recherche sont restés un peu "vieux jeu". Car au début de l'ère d'Internet, les gens ne se branchaient que pour recevoir des informations, d'abord scientifiques (le Net a été inventé plus ou moins par des universitaires), plus tard plus générales. Google et ses collègues insistent toujours sur cette première idée du Web en tant que transmetteur d'informations.

Ainsi, il est logique que les robots ne cherchent que des informations. Et comme, jusqu'à lors, leur technique ne prend pas encore en compte un renseignement transmis par une image (Flash est considéré comme image) ou une vidéo, ce qui nous reste pour "séduire" les robots, c'est le texte.

Autrement dit, tout ce qui compte, du point de vue du référencement naturel, c'est le texte sur les pages de nos sites. A partir de cette information, tout devient simple. Car le rédacteur du texte n'a qu'à se tenir à la logique pour être en mesure de rédiger un texte apte à booster le référencement de son site.

Dans le référencement, on parle beaucoup de "mots clés". Il y a effectivement encore des moteurs qui s'intéressent aux mots clés inscrits dans les balises meta. Google, par contre, ne leur porte pas beaucoup d'intérêt. Ses robots "pêchent" leur mots clés plutôt dans le nom du domaine, dans les titres (la balise "titre" des meta ainsi que les titres des paragraphes) et, bien sûr, dans le texte. Ils partent du principe que le ou les sujets du site déterminent automatiquement les mots ou expressions les plus souvent utilisés.

Ceci est logique : un site qui veut vendre des chaussures mentionne, dans ses textes, souvent le mot "chaussures" ou "bottes" etc. - donc les mots clés les plus importants du site. Un site sur le référencement naturel, par contre, utilise souvent... "référencement naturel". Ainsi, les robots acceptent comme mots clés tout simplement les mots ou expressions qu'ils trouvent le plus souvent dans les textes. Si, en plus, ses mots ou expressions cadrent avec les titres et le nom du domaine, un grand pas vers un bon référencement est fait.

Mais attention, ce système invite à l'exagération. Toutefois - si un mot clé ou une expression est utilisé trop souvent, Google le considère comme spamming - ce qui est puni par la perte d'une bonne place dans ses pages. Pour arriver à un référencement correct, il suffit de rédiger un texte comme si on le rédigeait exclusivement pour un public humain : utiliser les expressions importantes, oui, mais sans exagérer - ce qui correspond à quelque 2% du texte consacré ou mots clés.

De cette manière, tout le monde sera content : les internautes puisqu'ils trouvent un texte bien écrit et bourré d'informations, les robots pour le nombre correct - assez, mais pas trop - de répétitions des mots clés.
Copyright - Texte : Doris Kneller - Photo d'arrière-plan : Doris Kneller

mercredi 7 août 2013

Le nom du domaine dans le
référencement naturel

Pour que le nom du domaine fournisse un maximum d'informations :
longueur du mot, underscore, tiret...

Beaucoup de bruit autour d'un petit tiret... Tout a commencé avec la possibilité d'utiliser jusqu'à 67 caractères dans le nom du domaine. Cette nouveauté a ouvert de grands horizons. Au lieu de placer dans le nom du domaine les mots: "Hotel Paris", on peut maintenant utiliser "Hôtel Paris près Tour Eiffel" ou même "Hôtel Paris près Tour Eiffel vue sur Seine".

L'avantage, du point de vue du référencement naturel, de rédiger un titre qui donne de plus d'informations possibles sur le contenu du site est évident. Nous l'avons déjà dit: un robot de moteur de recherche vit d'informations. Plus il trouve d'informations, plus il est heureux, plus il nous remercie en plaçant notre site sur une bonne position...

Enfin, un robot n'est pas un être humain. Mais il a été programmé par des êtres humains. Et comme ses programmeur, il cherche la simplicité. Ainsi, pour trouver les informations dont il a besoin, il regarde d'abord les endroits les plus évidents, c'est-à-dire, tout d'abord, le nom du domaine.

Si, par conséquent, le nom du domaine est apte à lui fournir déjà un maximum d'informations de base, nous gagnons beaucoup de points dès le début et nos chances d'être bien référencés augmentent énormément. Un nom du style "Hôtel Paris près Tour Eiffel vue sur Seine" comporte déjà quatre informations de base: "Hôtel", "Paris", "Tour Eiffel" et "Seine". Et avec la nouvelle possibilité de nous servir de 67 caractères (le .com ou .fr inclus), nous pouvons aller encore plus loin.

Mais là, la question du petit tiret se pose - ou, plutôt, la question de la présentation de ce titre. Nous pouvons évidemment utiliser "hotelparisprestoureiffelvuesurseine" - personne ne le nous interdit. Or, déjà les internautes auront des problèmes de compréhension... pour les robots, par contre, qui ont "avalé" un dictionnaire français et non l'intelligence pour réfléchir sur le secret d'un mot long qui ne figure pas dans le dictionnaire, c'est du pur "chinois". Il serait plus logique, si nous pouvions séparer les différents mots pour qu'ils deviennent compréhensibles aux robots. Mais nous savons très bien que des espaces dans les noms du domaine ne sont techniquement pas possibles.

La première solution que les Webmasters ont trouvée était le signe "underscore". Il a été introduit par Windows pour servir en tant que séparateur des mots dans son explorateur - à une époque où il n'a pas encore accepté les espaces. Quoi de plus logique, alors, que de l'appliquer aussi aux noms des sites.

Tout le monde était d'accord, même Google. Toutefois - un "bogue" s'est introduit dans le programme de Google. Un jour, il y a plusieurs années, Matt Cutts, un des chargés de communication chez Google, a avoué ce petit problème et annoncé aux Webmasters soulagés qu'il aurait été éliminé.

Malheureusement, on s'est réjoui trop tôt - bien plus tard, les tests ont montré que les robots n'étaient toujours pas capables d'accepter l'underscore en tant que séparateur. Si on choisissait donc le nom de domaine "hoteldeparis.fr" ou "hotel_de_paris.fr", le résultat était toujours le même: les robots n'ont rien compris. Ils ne comprenaient ni le mot "hôtel" ni le nom de la ville "Paris".

Au grand amusement des référenceurs, la discussion dure toujours. Google promet toujours d'éliminer le "bogue", et la pratique montre que, jusqu'à ce jour, rien n'est sûr. Mais, pour une fois, les référenceurs ont bien le droit de rire - puis que la solution a été trouvée il y a longtemps. Au lieu de se casser la tête sur l'efficacité de l'underscore, il suffit de se servir du simple "tiret". Car dans "hotel-de-paris.fr", les robots comprennent clairement "hôtel" et "Paris", ils ont leur information et toute la discussion sur l'underscore devient, tout simplement, vaine...
Copyright - Texte : Doris Kneller - Photo d'arrière-plan : Doris Kneller 

mardi 6 août 2013

Le référencement naturel : extension nouvelle
ou extension classique ?

Avant la publication d'un site : quelle extension choisir 
pour optimiser le référencement naturel


La publication d'un site commence, logiquement, avec le choix du nom du site. Et chaque nom du site a une extension. Avant de se décider pour une des extensions nombreuses (le temps où nous n'avions qu'à choisir entre .com et .fr sont révolus depuis longtemps), il faut se demander, quel impact elle aura sur le référencement naturel du site.

Depuis peu de temps, nous sommes confrontés à toute sorte d'extensions nouvelles. De grandes entreprises telles que la SNCF (.sncf), SFR (.sfr) ou autres MAIF (.maif) disposent entre-temps de leur propre extension. Ces inventions - qui coûtaient évidemment très cher à leurs propriétaires - ne sont pas à notre disposition. Nous pouvons par contre nous servir d'un des nombreuses nouvelles extensions qui sont ouvertes au "grand public".

La liste est énorme. Nous avons le choix entre d'extensions relativement neutres du style .home ou .web, mais il y a pleins d'extensions spécialisées comme .art, .shop ou .news.

En principe, nous sommes libres de choisir l'extension qui nous plait le plus, nous ne sommes restreints par aucune loi. Le point de vue du référencèrent, par contre, celui de notre emplacement dans Goggle et les autres moteurs, et - comme si souvent - bien différent.

D'abord la question, si nous avions peut-être un avantage à tirer en utilisant une des nouvelles extensions. Un .book ou .movie ne serait-il peut-être encore moins encombré qu'un .com, et Goggle aurait-il moins du mal à nous repérer ?... Bonne pensée - mais non. C'est plutôt le contraire.

C'est-à-dire - officiellement, Google ne fait aucune différence entre les extensions. Mais en pratique, il arrive que les robots ne savent pas quoi faire avec l'un ou l'autre extension et, tout simplement, laissent le site un peu "à côté" - ou, au moins, nous font perdre quelques-uns des fameux Google-points. Ce n'est par contre pas le cas, s'il s'agit d'une extension apte à leur fournir une information très claire - car c'est cela que cherchent les robots. Si, par exemple, votre site a été conçu pour promouvoir votre nouveau livre, il est idéal de lui donner l'extension .book. Ou si vous avez un hôtel, choisissez .hotel sans hésiter. Et .love aide au référencèrent lorsque vous publier un site de... 

Enfin. La règle est donc simple. Si vous trouvez une extension qui donne une information claire sur l'objectif de votre site, servez-vous-en. Votre référencement ne peut qu'en profiter. Si, par contre, l'extension ne correspond pas à cent pour cent au contenu du site, rabattez-vous plutôt sur les anciennes extensions du genre .com ou .fr. Il ne vaut, par exemple, pas la peine d'utiliser .art si votre site ne parle pas exclusivement d'oeuvres d'art ou .book, si vous parlez d'un livre juste dans un petit coin de votre page d'accueil.
Copyright - Texte : Doris Kneller - Photo d'arrière-plan : Doris Kneller