Apprendre à Googler

Googler est devenu un mot commun, on ne sait pas quelque chose et on cherche la réponse sur Google. Mais pour avoir une réponse précise à une question pointue il faut apprendre à interroger les moteurs de recherche, ça évite beaucoup de perte de temps et de frustration.

L’index de Google

Avant de chercher il faut comprendre comment l’information est classée.

Le moteur de recherche parcourt internet avec des robots (crawler) qui  enregistrent tout le texte et le code HTML qui le structure (un mot dans le titre n’a pas le même poids qu’un mot dans le paragraphe globalement). Tous les mots vides sont supprimés (le, la , de…) ils prennent de l’espace inutilement. Les pages mises à jour régulièrement sont revisitées plus fréquemment.

À partir de ces informations le moteur crée un index inversé qui associe des requêtes à des pages internet classées en fonction de leur pertinence pour donner la meilleure réponse à cette requête. Cet index est constamment remis à jour, c’est la force de Google car il permet de donner une réponse instantanée à une requête. Quand Google complète automatiquement notre requête au fur et à mesure qu’on la tape c’est que la question a déjà été posée et que la réponse est prête. Pour une question nouvelle l’algorithme fait un calcul rapide et donne une réponse en interrogeant le premier index.

Donc pour la recherche « Chertsey »  des documents sont déjà classés par pertinence (poids sémantique des mots de la page, réputation du site, réponse détaillée); il y a 4.5 millions de réponses classées par Google selon leur pertinence.

Le fonctionnement exact de l’algorithme est un secret bien gardé mais l’intérêt de Google pour l’intelligence artificielle ne laisse aucun doute, le moteur répondra de mieux en mieux à une question précise.

Sémantique: pour aider les robots à interpréter un document le webmaster doit utiliser les balises appropriées pour marquer les mots-clefs qu’il veut mettre en valeur et structurer la définition qu’il en fait.

Faire une recherche

IconeTout d’abord il faut se rappeler que le moteur ne s’occupe pas des mots vides, il ne sert donc à rien de les inclure dans la requête à moins de chercher une expression exacte (nous verrons comment). Les accents et les majuscules ne sont pas pris en compte non plus.

Pour affiner une recherche on se sert de la théorie des ensembles et des opérateurs booléens.

L’opérateur AND

Si je cherche Histoire Chertsey (68.000 résultats) le moteur de recherche va chercher les pages où il trouvera les mots Histoire ET Chertsey. Il favorisera celles où ces mots ont un fort poids sémantique et sont proches l’un de l’autre et classera ses réponses avec son algorithme. Avec 3 mots dans la recherche le nombre de résultats diminue automatiquement. Si on ne précise pas d’opérateur le moteur utilise AND par défaut entre les mots. C’est la façon dont tout le monde google.

Donc chaque fois qu’on ajoute un mot à notre recherche le nombre de résultats diminue car tous les mots doivent être sur la page.

L’opérateur OR

Si je cherche Histoire OR Chertsey je vais avoir beaucoup plus de réponses, il suffit qu’un des 2 mots soit sur une page. L’algorithme de Google cherche la meilleure réponse mais c’est moins ciblé. Ça permet d’élargir sa recherche en découvrant de nouvelles pistes.

L’opérateur –

Si je cherche Chertsey -Histoire j’aurai les pages sur Chertsey sauf celles qui parlent d’histoire. Moins de réponses. C’est pratique si notre recherche recoupe un sujet qui ne nous intéresse pas. Si une recherche sur Chertsey renvoie trop de résultats concernant Chertsey en Angleterre je peux les filtrer.

Les guillemets

Si je cherche “Histoire de Chertsey” ça signifie que je ne cherche que l’expression exacte (2.470 résultats).

La recherche “Histoire Chertsey” ne donne plus que 7 résultats.

Les autres opérateurs

Si je cherche Chertsey 1850..1900 le moteur se concentre sur cette plage de dates et répond précisément. L’opérateur .. (2 points) permet de définir une plage de recherche, fourchette de prix, dates, n’importe quels chiffres. Les opérateurs peuvent se combiner, Histoire Chertsey -1800..1900 élimine les pages traitant de cette époque; “Histoire Chertsey” -montrealbb.ca élimine les pages de ce site.

L’astérisque * est un joker qu’on utilise pour remplacer des lettres, il est très utile. Si je cherche Saint * Chertsey je vais trouver une page avec la réponse à ma question, soit Saint-Théodore de Chertsey. Si je ne suis pas sûr de l’orthographe: t*odore?

Bien sûr toutes les opérations arithmétiques fonctionnent. Il y a plus de 30 opérateurs pour interroger Google dont certains très spécialisés. Si je cherche site:montrealbb.ca j’aurai la liste de toutes les pages du site qui sont dans l’index de Google.

define:booléen me donne une définition du mot booléen.

La recherche avancée de Google permet d’utiliser simplement tous ces opérateurs, c’est très pratique pour une recherche sérieuse. Il y a aussi d’autres moteurs de recherche, certains spécialisés dans un domaine particulier.

Les résultats de recherche

Les résultats de recherche dépendent de l’index de Google. Certaines requêtes retournent beaucoup de résultats, d’autres peu, mais Google n’invente rien, il retourne le résultat d’un calcul sur les données collectées par ses robots sur internet.

Par exemple depuis quelques mois que je rédige des chroniques sur Chertsey mon site commence à être indexé dans des recherches sur Chertsey en association avec tous les mots qui sont présents sur ses pages. Certains mots que j’ai mis en évidence ressortent comme je le voulais mais d’autres associations inattendues se font avec d’autres mots et comme il y a très peu de publications à Chertsey mes pages ont devancé les autres car elles sont directement ciblées sur Chertsey, les autres résultats sont toujours moins pertinents. Encore une fois Google n’invente rien il essaie de répondre de son mieux à notre question avec les informations de ses index.

Un des articles qui amène beaucoup de visiteurs sur ce site s’appelle « Pour du ski de fond à Chertsey ». La recherche « ski fond chertsey » donne 93.000 résultats. Il y a donc 93.000 pages où on trouve ces 3 mots mais ma page est la seule où ils sont mis en évidence sémantiquement et la page est logiquement classée en première place.


IconeIl est évident que plus une requête retourne de résultats moins on a de chance de trouver ce qu’on cherche, même si Google fait de son mieux pour nous aider. Utiliser plusieurs mots aide à raffiner la recherche mais en utilisant les outils on peut aller encore plus loin. On entend souvent dire que c’est difficile de chercher sur Google mais si on essaie de se servir d’une machine sans lire le mode d’emploi on peut difficilement se plaindre.

Informations complémentaires

J’explique dans l’article « Si j’avais une librairie à Chertsey » les techniques employées par les webmasters pour que leurs pages web soient bien indexées par Google et les autres moteurs de recherche.

Commentez cet article