Accueil > referencement > Comment les moteurs de recherches fonctionnent-ils ?

Comment les moteurs de recherches fonctionnent-ils ?

vendredi 15 septembre 2006

Comment les moteurs de recherche de Web fonctionnent-ils ?

Les moteurs de recherche sont la clef pour trouver l’information spécifique sur la vaste étendue du World Wide Web. Sans moteurs de recherche sophistiqués, il serait pratiquement impossible de localiser n’importe quoi sur le Web sans connaître une URL spécifique.

Mais savez-vous comment les moteurs de recherche fonctionnent ? Et savez-vous ce qui rend quelques moteurs de recherche plus efficaces que d’autres ?

Quand les gens emploient le Search Engine de limite par rapport au Web, ils se réfèrent habituellement aux formes réelles de recherche qui recherchent par des bases de données des documents de HTML, au commencement recueillies par un robot.

Il y a fondamentalement trois types de moteurs de recherche :

- Ceux qui sont actionnés par des robots (appelés les chenilles, fourmis ou araignées) ;

- et ceux qui sont actionnées par des soumissions humaines ;

- et d’autres qui sont un hybride des deux.

-  Les moteurs de recherche chenille-basés sont ceux qui emploient les agents automatisés de logiciel (appelés les chenilles) qui visite un site Web, lisent l’information sur l’emplacement réel, lisent les étiquettes du méta de l’emplacement et suivent également les liens que l’emplacement relie à effectuer l’indexation sur tous les sites Web liés. La chenille renvoie toute cette information de nouveau à un dépôt central, où les données sont classées. La chenille reviendra périodiquement aux emplacements au contrôle pour n’importe quelle information qui a changé. La fréquence avec laquelle ceci se produit est déterminée par les administrateurs du moteur de recherches.
-  Les moteurs de recherche humain-actionnés se fondent sur des humains pour soumettre l’information qui est plus tard classée et cataloguée. Seulement l’information qui est soumise est mise dans l’index. Limites principales aux moteurs de recherche de Web d’arrangement, piège d’araignée. Une condition des sites Web dynamiques dans lesquels l’araignée d’un moteur de recherche devient emprisonné dans une boucle sans fin de code.

Quelques définitions

moteur de recherche


Un programme qui recherche des documents des mots-clés indiqués et renvoie une liste des documents où les mots-clés ont été trouvés.

balise méta


Une étiquette spéciale de HTML qui fournit des informations au sujet d’une page Web.

Lien profond

Un hyperlien sur une page Web ou dans les résultats d’une question de Search Engine à une page sur un site Web autre que la page d’accueil de l’emplacement.

Robot

Un programme qui fonctionne automatiquement sans intervention humaine. Dans les deux cas, quand vous questionnez un moteur de recherche pour localiser l’information, vous recherchez réellement par l’index que le moteur de recherche a créé, vous ne recherchez pas réellement sur le Web. Ces index sont les bases de données géantes d’information qui sont rassemblées et stockées et plus tard recherchées. Ceci explique pourquoi parfois une recherche sur un moteur de recherche commercial, tel que Yahoo ! ou Google, renverra les résultats qui sont, en fait, des liens morts. Depuis la recherche, les résultats sont basés sur l’index, si l’index n’a pas été mis à jour depuis qu’une page Web est devenue inadmissible, les moteurs de recherches considèrent la page comme immobile, demeure un lien actif quoiqu’elle ne soit plus. Ce lien restera de cette façon jusqu’à ce que l’index soit mis à jour.

Ainsi pourquoi la même recherche sur différents moteurs de recherche produira-t-elle différents résultats ? Une partie de la réponse à cette question est parce que tous les index ne vont pas être exactement identiques. Elle dépend de ce que les araignées trouvent ou de ce que les humains ont soumis. Mais plus important, chaque moteur de recherche n’emploie pas le même algorithme pour rechercher par les index.

C’est l’algorithme qu’emploient les moteurs de recherche pour déterminer la pertinence d’information dans l’index avec ce que l’utilisateur recherche.

Un des éléments pour lesquels un algorithme de moteur de recherche balaye est la fréquence et l’endroit des mots-clés sur une page Web. Ceux avec une fréquence plus élevée sont typiquement considérés plus appropriés. Mais la technologie du moteur de recherche devient plus sophistiqué dans sa tentative de décourager ce qui est connu comme mot-clé bourrant, ou spamdexing.

Un autre élément commun que les algorithmes analysent est la manière dont les pages se lient à d’autres pages en Web. En analysant comment les pages sont reliées entre elles, les moteurs « mettent en boîte » les deux pages, déterminent le contenu d’une page (si les mots-clés des pages liées sont semblables aux mots-clés à la page originale) et si cette page est considérée comme « importante » et mérite une poussée dans le rang. Pendant que la technologie devient de plus en plus sophistiquée pour ignorer le mot-clé bourrant, elle devient également connues des maîtres du Web qui établissent des liens artificiels dans leurs emplacements afin d’établir un rang artificiel.

- Le premier outil pour rechercher l’Internet, créé en 1990, s’est appelé le « archie  ». Il a téléchargé des listes d’annuaire de tous les dossiers localisés sur les serveurs publics d’Anonymous FTP ; créé une base de données de recherche de noms de fichier.

- Un an après « Gopher  » a été créé. Il a classé les documents plats des textes.

- Le « Veronica  » et le « Jughead » sont apparus pour rechercher les systèmes de l’index du Gopher.

- Le premier moteur de recherche réel de Web a été développé par Matthew Gray en 1993 et s’est appelé « Wandex ».

Dans la même rubrique


Contact |