Une brève histoire de la recherche d’information sur Internet …

  Archives Categories

Une brève histoire de la recherche d’information sur Internet …

By

Episode 1 : Les annuaires

Les sources d’information de Synthesio sont sélectionnées individuellement par des êtres humains. A l’heure des grands moteurs de recherche s’appuyant sur des milliers de “robots”, ce choix peut paraître aberrant. En réalité, aucun outil de recherche ne peut se passer de l’intervention de l’homme, pas même Google qui emploie régulièrement des étudiants pour tester les résultats de son moteur de recherche. Depuis peu, Google propose également un nouvel algorithme de classement de ses résultats en sus du Page Rank qui a fait son succès : le Trust Rank. Or, celui-ci consiste ni plus ni moins en… une validation manuelle de la pertinence de certains sites !

En effet, Internet reposait à l’origine sur des annuaires qui, d’une manière similaire aux Pages Jaunes, sont des répertoires de sites classés par des êtres humains dans des catégories. Or, ces annuaires se contentent de donner les adresses des sites, mais ne permettent pas de rechercher par mot-clé dans le contenu des sites. C’est pourquoi l’arrivée des moteurs de recherche a entraîné la disparition de ces annuaires, trop lourds et trop coûteux à entretenir. Aujourd’hui, il ne subsiste plus que deux principaux annuaires :

  • Celui de Yahoo!, qui n’est plus vraiment maintenu à jour

Episode 2 : Les moteurs de recherche

Toutefois, si les moteurs de recherche traditionnels (Google, yahoo!, MSN, Ask et Exalead) ont balayé les annuaires, il permettent désormais de rechercher tout… mais aussi n’importe quoi. En particulier, ils trouvent leur limite dans le fait qu’ils ne permettent pas aux entreprises de limiter leurs recherches aux sources d’information pertinentes au regard de leurs problématiques, aboutissant ainsi à des résultats de recherche surchargés d’informations inutiles.

Conscient de ce problème et de l’insatisfaction croissante des utilisateurs, Google (encore lui) propose depuis un mois son Custom Search Engine (CSE) qui permet de réaliser un moteur de recherche personnalisé en saisissant l’ensemble des sites dans lesquels chercher. Cet outil puissant n’est toutefois pas encore adapté au monde de l’entreprise car il impose à l’utilisateur de créer manuellement son propre annuaire de sites. De plus, il ne règle pas la problématique des informations non pertinentes : une recherche dans un CSE aboutit encore trop souvent sur un forum, une page de publicité, voire bien pire…

Enfin, même si des progrès ont été faits, les moteurs de recherche traditionnels ne prétendent pas encore à l’indexation des informations en temps réel, cruciale quand il s’agit d’actualité. Ainsi, la mise à jour de l’index de Google (la liste des pages et leur positionnement) a lieu au mieux quotidiennement pour les sites qui changent le plus : cela constitue toutefois déjà un grand progrès comparé à l’époque pas si lointaine où la Google Dance avait lieu une fois par mois seulement !

Episode 3 : Les agrégateurs

Si les annuaires comme les moteurs de recherche sont imparfaits, n’existe-t’il pas une troisième voie ? Bien sûr, il s’agit des agrégateurs ! A l’image de Synthesio, un agrégateur repose sur une liste de sources d’informations qualifiées humainement, comme pour un annuaire. Toutefois, ces sources sont actualisées régulièrement, permettant ainsi d’éviter le principal écueil des annuaires : l’obsolescence. Mais ce n’est pas tout : ces sources sont surveillées en permanence afin d’en extraire le contenu pertinent, et exclusivement celui-là.

De cette idée sont nés les premiers moteurs de recherche d’actualités, Yahoo News tout d’abord, suivi par Google News et MSN Newsbot. Généralistes par nature, ceux-ci ont constitué des outils formidables jusqu’à l’apparition d’un concept qui a une nouvelle fois bouleversé la donne.

Episode 4 : Les blogs et la syndication

Si vous lisez ces lignes, vous savez certainement ce qu’est un blog : il s’agit d’un mini site web personnel tenu par un ou plusieurs blogueurs qui publient plus ou moins régulièrement des articles formant une sorte de journal. Ce phénomène qui a placé l’internaute, y compris professionnel, au centre de la production d’information a connu un essor sans précédent. Forrester Research estime par exemple aujourd’hui à plus de 1 million le nombre de blogueurs actifs en France.

En parallèle, le développement du format universel d’échange de données XML (eXtended Markup Language) a abouti ces dernières années à la formalisation d’un nouveau standard : le flux RSS (Really Simple Syndication). Ce système permet de diffuser en temps réel les nouvelles des sites d’information ou des blogs, ce qui permet de rapidement consulter ces dernières sans visiter le site.

Profitant de ces évolutions qui facilitent grandement la réalisation de services, de nombreux acteurs se sont récemment positionnés sur ce marché, à commencer par les moteurs de recherche de blogs comme Technorati. Cependant, ceux-ci n’effectuent toujours aucune sélection sur les contenus et présentent les travers traditionnels des outils généralistes : surinformation, manque de pertinence. En effet, seule une infime portion des blogs véhicule un contenu original et présente un intérêt pour les entreprises.

Récemment, une formule intéressante a été développée, d’abord aux Etats-Unis avec Digg puis en France avec Wikio : il s’agit d’agrégateurs combinant les sources d’actualités avec des blogs choisis. Toutefois, ces services s’adressent essentiellement aux particuliers car ils s’appuient notamment sur le vote des internautes pour déterminer la pertinence des informations. De plus, ils se contentent de proposer les informations “mainstream” (flux RSS) à faible valeur ajoutée pour les entreprises. Il est en effet crucial pour les entreprises de pouvoir définir leurs propres besoins en terme d’informations qui ne sont pas ceux de la communauté des particuliers, plus intéressée par la politique et le sport…

Episode 5 : Synthesio ?

Fort de ce constat, Synthesio a développé des technologies permettant non seulement d’agréger l’information à grande échelle et d’en extraire la substantifique moëlle, mais également de lui donner du sens. Nos experts associent en effet à chacune de nos sources d’information des métadonnées, c’est-à-dire des informations sur les informations : secteur d’activité, région, nature de l’information (évènement, étude de marché, etc.) … Au final, il nous est ainsi possible d’offrir à nos clients une information qui réponde aux deux exigences fondamentales de toute recherche : l’exhaustivité et la pertinence.

Toutefois, il est important de ne pas perdre de vue qu’un seul outil de recherche ne saurait suffir : les services de Synthesio, centrés sur l’actualité business, ne sauraient se passer des moteurs de recherche généralistes qui répondent bien aux préoccupations qui ne relèvent pas de la veille.



Back to Blog

Leave a Reply