Selon
le PDG de l'éditeur norvégien de moteur de recherche Fast Search & Transfer, le volume de données dans les grandes entreprises double tous les ans. Ce qui, mathématiquement, devrait doubler les besoins en serveurs, et donc le budget destiné aux machines liées aux moteurs de recherche. Il n'en est rien. Des éditeurs comme Exalead ou Polyspot ont pris ce problème au sérieux. Fast également. Ainsi, outre des capacités d'administration plus étendues, la dernière mouture d'Enterprise
Search Platform du Norvégien 1 serait ca pable de traiter 2 000 requêtes par se conde sur 40 Petaoctets de données. Ce n'est pas. tout. La version 5 d'ESP pourrait intégrer dans son index quelque 200 millions de documents. Et cela sur un seul serveur d'entrée de gamme. Fast met principalement ses performances sur le compte de l'architecture de son index.
A l'instar, justement, de son concur rent français Exalead. Ce dernier affiche des performances comparables : 150 millions de pages indexées sur un ser veur du même type. Soit, avance son PDG François Bourdoncle, de quoi rentrer l'intégralité du contenu d'un intranet d'un grand compte, sans le courriel. Concrètement, si l'on prend un fichier simple enregistré sous le nom de Bon- jour.txt contenant le message « bonjour DSI », l'index inversé de ce fichier res semblera à cela : bonjour:bonjour.txt/DSI: bonjour.txt. Avantage de ce système : les mots ne sont pas indexés deux fois. Ainsi, dans un fichierAurevoir.txt contenant le texte « au revoir DSI », l'index deviendra : aurevoiraurevoir.txt/bonjour.bonjour.txt/ DSI:aurevoir.txt,bonjour.txt. « L'index ne croit pas en proportion du contenu indexé, mais en fonction de l'ensemble des mots uniques de la totalité des documents », rap pelle Sid Probstein, vice-président chargé de la technologie chez Fast. C'est pourquoi ESP demande moins d'espace de stockage que d'autres solutions.
Dix fois plus performant que Google. L'architecture d'indexation explique aussi les temps de réponse. « Chaque re quête sur ESP entraîne une recherclie dam l'intégralité de l'index. Mais ce n'est finale ment qu'une opération de lecture. » Fast estime que sa technique est bien supérieure à celle de ses concurrents. Dont l'inévitable Google. « Selon les sources, le numéro un du poitail de reclierche utilise de 10 000 à 20 000 serveurs pour indexer 2 mil liards de pages web. » Fast évalue que cette indexation ne nécessiterait avec sa technologie que 1500 serveurs.
Une chose est sûre : outre leurs pro pres développements, les éditeurs de moteurs de recherche sont aidés par les constructeurs. « TechniqueineyU.kmatéiiel avance à grande vitesse, et son coût d'acquisition est moindre », affirme Yves Simon, de la SSII Hémisphère. Quant à Exalead il considère que ses produits sont à même de tirer totalement parti de l'adressage à 64 bits des nouveaux processeurs.
Retour à la catégorie mère