Comme tous les milieux professionnels, la veille a ses marottes. Depuis plusieurs mois, pas un colloque, pas un retour d’expérience sans que le web invisible ne fasse irruption dans les conversations. Certains éditeurs l’ont bien compris et en ont fait un argument marketing destiné à séduire les veilleurs confirmés mais aussi les autres professionnels de l’information, à juste titre intrigués par des slogans aussi prometteurs que flous.
Depuis l’apparition de la notion de web invisible – aussi nommé web profond – en 1994, le nombre de pages en ligne a explosé. Selon les chercheurs du centre IBM d’Almaden (Californie, États-Unis), plus de 50 millions de pages web sont ajoutées ou modifiées chaque jour ! En 2000, ce chiffre ne s’élevait qu’à 7,5 millions… Si l’onajoute les informations saisies dans les bases de données, les lettres d’information et autres sources du web profond, ce sont près de 25 milliards d’informations créées ou modifiées quotidiennement.
web invisible, web profond, web opaque, dark web, web surfacique...L’expression web invisible est promise à un bel avenir, encore faut-il s’entendre sur sa définition. La majorité des experts semblent s’accorder sur l’essentiel : il s’agit de documents web mal ou non indexés par les moteurs derecherche conventionnels. En effet, une masse considérable de documents reste inaccessible en raison de leur nature :c’est le cas des informations incluses dans des banques de données qui nécessitent de remplir un formulaire de critères de recherche. C’est également le cas des sites qui exigent une authentification afin d’accéder aux contenus, ou bien les pages protégées par une balise empêchant toute indexation par les moteurs de recherche. Le site du quotidien Le Monde, par exemple, interdit aux moteurs d’accéder à ses archives. Par ailleurs, certains formats de pages web – Flash par exemple – ne sont pas encore reconnus par les robots d’indexation de Google, Exalead ou Yahoo. Certains spécialistes [voir l’avis d’Alain Beauvieux] préfèrent parler de web profond, par analogie avec l’expression anglaise deep web. Dans tous les cas, il s’oppose au web surfacique qui désigne les documents accessibles en ligne via l’indexation des moteurs de recherche généralistes.Le web opaque, quant à lui, concerne les parties du web qui ne sont pas accessibles en ligne, à savoir les pages théoriquement indexables mais qui, dans les faits, ne sont pas indexées par les moteurs. |