

Consultante et formatrice spécialisée dans les méthodes, outils et sources de veille stratégique, elle intervient en entreprise et dans plusieurs établissements d’enseignement supérieur, dont l’École européenne d’intelligence économique ou le Cnam. Elle a été directrice de l’infothèque du pôle universitaire Léonard-de-Vinci, à Paris-La Défense, jusqu’en 2012. Véronique Mesguich est l’auteure de livres sur la méthodologie de recherche d’information stratégique et de veille, dont, récemment, «Rechercher l’information stratégique sur le web – Sourcing, veille et analyse à l’heure de la révolution numérique» (DeBoeck, juillet 2018).
Alphabet, maison mère de Google, a pris depuis plusieurs années déjà le virage de l’intelligence artificielle. L’algorithme Rankbrain, mis en place en 2015, illustre une évolution du fonctionnement du moteur : il ne s’agit plus seulement de retrouver des mots-clés dans l’index du moteur à partir de correspondances de chaînes de caractères, mais de favoriser la contextualisation des requêtes en connaissant bien les besoins de l’internaute. La présentation des résultats de recherche évolue également. Google «calcule» de plus en plus ce qu’il considère comme étant la meilleure réponse et la place en exergue sous forme d’«extrait optimisé» («featured snippet») ou d’encadré («knowledge graph»). Ces transformations vont de pair avec l’évolution des usages des internautes, qui effectueront de plus en plus de recherche vocale via les objets connectés, dans le cadre d’un Web toujours plus mobile et multimédia. Google a également déployé en 2018 son index «mobile first» qui privilégie les versions mobiles des pages web pour l’indexation.
La recherche avancée : des fonctions méconnues
Google vise le grand public à travers ces évolutions, mais qu’en est-il de la recherche d’informations stratégiques dans un cadre professionnel ? Plusieurs options assez classiques, mais souvent méconnues, contribuent à optimiser la pertinence des résultats. Il vaut mieux saisir dans la requête au moins trois ou quatre mots-clés, les plus précis possible, en les combinant le cas échéant avec des opérateurs booléens (ET, OU, SAUF, etc., l’opérateur ET étant implicite). D’autres éléments de syntaxe filtrent également les résultats. Citons, entre autres, «filetype», qui recherche les documents dans un format précis (par exemple, PDF ou PowerPoint), «site», qui permet de limiter les résultats à un site donné, ou une extension (par exemple, «. gouv.fr» pour les sites gouvernementaux). Google dispose par ailleurs d’une recherche par similarité de site (fonction «related») ou de recherche par l’image.
Google propose également un service gratuit de veille automatisée à travers Google Alerts. Les alertes sont envoyées par e-mail, on peut également s’y abonner par flux RSS (1). Attention, là encore, au choix des mots-clés pour garantir la pertinence de la requête.
Les concurrents
De façon un peu paradoxale, il existe aujourd’hui moins de moteurs généralistes qu’au début des années 2000. Google domine très nettement et distance largement son concurrent, Bing (Microsoft). Dans ce club de plus en plus restreint, on compte peu de nouveaux venus ! Intéressant, le Français Qwant, qui équipe désormais l’Assemblée nationale, se positionne, à l’instar de plusieurs métamoteurs comme Duckduckgo, sur le respect de la vie privée des internautes. Les moteurs Baidu et Yandex couvrent respectivement la Chine et la Russie. Startpage est une version «dépersonnalisée» de Google. Si ce dernier reste à ce jour le plus puissant, ses concurrents peuvent offrir des fonctions complémentaires : ainsi, Qwant permet une recherche dans les tweets ; Bing offre une intéressante recherche d’images ainsi qu’une recherche inversée d’adresses IP ; Yandex est performant pour la recherche inversée d’images.
L’importance du «sourcing»
Même le plus puissant des moteurs est techniquement incapable d’indexer tous les contenus du Web. Cette partie inaccessible aux moteurs car non répertoriée est connue sous le nom de «Web invisible» ou «deep Web» (2). Il peut s’agir, entre autres, de bases de données à valeur ajoutée payantes : documents et données scientifiques, techniques, études, informations financières… À l’heure de la «post-vérité» et de l’essor des infox [«fake news» en anglais, NDLR], il est plus que jamais indispensable de connaître des sources de qualité et fiables ou de se donner les moyens de les identifier. De nouveaux types de sources et de modèles économiques sont apparus récemment. Si les documents à valeur ajoutée restent souvent payants, l’accès libre («open access») se développe dans le domaine de la publication scientifique. L’accès libre aux données («open data») progresse dans de nombreux pays. Google vient d’ailleurs de lancer un moteur de recherche dans les données publiques, Google Dataset. Les réseaux sociaux, particulièrement Twitter, LinkedIn ou le réseau académique Researchgate, sont des sources intéressantes, notamment en veille technologique, mais il convient d’être sélectif concernant les profils ou hashtags à suivre.
L’analyse automatisée
Face à la surabondance de contenus hétérogènes, l’analyse automatisée s’impose et peut correspondre à de nombreux besoins : analyser le contenu d’un ou plusieurs documents, notamment pour extraire des «signaux faibles» et des informations utiles à la prise de décision, faire émerger des corrélations, des relations ou liens «cachés», dégager des modèles prédictifs, étudier l’opinion…
Différentes méthodes, -techniques et solutions d’analyse automatisée permettent de répondre à ces besoins : du «clustering» (catégorisation automatique) à la fouille de textes ou de données, en passant par la datavisualisation et l’analyse du «sentiment» et des avis exprimés sur les réseaux sociaux. Des solutions de veille professionnelle comme Digimind, Qwam ou Sindup sont dotées de fonctions d’analyse automatisée. Mais seule l’expertise humaine peut guider les choix et l’interprétation stratégique des résultats. n Véronique Mesguich
(1) «Really Simple Syndication», le RSS permet de suivre le flux d’un site auquel on s’est abonné sans être obligé de s’y rendre à l’aide d’un navigateur web : le logiciel agrégateur se connecte seul régulièrement afin de vérifier la présence de nouveaux contenus.
(2) À ne pas confondre avec le «dark Web», ou Web obscur, dont les contenus sont hébergés par les «darknets», réseaux parallèles qui confèrent aux utilisateurs une protection de leur anonymat (adresses IP masquées). On y accède via des navigateurs spéciaux tels qu’I2P, Freenet et, le plus commun, The Onion Router.