Le «big data» décrypté

Peu de Français ont une juste représentation des mégadonnées. La seule évocation du «big data» suffit à alimenter les fantasmes. Afin d’éclairer les citoyens, la Fondation de l’Académie des technologies a entrepris de décrypter cet univers et de prodiguer des conseils dans le premier numéro de son «Trimestriel de l’intelligence technologique» (1). Extraits.

Quelques points à savoir avant de se lancer

 

Davantage de données n’égalent pas forcément de bonnes données aboutissant aux meilleures décisions.


– Les données externes sont, en général, mal ou pas structurées, moins fiables que celle des données structurées internes. Elles sont difficiles à épurer, sans garantie statistique et ne respectent pas le référentiel de l’entreprise.

– Leur provenance n’est pas établie avec certitude, réduisant d’autant la confiance qu’on tire d’une connaissance approfondie des processus de recueil et de traitement initial des données passant, par exemple, par la traçabilité des étalonnages, le type de capteur utilisé, un protocole de mesure.

 - Plus de données améliorent les informations de corrélation sans nécessairement instruire de manière fiable sur les causalités.

 - L’hétérogénéité des données associée à une méconnaissance des intentions à la source peuvent entraîner des raisonnements faussés et des connaissances inutilisables.

 - Le futur ne s’identifie que rarement au prolongement du passé.

Récente, l’approche «big data» est encore immature


– Moins de 1 % des données «atteignables» ont été analysées à ce jour.

– Confidentialité et propriété des données sont des sujets qui demeurent en friche.

– Les nouvelles technologies d’encodage et les outils d’usage associés sont balbutiants.

– Un gros déficit de savoir-faire subsiste dans le développement des outils et de la connaissance des données.

– Des interfaces intuitives («user-friendly», en anglais) n’existent pas encore.

 

Dès la constitution des premières civilisations organisées, l’intérêt de mesurer et d’enregistrer les résultats a été reconnu et mis en œuvre (mesure des crues du Nil, tablettes cunéiformes…). Au fil du temps, l’apparition de l’imprimerie et du télégraphe a considérablement augmenté la capacité et la rapidité de transmission de l’information recueillie. L’évolution à laquelle nous assistons est d’une autre ampleur. Le domaine du commerce est certainement l’un des premiers à l’avoir compris et exploité intensément grâce à la possibilité d’observer à 360 ° les consommateurs, statistiquement et individuellement.

Comme pour un plan (projection d’un objet tridimensionnel sur une feuille de papier) ou des empreintes digitales, l’information ne suffit pas, il faut pouvoir l’interpréter. Ce sont la formation et les capacités des individus à imaginer la troisième dimension qui permettent la reconstitution d’une information utile à partir de celles disséminées sur un plan. Pour les empreintes digitales, l’homme a été progressivement remplacé, ou fortement épaulé, par des outils de recherche et de reconnaissance (des algorithmes), seuls capables d’explorer la quantité grandissante d’empreintes disponibles. Par extension de ces principes, on aboutit à l’idée qu’on peut se construire «une idée du monde réel» à partir de sa projection dans le monde numérique si on dispose des bons outils de reconstruction.

Il est certain que les informations contenues dans les mégadonnées, le «big data» en anglais, peuvent informer sur de nombreux sujets ou répondre à des questions diverses pour qui sait les «faire parler», sachant, qu’au-delà de la masse des données, d’autres évolutions [telle l’augmentation de la puissance de calcul, NDLR] ont rendu possible l’avènement d’un «big data» utilisable, non réservé aux grosses structures.

Ce que peuvent apporter les usages du «big data»

Pour une personne ou une organisation, la richesse et l’intérêt du «big data» résident donc dans l’association de la masse énorme des données disponibles avec des outils de recherche et d’analyse de plus en plus performants et adaptés à ses propres objectifs.

Dans les entreprises, l’analyse des données a généralement débuté dans le secteur de la comptabilité et du contrôle de gestion avant de se généraliser à toutes les activités.

En permettant un élargissement des bases de ces analyses, le «big data» est bien une réelle percée dans le domaine de l’aide à la décision sous toutes ses formes. Cette percée devrait permettre à (presque) chaque employé de l’entreprise de trouver et d’utiliser les outils décisionnels nécessaires à son niveau, une forme de démocratisation de l’aide à la décision s’appuyant sur des outils puissants, dépassant les limites bien connues du logiciel décisionnel le plus utilisé, Excel, et cela dans les trois domaines majeurs de création de valeur que sont :

• la maîtrise stratégique des enjeux de l’entreprise, par les capacités à prendre des décisions plus rapidement, mieux argumentées et avec un meilleur degré d’anticipation, à tous les niveaux de l’entreprise ;

• l’amélioration de la performance opérationnelle, en s’appuyant sur une connaissance mieux étayée et de plus en plus en temps réel des paramètres opérationnels des processus (qualité, événements perturbateurs…), de l’état des machines (permettant d’aller au-delà de la maintenance préventive en développant une maintenance prédictive) par l’automatisation de plus de tâches, par une plus grande capacité d’adaptation des processus ;

• l’amélioration de la maîtrise des risques de l’entreprise par un suivi constant et précis de tous les risques, une meilleure détection de la fraude et une lutte plus efficace contre les cyberattaques grâce à une capacité d’observation démultipliée.

 Michel Laroche

Quarante années partagées entre moteurs aéronautiques et spatiaux ont permis à Michel Laroche de bien connaître les technologies de ces deux domaines. Entré à la Snecma en 1970, il s’y spécialise dans les turbines puis intègre CFM International aux États-Unis pour participer à la mise en service du CFM56.  À son retour, en 1984, il rejoint la SEP comme directeur technique de l’activité propulsion fusée à liquides. Il y anime les activités de fiabilisation d’Ariane 4 et de développement du moteur Vulcain destiné à Ariane 5. Par la suite directeur technique de Snecma Moteurs, président de Snecma Propulsion Solide, il a quitté son poste de directeur général adjoint recherches et technologies au sein du groupe Safran en 2011.

Jean-Luc Strauss

Diplômé de Télécoms ParisTech (1978), Jean-Luc Strauss a évolué pendant vingt-cinq ans dans la finance comme ingénieur de développement dans une filiale de Bull centrée sur les projets business innovants, puis chez BNP Paribas. Il y a exercé les activités de responsable télécoms global, puis de l’innovation technologique avant de rejoindre la DSI de la Caisse des dépôts et consignations. Depuis 2005, Jean-Luc Strauss a intégré Altran où il a, entre autres, lancé et animé un Club innovation regroupant les directeurs innovation de tous les établissements financiers français. Depuis quatre ans, au sein du département de recherche France du groupe, il a eu en charge le développement de projets visant à intégrer les meilleurs savoir-faire du monde de l’IT dans un univers industriel.

Un projet complexe à mettre en place

La simple lecture de ce qui précède devrait entraîner une adhésion massive des entreprises de toutes tailles à la culture et à l’usage des mégadonnées, mais force est de constater que les choses progressent lentement. De fait, si des réticences existent, ce sont plutôt les difficultés à réaliser et réussir le projet «big data» qui expliquent cette situation. Il faut en outre savoir que l’expertise nécessaire n’existe en effet que dans la petite communauté des scientifiques des données («data scientists») qui, seuls, comprennent le contexte des données et connaissent les outils susceptibles d’en tirer un savoir utilisable.

Alors, avant de se lancer, quelques précautions sont à prendre. Comme pour tout nouveau développement, il est judicieux d’aborder le thème du «big data» par la mise en place d’une première application qui devra se dérouler de façon structurée, par étapes, et bénéficier de l’éclairage de personnes déjà expérimentées dans ce domaine. Il s’agit donc de :

• comprendre en quoi l’apport de ces technologies peut permettre d’atteindre tel ou tel objectif stratégique de l’entreprise et choisir un premier projet ;

identifier un véritable besoin «business» et exprimer de façon claire une question à laquelle on veut apporter une réponse ;

• identifier les données nécessaires à la résolution du besoin en explorant en priorité les données disponibles dans l’environnement immédiat de l’entreprise ;

• les prétraiter afin d’en augmenter le niveau de qualité et le degré de confiance ;

• choisir les approches et les outils nécessaires à leur traitement puis à leur analyse ;

analyser ces informations pour les transformer en connaissances utilisables dans le cadre du besoin exprimé ;

• évaluer les apports et les difficultés engendrés par le projet.

La réussite d’un projet sur les mégadonnées impose une bonne maîtrise des compétences dans les trois domaines requis que sont : le domaine thématique du projet, la capacité d’analyse des données et l’expertise informatique (voir le schéma ci-dessus, à gauche).

Avant de généraliser la pratique, la réalisation d’un premier projet doit permettre de faire l’état des lieux sur les capacités disponibles dans les différents domaines critiques et d’engager, si nécessaire, les renforts indispensables avant d’installer de façon stratégique l’approche «big data» au niveau global de l’entreprise.

Des freins bien réels

D’autres écueils peuvent surgir, dont il faut avoir conscience afin d’en prévenir les risques. Sans être exhaustif, citons :

• la culture et l’organisation des entreprises, en particulier les grandes, permettent difficilement l’introduction d’une démarche «big data». La valeur des données y est souvent méconnue et, sinon, il y a une résistance à les partager («l’information, c’est le pouvoir»), alors que le partage est une des clés d’un traitement «big data» ;

• le mode de raisonnement qui vise à décrire le réel et prévoir l’avenir au moyen de modèles statistiques construits par la machine, plutôt qu’en appliquant une méthode et un raisonnement logique et scientifique, est culturellement difficile à accepter dans des entreprises traditionnellement rationalistes ;

• les limitations réglementaires ou juridiques sur l’utilisation des données personnelles (en France, le cadre est délimité par la Cnil), sachant que le droit en la matière est très évolutif ;

• la volatilité des ressources humaines dans les compétences clés que sont la connaissance des sources et celle de l’analyse de ces masses de données. Il y a en France un véritable problème du nombre des scientifiques des données et une grande difficulté à les embaucher, puis à les conserver (pour des raisons financières et culturelles) ;

• la disponibilité des moyens de calcul car, pour traiter les quantités de données évoquées, on ne peut se contenter d’un simple ordinateur de bureau : de grosses capacités d’archivage sont indispensables, de grosses machines avec beaucoup de mémoire centrale.

Enfin, il faut insister sur la nécessaire transformation de l’approche managériale, préalable avant tout lancement d’une démarche «big data» si on veut avoir une chance raisonnable de succès.

Michel Laroche, membre de l’Académie des technologies,
et Jean-Luc Strauss (Altran)

(1) Cette lettre, dont le directeur de la publication est Patrick Ledermann, président de la Fondation de l’Académie des technologies, a été réalisée en collaboration avec la société Altran Research.

 

Pour les plus curieux retrouvez la version originale et intégrale de la Fondation de l’Académie des technologies.

Document au format PDF à télécharger : Version originale et intégrale de la Fondation de l’Académie des technologies.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.