Big data : Comment éviter que le data scientist en devienne l’homme à tout faire? (….ou de nouvelles solutions pour augmenter le savoir-faire des experts métiers)
Thierry Elkaim - Chief of Sales and Marketing - Tale of Data


Face à la prolifération des données hétérogènes et l’augmentation du temps passé à les préparer en amont, impliquer davantage les experts métiers dans la préparation des données parait une piste judicieuse. En les dotant de nouveaux outils et en tirant partie de leurs connaissances on peut aller plus vite, et aussi obtenir de meilleurs résultats en sortie des traitements algorithmiques
Le Data Scientist , un surhomme ?
A n’en point douter, le métier de Data Scientist est passionnant et devient incontournable dans la transformation digitale des entreprises.
Cependant, en termes d’attentes et de compétences, la barre est haute, très haute.
On attend de lui qu’il excelle à la fois en informatique, en mathématiques, et dans la connaissance du métier de son entreprise.
Fort d’une formation supérieure lui assurant une tête bien faite, il doit maitriser les outils analytiques tels que R (langage informatique pour l’analyse et l’exploration des données), savoir programmer au moins en Python ou en Java, connaitre les méthodes de Machine Learning pour employer la méthode la plus pertinente selon la situation, avoir des connaissances en statistiques, comprendre l’algèbre linéaire et les fonctions de plusieurs variables pour améliorer les algorithmes prédictifs, maîtriser la plateforme Hadoop de même que les outils du cloud comme Amazon S3 ou Microsoft Azure, sans compter la programmation en SQL pour pouvoir formuler des requêtes, mais aussi savoir manipuler les données non structurées en provenance des réseaux sociaux ou des flux vidéo.
Et bien sûr, il doit aussi posséder quelques précieuses « soft skills » : être curieux pour déceler les données les plus intéressantes, être créatif et poser les bonnes questions, avoir l’esprit intrapreneur pour aller au-devant des problèmes à résoudre dans son entreprise ou dans son industrie. Et enfin le Data Scientist doit avoir le sens de la communication pour collaborer efficacement avec les autres équipes et les aider à relever leurs défis. Excusez du peu !….
Et cette addition de compétences, alliée à sa rareté, justifie aujourd’hui les salaires élevés qui leurs sont octroyés, et qui font que leur temps est précieux.
Mieux répartir les tâches pour une meilleure collaboration
Face à ce large scope d’activité et de compétences, un des enjeux majeurs est de les aider à se concentrer sur leurs talents et augmenter leur productivité, en les déchargeant des tâches que d’autres collaborateurs, notamment les experts métiers feraient aussi bien sinon mieux.
Il en est ainsi de la préparation des données.
A l’heure du big data, où les sources de données sont de plus en plus nombreuses, les données de plus en plus hétérogènes, et leurs volumes de plus en plus grands, on estime aujourd’hui que jusqu’à 80% d’un projet Big data peut être ainsi consacré à cette tâche de préparation.
Il s’agit notamment de vérifier la source, la qualité, la pertinence, la fiabilité de ces données, de faire des choix de variables, de les croiser, de les réconcilier etc…etc…Ce n’est pas forcément là que s’exerce le savoir-faire du data scientist….
De l’importance de la qualité du carburant…
A titre d’information IBM a annoncé en 2017 que le coût des mauvaises décisions prises aux Usa à cause de données de piètre qualité est estimé à environ 3100 milliards de dollars(3,1 trillions $) par an.
Cette étape de préparation est donc cruciale, car de la même manière que la qualité du carburant impacte la performance d’une Formule 1, ou que le choix de sa nourriture influence la bonne santé de l’être humain, la qualité des données en entrée va décider de la performance d’un algorithme en sortie.(Par opposition certains emploient l’expression « garbage in, garbage out »)
Et cette étape de préparation amont, si elle est effectuée par les experts du métier, qui en connaissent toutes les subtilités et qui en ont l’expérience « terrain », peut s’avérer plus efficace et aller bien au-delà de la simple préparation, et peut même permettre d’entrevoir des solutions aux problèmes posés à ce stade. Et ce, avant même la phase d’algorithme qui relève bien sûr des data scientists.
.
La Data Preparation assistée par Intelligence Artificielle
Il y a justement un potentiel considérable de gains de productivité, mais aussi de pertinence dans cette étape de préparation, grâce à … l’intelligence artificielle
Selon un rapport publié par Gartner Inc, plus de 40% des tâches effectuées par un Data Scientist seront automatisées d’ici 2020. On peut dire que la data preparation en fait déjà partie.
En effet une solution innovante consiste donc à équiper les hommes et les femmes du métier, d’outils logiciels intelligents et très ergonomiques, leur permettant de tirer parti de leur savoir-faire pour préparer et analyser les données, sans pour autant connaitre la programmation ni savoir écrire des requêtes SQL.
Ce qui leur donne plus d’autonomie et les affranchit au passage des allers-retours fastidieux avec le service informatique ou les data scientists.
Ces nouvelles solutions intelligentes de Data Preparation, en scrutant des tableaux de centaines de milliers, voire de millions de lignes et de milliers de colonnes, sont capables de les aider à formuler des diagnostics, à traiter les données comportant des imperfections, les valeurs manquantes ou des chaînes de format incohérentes, sans pour autant être data scientist, informaticien ou statisticien.
En effet ces outils leur suggèrent des scénarios automatiques de nettoyage, mais aussi de jointures, de transformations, de règles, que l’utilisateur peut appliquer -ou pas- en fonction de ses choix métier.
Dès aujourd’hui dans l’entreprise, certaines fonctions liées à l’investigation, à l’analyse notamment dans les domaines de la conformité, des risques, de la fraude, du marketing, en sont déjà très friands.
Conclusion
En impliquant davantage les hommes de métiers dans cette phase et en les dotant des nouvelles solutions intelligentes de préparation des données, on réalise un double objectif, en leur donnant plus d’autonomie et en tirant partie de leur savoir-faire d’une part, et d’autre part en permettant aux data scientists de se focaliser sur leur cœur de métier et d’obtenir de meilleurs résultats sur la partie algorithmes, grâce à la pertinence des données entrantes.
Thierry Elkaim
Chief of Sales and Marketing
Tale of Data