Bonjour Christophe, pouvez-vous nous expliquer le rôle du « data scientist » aujourd’hui ?

Aujourd’hui, je parlerais plus de data-science au sens pluriel du terme. Il ne s’agit plus d’un métier, mais de plusieurs métiers. Le domaine est actuellement en pleine structuration.

En termes de profil, il existe deux types de data-scientist aujourd’hui. D’une part, on va avoir un profil polyvalent qui va être en mesure de tout faire. Et à l’opposé, dans des entreprises structurées qui disposent déjà d’un département data-science, des profils plus spécialisés. Chez Ellisphere, nous nous situons dans un modèle hybride. Typiquement, les processus standards sont gérés par la DSI là où le service data-science explore de nouvelles données.

Dans mon entreprise précédente, je jouais le rôle de l’électron libre. J’étais en charge de récupérer les données sur les bases, les maintenir, les nettoyer, développer les modèles d’interprétation à partir de celle-ci et enfin lancer et maintenir la production. J’étais en charge de l’intégralité du pipeline.

 

Quel rôle joue le data-scientist au sein d’une entreprise déjà structurée ?  

Dans une équipe déjà structurée, le data scientist va essayer d’améliorer la performance des modèles. Concrètement, si on prend l’exemple d’une entreprise comme Google qui travaille actuellement sur des technologies de deep learning pour optimiser et prédire les réponses à des mails par exemple, le rôle du data-scientist sera d’améliorer les performances de l’algorithme. Dans ce cas précis, les data-scientists sont situés au bout de la chaîne de production et auront peu de problèmes liés à la donnée.

Il existe également une problématique concernant la mise en production de ces modèles. Dans une équipe structurée, on retrouve des profils de data-engineer qui sont spécialisés dans l’articulation des bases de données, les modèles et les web-services pour articuler le tout de manière efficace.

Dans mon travail quotidien chez Ellisphere, je me situe au milieu du processus. Nous disposons d’une base de données propre et qualifiée sur les informations financières. Cependant, notre défi actuel réside dans l’implémentation d’autres bases de données issues de l’extérieur. Ce travail nécessite de repasser par toute la chaîne de valeur (analyse, tri, corrélation) pour garantir l’uniformité de notre base et la développer. Cela nous permet ensuite de réfléchir à de nouveaux modèles toujours plus performants.

 

Comment a évolué le rôle du data-scientist ?

Les services DSI sont très structurés de nos jours. Dans les années 1980, il y avait un « IT guy » qui était chargé de réaliser la plupart des tâches liées à l’informatique. Aujourd’hui, je pense que ce système existe toujours dans les plus petites structures (PME, TPE). On observe le même phénomène pour les sujets liés à la data-science. Je pense qu’avec le temps, nous allons assister à une séparation du métier par expertise.

Il existe déjà des spécialisations par type d’algorithme ou par type de technique à la manière de ce que l’on peut observer dans le milieu de la programmation. On peut imaginer que demain, on assiste à une diversification des expertises avec des experts spécialisés dans la performance du modèle ou encore dans l’explicabilité de ce dernier.

Votre travail au quotidien, ça ressemble à quoi ?

Chez Ellisphere, mon travail est de mettre en place, via la technologie, des solutions pour sécuriser et donner de la transparence aux relations interentreprises. Concrètement, le score actuel de probabilité de défaillance d’entreprise d’Ellisphere s’inscrit dans cette logique. L’idée, c’est de se dire, j’ai envie de faire du business avec telle entreprise et j’ai besoin de savoir si elle va rester pérenne pour entreprendre un partenariat serein.

Notre score est en constante évolution. Nous travaillons chaque jour à son amélioration en ajoutant de nouvelles données susceptibles d’accroître sa pertinence. Aujourd’hui, le score est un bon indicateur sur la santé des entreprises. On arrive à avoir de bons résultats avec des données quasiment exclusivement financières ou macro-économiques.

 

Quels sont vos projets à venir ?

À l’avenir, nous aimerions corréler des données d’autres domaines. Typiquement, on travaille sur les données concernant les immatriculations de véhicule.

Par exemple, dans le cas d’une entreprise ne publierait pas ses comptes, cela nous permet d’avoir une visibilité sur le renouvellement de sa flotte de véhicule, la gamme des véhicules achetés… Cela peut nous aiguiller sur la gestion et la santé financière de l’entreprise.

 

Qu’est-ce qui est le plus intéressant dans votre travail ? 

Je dirais que c’est le champ des possibilités qui s’offre à nous qui est le plus intéressant. Les traitements sont infinis et il faut savoir faire preuve de créativité dans notre travail pour aborder des problématiques sous des angles nouveaux. Cela nécessite d’avoir les bonnes données et de mettre les mains dans la machine.