De la physique théorique au machine learning
Rencontre avec Alice Coucke (Sciences, 2010)
Que sont-ils devenus ? À travers une série de portraits, partez à la rencontre d’alumni. Entretien avec Alice Coucke, qui a consacré ses années normaliennes à l’étude approfondie de la physique théorique. Entre machine learning et intelligence artificielle, elle travaille désormais au sein du département recherche et développement en compréhension automatique de la parole de Sonos, une entreprise spécialisée dans la conception d’enceintes connectées.
Prendre le temps de se consacrer à sa passion
Alice Coucke a intégré l’ENS-PSL il y a 10 ans, après un baccalauréat scientifique au lycée Fénelon à Lille et une classe préparatoire maths-physique au lycée Henri-IV. Rattachée au département de physique de l’École normale supérieure, elle y restera jusqu’en 2016, le temps d’obtenir un master de physique théorique puis un doctorat, toujours au sein de ce laboratoire (désormais laboratoire de physique de l’ENS), sous la direction de Rémi Monasson, et en co-direction avec Martin Weigt (Sorbonne Université).
La normalienne se définit elle-même comme une passionnée de physique fondamentale. C’est d’ailleurs ce qui l’avait motivée à rejoindre l'ENS. « l’École normale délivre une formation « par la recherche » très particulière, tout en encourageant l’interdisciplinarité », explique-t-elle. Une caractéristique propre à l’établissement, qui permit à Alice Coucke « d’explorer des sujets très divers en très grande liberté, tout en [se] concentrant sur l’approfondissement de [ses] connaissances plutôt que sur les débouchés de carrière. » Une période qu'elle admet volontiers avoir été très importante pour elle : « j’estime avoir eu de la chance de pouvoir me consacrer à ce qui me passionnait, aussi longtemps que je le souhaitais. »
Attirée par les mathématiques et l’abstraction, c’est tout naturellement que l’étudiante se tourne vers la physique statistique, une branche de la physique théorique qui lui plait tout de suite, et qui se concentre sur l’étude de systèmes comportant un grand nombre d’objets. Cette branche de la physique allie « de belles théories mathématiques à des sujets plus concrets comme les réseaux d’interactions ou la biologie ». Car il est primordial pour Alice Coucke de voir des applications directes à son travail.
C’est en étudiant des problèmes d’apprentissage statistique en génomique que la normalienne « rencontre » l’apprentissage automatique, ou le machine learning. Ce champ d’étude de l’intelligence artificielle se base sur des approches mathématiques et statistiques pour permettre aux machines d'« apprendre » à partir de données, c'est-à-dire d'améliorer leurs performances à résoudre des tâches sans être explicitement programmés pour chacune. Un secteur technologique de pointe, porteur et innovant, vers lequel Alice Coucke s’orientera très rapidement. « J’ai vécu ma thèse comme l’aboutissement de ma formation et j’encourage souvent les étudiants et étudiantes que je rencontre à s’engager dans cette voie s’ils en ont l’envie et les moyens financiers », témoigne Alice Coucke.
Ayant quitté le monde académique après l’obtention de son doctorat, la normalienne ne regrette « pas une seconde » d’avoir pris ce temps-là pour elle. « Faire un doctorat, c’est devenir expert dans un domaine et repousser les limites de la connaissance sur un sujet donné. C’est à la fois très dur et très gratifiant, et on y apprend au passage énormément sur soi-même. Les entreprises s’en rendent compte, et le doctorat est par exemple extrêmement valorisé dans le domaine de l’intelligence artificielle », atteste Alice Coucke, qui rejoint à peine quelques mois après la fin de sa thèse la start-up française Snips en tant que machine learning scientist.
L’essor de la compréhension automatique du langage naturel
Snips est alors en train de développer une plateforme de reconnaissance vocale respectueuse de la vie privée, démarche à laquelle Alice est particulièrement sensible : « cet aspect a été décisif dans mon choix : je voulais collaborer avec une équipe qui place les enjeux éthiques au premier plan. »
La normalienne travaille sur la reconnaissance automatique de la parole et le traitement automatique du langage naturel (ou Natural Language Processing, NLP), des disciplines qui portent essentiellement sur l'analyse et la transcription de la voix humaine ainsi que la compréhension, la manipulation et la génération du langage naturel par les ordinateurs, et plus globalement leur capacité à interagir avec les humains (1). Outre les enceintes connectées comme celles de Sonos, les applications sont variées et présentes jusque dans la vie de tous les jours : assistants personnels virtuels, applications de traduction, bibliométrie…
Étonnamment, Alice Coucke trouve dans le NLP énormément de similarités avec les séquences de protéines qu’elle avait étudiées en thèse : « car on peut aussi voir les protéines comme des mots, mais dans un alphabet différent qui est celui des acides aminés ».
À l’interface des sciences informatiques, de l’IA et de la linguistique, le traitement automatique du langage naturel est un domaine très ancien, qui remonte aux balbutiements de l’intelligence artificielle dans les années cinquante. « Notre travail est le fruit d’une collaboration entre des chercheur·es et ingénieur·es issus de formations très diverses » précise Alice Coucke. « Cette variété de parcours est une richesse. Elle nous permet d’avancer plus vite et de trouver des solutions plus originales. Elle engendre aussi une diversité de points de vue, toujours essentielle, d’autant plus que ce champ de recherche est proche d’applications concrètes et destinées à être utilisées par le plus grand nombre. »
La chercheuse trouve rapidement sa place au sein de la start-up, « un·e physicien·ne sait manipuler les ordres de grandeurs, les approximations et analyser des données réelles pour appréhender un système complexe, mais a aussi appris à appliquer des cadres théoriques formels à de nouveaux domaines d’étude. » Grâce à ces capacités très appréciées en recherche appliquée, de nombreux physiciens et physiciennes travaillent aujourd’hui sur des sujets liés à l’intelligence artificielle. « D’ailleurs, les deux chefs des équipes machine learning de mon employeur parisien étaient des chercheurs en physique » témoigne Alice Coucke.
Deux ans et demi plus tard, Snips est racheté et devient le département de recherche et développement en compréhension automatique de la parole de l’américain Sonos, une entreprise qui développe des enceintes connectées. Désormais responsable de la recherche en machine learning, le travail d’Alice Coucke consiste à garder un pied dans le monde académique en suivant l’état de l’art dans le domaine de la reconnaissance vocale.
En plus de ce travail de veille, la normalienne doit gérer les nombreux défis qui vont avec le passage de la recherche fondamentale à la recherche appliquée. La scientifique est enthousiasmée par ces missions et ne cache pas l’envie de partager ses découvertes : « nous avons à cœur de contribuer, à notre échelle, à l’avancement de la connaissance dans le domaine, en publiant des articles scientifiques, en partageant des jeux de données avec la communauté et en créant des collaborations avec des chercheurs dans des laboratoires. »
Les enjeux de l’intelligence artificielle
Car le secteur du machine learning est en plein développement et les innovations sont nombreuses. « Depuis le début des années 2010 et les premiers succès des techniques d’apprentissage profond (deep learning) pour la reconnaissance d’images (objets ou scènes visuelles) notamment, les progrès dans le domaine ont été impressionnants », constate Alice Coucke en soulignant aussi les grandes avancées du machine learning : « récemment, des résultats de niveau humain ou surhumain ont été observés en apprentissage par renforcement pour certains jeux très complexes, en reconnaissance d’images médicales, ou en compréhension du langage ».
Cependant et contrairement aux idées reçues, pour elle les grands enjeux de l’intelligence artificielle et du machine learning ne sont pas essentiellement techniques mais bien davantage éthiques et sociétaux.
Ces progrès scientifiques inouïs ayant pour vocation à être mis en application et utilisés par le plus grand nombre, la triple question de l’équité, des biais et de la justice sociale en IA est centrale. « Même si bien sûr, il ne s’agit pas de la seule source de biais en machine learning, loin de là, ces modèles sont entraînés sur des données réelles : images, statistiques démographiques, voix… qui contiennent des biais tout aussi réels et tendent donc à reproduire des discriminations historiques de notre société. Ce très bon thread lançé par Sarah Hooker, chercheuse chez Google Brain liste d'ailleurs plusieurs exemples pertinents. »
De la même manière, Alice Coucke n’hésite pas à questionner le bien fondé des applications permises par ces progrès scientifiques : « est-il seulement souhaitable de déployer des modèles de reconnaissance faciale partout dans l’espace public, ou que des données personnelles biométriques soient récoltées par des entreprises privées sans régulation ou presque pour tenter de prédire les émotions et l’humeur de leurs utilisateurs et utilisatrices ? »
Ces modèles de plus en plus performants sont également de plus en plus chers à développer, comme l’explique la scientifique : « on estime à plusieurs millions de dollars le coût en puissance de calcul pour entraîner GPT-3, le tout dernier modèle de langue d’OpenAI à 175 milliards de paramètres, capable de générer des articles de presse ou des nouvelles sans vraiment qu’on puisse savoir qu’un humain n’en est pas l’auteur. » Seule une poignée d’entreprises privées sont ainsi capables de dépenser ce budget pour une telle recherche, souvent inaccessible pour les laboratoires publics. Au-delà des questions de financement et de périmètre de la recherche, elle n’oublie pas non plus l’impact écologique de ces technologies, lié à la consommation énergétique des serveurs nécessaires à l’entraînement de ces modèles géants.
« Les questions soulevées sont nombreuses et profondes, conclut la scientifique. À l’ENS-PSL, la chaire Abeona / Intelligence artificielle et Justice propose certaines pistes très intéressantes, mais l’essentiel de la réflexion est cependant encore à construire, avec le concours de toutes et tous. »
(1) Source : Introduction au NPL- Natural Language Processing, DataScientest, le 22 juillet 2020