Sous le capot
des modèles de langage
À l’ère des modèles de langage, l’IA ne se contente plus d’aligner des résultats liés à des mots-clés : elle saisit le sens, le contexte et les nuances, grâce à l’entraînement sur d’immenses corpus et au deep learning. En médecine, cette puissance se traduit déjà par des recommandations thérapeutiques personnalisées, jusqu’à guider la prise en charge du cancer du poumon.

L'Intelligence artificielle (IA) générative, qui alimente les outils comme les chatbots[1] et les systèmes d'aide à la décision, marque une rupture fondamentale avec les anciens moteurs de recherche. Faisant appel à des mots-clés, ces derniers fonctionnaient par simple correspondance lexicale. L'algorithme se limitait à trouver et à classer les documents contenant exactement le mot-clé saisi, à la manière d'un dictionnaire ou d'un catalogue de bibliothèque rigide.
Une nouvelle rubrique consacrée l'IA !
Il n’y en a que pour elle : articles de presse, livres, publications, projets d’entreprise : l’intelligence artificielle fait rêver autant qu’elle inquiète. Susceptible de modifier profondément nos pratiques médicales, elle ne saurait nous laisser indifférents. Le journal du Médecin se doit d’y consacrer une place régulière pour en documenter les outils et les enjeux. Le projet d’une rubrique périodique, sous la plume du Dr Carl Vanwelde et dont vous lirez le premier épisode ci-dessous, y répond.
Sa mise en œuvre suscite néanmoins des questions qui ne peuvent être passées sous silence à l’heure où la responsabilité sociétale de nos hôpitaux, de nos universités et du système médical dans son ensemble est de plus en plus évoquée. L'opinion « Promouvoir l’IA est-il éthique ? » évoque cet enjeu en page 36 de la présente édition.
Vos retours sont les bienvenus à l'adresse email mentionnée en haut de cette page. Bonne lecture !
- Le journal du Médecin & Carl Vanwelde
Bien plus qu'une recherche par mots-clés
Aujourd'hui, l'IA utilise des modèles de langage de grande taille (« LLM » pour Large Language Models), dont l’objectif n'est plus de chercher des mots précis, mais de comprendre le sens et l'intention de la requête, y compris les nuances et le contexte. Ce changement de paradigme repose sur une démarche et des concepts techniques précis. D’abord, la création d’un corpus (ou recueil) de données gigantesque et diversifié incluant textes, images, articles scientifiques, rapports cliniques, publications médicales, livres, etc.).
La qualité et la pertinence des données sont cruciales, car elles constituent la seule connaissance de l'IA, celle-ci étant incapable actuellement de « créer » du contenu qui ne l’ait déjà été précédemment par l’intelligence humaine.
La qualité et la pertinence de ces données (et non l'origine, hélas elles furent parfois piratées sans grand scrupule dans les catalogues de grands éditeurs littéraires ou scientifiques, archives d’organes de presse, encyclopédies en ligne telles la Britannica et Wikipédia, voire courriers électroniques privés) sont cruciales, car elles constituent la seule "connaissance" de l'IA. Ce qui constitue sans aucun doute sa principale limite, l’IA étant incapable actuellement de « créer » du contenu qui ne l’ait déjà été précédemment par l’intelligence humaine. Cette limitation est vraisemblablement appelée à être dépassée à l’avenir, et l’est peut-être déjà dans certaines applications pointues.
Pondérer les connexions
L’étape suivante, que l’on pourrait comparer à une immense moulinette numérique (terme familier pour expliquer ce qu’est le processus d'apprentissage profond, ou Deep Learning en anglais), est tout aussi importante. Chaque mot, concept ou image du corpus est transformé en un vecteur (une suite de nombres) qui, outre sa signification initiale, lui ajoute les nombreuses connexions qui le relient à d’autres termes. Ces connexions sont pondérées en fonction de la prédictibilité de se voir associées. Un exemple ? Imaginons le mot « souris » et ses significations primaires : un petit rongeur, un dispositif de pointage connecté à un ordinateur, une partie du gigot de mouton, un mot familier pour évoquer une jeune fille ou une femme, voire une prostituée, une confiserie au chocolat, sans oublier la petite souris de notre enfance censée remplacer par une friandise la dent de lait perdue et placée sous l’oreiller avant de s’endormir. Toutes ces significations n’ont pas le même poids en termes d’utilisation courante et seront donc créditées d’une importance adaptée au contexte de la recherche.
À chaque question, l'IA ne cherche plus des mots, elle explore le paysage sémantique qu'elle a construit.
Chacune de ces significations (rongeur, souris informatique...) sera également individuellement enrichie d’autres connexions modélisant les relations de proximité et de sens : le petit rongeur en appelant aux mots mulot, rat, chat, piège, fromage... tandis que la souris informatique bénéficiera de liens vers PC, ordinateur, sans fil, clic droit, Bluetooth, tendinite, ergométrie… On l’aura compris, le deep learning tente de reproduire les réseaux de neurones organisés en couches successives, imitant (très grossièrement) le cerveau humain. À chaque question, l'IA ne cherche plus des mots, elle explore le paysage sémantique qu'elle a construit, rédigeant la réponse la plus plausible en fonction des données d'entraînement et des connexions pondérées attribuées à chacun de ses termes. Cela passe par une reformulation de la question, qu’elle posera peut-être à l’utilisateur pour trouver le contexte le plus approprié.
La création du corpus, et le deep learning qui lui succède, reposent sur le traitement préalable d’innombrables données (textes, images, sons) qui doivent d’abord être triées et étiquetées par une vaste main-d’œuvre humaine aussi anonyme que discrète et sous-payée. L’intelligence dite « artificielle » repose ainsi sur un fastidieux labeur humain préalable bien peu valorisé.
Un exemple d'aide à la décision clinique : le cancer du poumon
Dans la pratique médicale, ce sont ces modèles qui se voient utilisés pour l’aide au diagnostic en croisant les données personnelles du patient et son imagerie (radiologie, dermatologie, anapath, cytologie, bactériologie, …) avec des cohortes entières de patients similaires et la littérature médicale pour proposer une décision clinique personnalisée.
Un bel exemple de ce que l'IA peut apporter comme aide à la décision clinique est fourni par la gestion du cancer du poumon non à petites cellules (CPNPC) afin d’en personnaliser l'approche thérapeutique. Quelle que soit l’expertise personnelle de l’équipe de soins, il lui sera difficile de synthétiser toutes les données de recherche publiées sur des milliers de cas similaires. L'IA intervient ici au niveau de la saisie des données du patient (imagerie, biomarqueurs, résultats des tests de séquençage génomique (ex. : mutations EGFR, ALK, PD-L1), de ses antécédents (âge, comorbidités, traitements antérieurs) et proposera ensuite une analyse du corpus mondial disponible et ses millions de dossiers anonymisés, essais cliniques, articles de revues scientifiques. Comparant l’imagerie du patient, son profil moléculaire et sa clinique à tous les cas similaires stockés dans sa base de connaissance, elle suggèrera une liste de traitements potentiels, les classant en fonction de la probabilité de succès (taux de réponse, survie sans progression) basée sur l'évidence clinique la plus récente.
[1] Chatbot ou agent conversationnel, programme informatique conçu pour simuler une conversation humaine en ligne, que ce soit par texte ou par voix. La variante Chatbox désigne plus précisément l’écran de recherche donnant accès au Chatbot.
À vos claviers : un exercice ludique et pratique
Trêve de théorie, à vous maintenant. Afin de comparer les anciens modèles de recherche par mots clé et un modèle de langage d’intelligence artificielle générative, choisissez un moteur de recherche traditionnel tel Yahoo.fr et introduisez les termes "choix", "pomerol", "cru classé". Observez ce qui vous est proposé.
Utilisez l’écran de recherche de Google et introduisez « comment choisir un grand cru classé de la région de Pomerol ?». Google, ayant flairé le danger d’une baisse de fréquentation de son moteur de recherche, y a tout récemment intégré son outil de gestion IA Gemini qui vous proposera d’entrée de jeu une réponse succincte digne d’un conseiller spécialisé. Comparez les deux types de réponse.