
Municipales 2026 : « Agir ensemble pour Saint-Féliu-d’Amont », la liste présente ses colistiers
14 mars 2026/2026/03/14/petrole-russe-69b50954d313a299288536.jpg?w=150&resize=150,150&ssl=1)
Pétrole russe : réactions à la levée des sanctions
14 mars 2026C’est quoi les world models, cette révolution de l’IA qui a permis à la start-up du Français Yann Le Cun de lever un milliard de dollars
Avec AMI Labs, start-up lancée début mars, Yann Le Cun entend révolutionner l’intelligence artificielle grâce aux « world models ». BFM Tech vous explique comment fonctionne ces modèles, qui se distinguent des modèles de langage que l’on connaît aujourd’hui avec des IA comme ChatGPT.
Ça y est ! Après avoir quitté Meta fin 2025, Yann Le Cun a enfin lancé sa start-up d’intelligence artificielle. Son nom: AMI (Advanced Machine Intelligence) Labs. Avec cette nouvelle entreprise, qui est déjà valorisée à 3,5 milliards de dollars, le chercheur français entend révolutionner l’IA après le bouleversement provoqué par ChatGPT il y a plus de trois ans.
Et pour cela, Yann Le Cun ne mise pas sur les grands modèles de langage (LLM), qui sont à la base du fonctionnement des IA comme celle d’OpenAI, mais sur ce qu’on appelle les « world models » (« modèles du monde » en français). Mais de quoi s’agit-il? En quoi sont-ils différents des LLM qui ont bouleversé nos quotidiens technologiques depuis l’arrivée de ChatGPT? Et, plus simplement, qu’est-ce qu’ils peuvent faire que les LLM ne peuvent pas?
Les LLM, des modèles qui ne comprennent pas le monde
Pour commencer, petit rappel sur les LLM. Comme leur nom l’indique, ces modèles d’IA fonctionnent en s’appuyant sur le langage, donnant l’illusion que les chatbots comme ChatGPT ou Gemini de Google le comprennent comme nous et sont intelligents, mais sans l’être. En réalité, ils ne construisent pas des phrases comme nous sur un sens ou une expérience directe du monde, mais font des prédictions sur le mot suivant à partir de probabilités définies par leur entraînement.
« Si on prend des problèmes comme résumer un texte ou faire des maths ou écrire du code informatique. Ça, ce sont des activités (…) avec des séquences de symboles, du langage. Là, les LLM, on ne les battra pas. Ça marche très bien pour ça et c’est pour ça d’ailleurs qu’aujourd’hui, ce sont les champs d’application », a reconnu Alexandre Lebrun, PDG d’AMI Labs, sur BFM Business.
Mais pour lui, comme pour Yann Le Cun, ce ne sont pas les LLM qui vont permettre d’arriver à ce qu’on appelle l’IA générale (terme que le scientifique français préfère remplacer par « advanced machine intelligence », qu’il trouve plus approprié, NDLR), soit des systèmes aussi intelligents que les humains.
Les deux hommes sont convaincus que la vraie révolution, la voie qui permettra de franchir ce cap, ce sont les « world models ». Car là où les LLM se basent sur le langage, les modèles du monde cherchent, eux, à comprendre le monde, son fonctionnement.
Alexandre Lebrun indiquait ainsi à l’antenne de BFM Business, que les LLM sont « un peu un raccourci, puisqu’ils s’appuient sur le langage. Avec le langage, on décrit le monde (…) dont les modèles n’ont pas d’expérience directe. » Autrement dit, de manière schématique, les LLM ne comprennent pas le monde, le langage et l’absence d’expérience impliquant une niveau d’abstraction, « et on comprend bien qu’on perd quelque chose dans cette abstraction », explique Alexandre Lebrun.
« Dans un ‘world model’, on essaie de se rapprocher de l’apprentissage d’un animal et d’un enfant humain en particulier, et de donner au modèle une expérience directe du monde, donc à partir d’observations », a-t-il expliqué.
Cette idée n’est pas nouvelle, elle provient même d’une vision assez ancienne et très mathématique de la façon dont fonctionne l’humain. Jay Wright Forrester (1918-2016), ingénieur et chercheur américain, qui est célèbre pour avoir créé le domaine de la dynamique des systèmes complexes (économie, environnement, milieu urbain, etc.) et avoir supervisé la création du Whirlwind I, un des premiers ordinateurs électroniques numériques, écrivait en 1971:
« L’image du monde qui nous entoure, que nous portons dans notre tête, n’est qu’un modèle. Personne n’imagine dans son esprit l’ensemble du monde, d’un gouvernement ou d’un pays. Il ne possède que des concepts sélectionnés et les relations entre eux, qu’il utilise pour représenter le système réel. »
Cette citation, mise en exergue dans l’introduction d’un article scientifique majeur dans la littérature des modèles du monde, éclaire la démarche entreprise par AMI Labs. Une voie similaire à la façon dont un enfant, par l’observation et l’expérimentation, apprend à prévoir quelle cause à quelle conséquence, quel effet, et donc à comprendre le monde qui l’entoure. Une approche humaine mais aussi profondément scientifique qui établit les chaînes causales.
Apprendre comme les bébés
Ainsi, Yann Le Cun veut s’inspirer de la façon dont les bébés apprennent des choses pour une bonne raison: ce n’est pas parce qu’ils ne peuvent pas parler qu’ils ne comprennent rien. Dès notre plus jeune âge, on sait par exemple qu’un objet lancé en l’air finit par tomber ou qu’une balle que l’on fait rouler s’arrêtera face à un obstacle… rien qu’en observant et par expérience.
« Dans la première année de notre vie, un humain collecte autant de données que l’ensemble de l’internet mondial aujourd’hui en matière de quantité, de bits d’informations », mettait en perspective le PDG d’AMI Labs.
C’est à partir de ces premières observations que l’on commence à construire notre compréhension du monde, en partant des choses les plus simples, auxquelles on ajoute plus tard d’autres couches comme la religion, la société ou la philosophie, a-t-il ajouté. Et comme nous, un « world model » va construire sa représentation interne du monde à travers de ses observations ou plutôt des vidéos, mais pas seulement.
De l’audio et des données provenant de capteurs pourraient être utiles à ces modèles, a assuré Yann Le Cun auprès de BFM Business début janvier. Ils pourraient même s’appuyer sur des expériences et évaluations passées, comme l’avait indiqué le scientifique quelques jours plus tôt. Autrement dit, une forme d’émotions, née de l’anticipation d’un ressenti à venir provoqué par une cause déjà observée ou vécue.
« Si je vous pince, vous allez avoir mal. Mais ensuite, votre perception de moi sera modifiée par le simple fait que je vous ai pincé. Et la prochaine fois que j’approcherai mon bras du vôtre, vous reculerez. C’est votre anticipation, et l’émotion qu’elle suscite est la peur ou l’évitement de la douleur », avait détaillé Yann Le Cun.
Un modèle du monde n’aurait ainsi pas besoin d’autant de données qu’un modèle de langage pour apprendre des choses. Et cet apprentissage permettrait à des machines alimentées par des « world models » de réaliser des tâches pour lesquelles elles n’ont pas été entraînées spécifiquement, comme l’a démontré la société 1X, soutenue par OpenAI, en janvier dernier.
Grâce à son modèle maison, son robot humanoïde Neo a pu saisir et déplacer des objets qu’il n’avait jamais vus auparavant, comme une orange, car les données avec lesquelles il a été formé incluaient des exemples de ce type de tâches.
Prédire dans un espace abstrait
Yann Le Cun travaille sur de tels modèles depuis quelques années, ayant commencé alors qu’il était encore chez Meta. Le scientifique a donné un premier aperçu de ses travaux en février 2022, lors de l’événement Inside the Lab organisé par le groupe de Mark Zuckerberg.
C’est alors qu’il a présenté la Jepa (Joint Embedding Predictive Architecture), une architecture conçue pour être la base de ces modèles. Contrairement à un modèle génératif, le but ici n’est pas de reconstruire un contenu tel qu’un texte ou une image, mais plutôt de le prédire dans un espace abstrait.
« La beauté de la Jepa réside dans sa capacité à générer naturellement des représentations abstraites et informatives des données d’entrée, éliminant les détails superflus et permettant d’effectuer des prédictions », indique un article de blog de Meta publié le 23 février 2022 et signé par le chercheur français.
Dans le détail, l’architecture va chercher à comprendre le lien entre deux entrées X et Y. Elle va chercher à prédire la seconde à partir de la première, tout en se concentrant sur l’essentiel et non les détails imprévisibles vu que le monde n’est pas entièrement prévisible. Dans le cas d’un scénario impliquant une voiture sur une route, la Jepa va par exemple permettre à un modèle de se focaliser sur les autres véhicules autour de la voiture et non sur la position exacte de chaque feuille des arbres aux alentours de cette route, contrairement à un modèle génératif.
Premières avancées
À partir de cette architecture, Yann Le Cun et son équipe au sein de Meta ont lancé plusieurs modèles, le premier étant I-JEPA (I pour Image), en juin 2023. Il ne cherche pas à prédire chaque pixel manquant d’une image, mais les informations manquantes dans une représentation abstraite, afin de réduire le risque d’erreurs telles que des mains qui ont plus ou moins de cinq doigts, un problème connu avec les IA génératrices d’images.
Le fondateur d’AMI Labs s’est ensuite concentré sur la vidéo, dévoilant en juin dernier, V-JEPA 2, successeur de V-JEPA, lancé en février 2024. Entraîné sur des vidéos d’un ensemble de données open source, il permet aux robots d’interagir avec des objets et des environnements inconnus.
Pour une tâche à court terme telle que prendre un objet, V-JEPA 2 commence par recevoir l’objet à saisir sous la forme d’une image. Il planifie alors une manière d’atteindre ce but en imaginant les conséquences de diverses séries d’actions et choisit celle qui est le plus à même de lui permettre d’y arriver.
Dans le cas de tâches à plus long terme, comme prendre et déplacer un objet, il reçoit deux sous-objectifs qu’il doit atteindre dans l’ordre. « Grâce à ces sous-objectifs visuels, V-JEPA 2 atteint des taux de réussite de 65% à 80% pour la prise et le placement de nouveaux objets dans des environnements nouveaux et inconnus », s’est réjoui Meta.
De longues années avant de révolutionner l’IA
Ces modèles du monde ne seraient pas seulement utiles dans le domaine de la robotique. « AMI fera progresser la recherche en IA et développera des applications où la fiabilité, la contrôlabilité et la sécurité sont vraiment importantes, en particulier pour le contrôle des processus industriels, l’automatisation, les appareils portables, la robotique, les soins de santé, etc. », affirme la start-up de Yann Le Cun sur son site.
« Ce sont des applications qui sont aujourd’hui très très mal servies par les modèles qu’on a sur le marché et donc il y a un besoin immense », a renchéri Alexandre Lebrun sur BFM Business.
Et Yann Le Cun n’est pas le seul à s’intéresser aux « world models ». C’est aussi le cas de Fei-Fei Li, pionnière de l’IA injustment moins connue que ses homologues masculins, même si elle a partagé la couverture du magazine Time sur les Architectes de l’IA. À l’origine de la révolution de l’apprentissage automatique (champ d’étude de l’IA visant à utiliser des données pour aider les machines à apprendre, NDLR), elle est à la tête de la société World Labs. Le 12 novembre dernier, cette entreprise a lancé son premier produit, Marble, qui se base sur un modèle du monde multimodal.
Il permet de créer des mondes en 3D de haute fidélité à partir d’une requête, d’une image ou encore d’une vidéo. Comme le souligne World Labs dans un article, de tels mondes sont très utiles à la robotique, car ils permettent d’entraîner les robots dans des environnements simulés (entrepôt, cuisine…). Essentiels à l’apprentissage de ces machines, ces derniers ne pouvaient jusqu’à présent pas être déployés à l’échelle requise par les modèles d’IA, explique la société.
Mais, grâce à Marble, les chercheurs peuvent « créer rapidement des milliers de scènes photoréalistes » et « ainsi tester les algorithmes de perception, de planification et de contrôles sur une infinité de variations visuelles et structurelles – un élément crucial pour la randomisation de domaine, qui consiste à entraîner les robots dans divers mondes synthétiques afin d’améliorer leurs performances dans le monde réel », insiste-t-elle.
Les modèles du monde intéressent également Google Deepmind pour des raisons similaires. Fin janvier, le géant américain a dévoilé Project Genie, une application web prototype capable de créer des mondes interactifs à la demande des utilisateurs. Pour cela, elle s’appuie sur le « world model » Genie 3, de Deepmind, la filiale IA de Google, qui peut générer des mondes dans lesquels il est possible de se déplacer en temps réel, comme dans un jeu vidéo.
« Genie 3 est notre premier modèle du monde permettant une interaction en direct, tout en améliorant la cohérence et le réalisme par rapport à Genie 2. Il peut générer des mondes dynamiques en 720p et 24 images par seconde, chaque image étant créée en réponse aux actions de l’utilisateur », s’était enthousiasmée Deepmind en août.
Ce « world model » est également à la base du modèle du monde utilisé par Waymo (filiale d’Alphabet, maison mère de Google) depuis février. Objectif: améliorer le logiciel de conduite autonome derrière ses robotaxis, en l’entraînant dans des scénarios rares, comme une tornade ou un éléphant sur la route. Événements qu’il est impossible de reproduire à grande échelle dans la réalité pour entraîner la voiture autonome à réagir à l’improbable.
Le PDG de Deepmind, Demis Hassabis, pense d’ailleurs, comme Yann Le Cun, que les « world models » sont essentiels pour parvenir à l’IA générale. Ils permettraient aux systèmes qu’ils alimentent « de planifier à long terme dans le monde réel, sur des horizons temporels potentiellement très longs, ce que nous, les humains, sommes capables de faire », avait-il déclaré fin janvier.
Les modèles du monde sont porteurs de nombreuses promesses, ils semblent taillés pour un jour offrir à la robotique, aux voitures autonomes, aux jeux vidéo ou encore, et bien sûr, aux agents IA généralistes l’étincelle d’intelligence nécessaire pour appréhender notre monde, en créer d’autres. Des IA qui apprennent à comprendre leur environnement pour ensuite imaginer le futur proche ou lointain et agir en conséquence, et une fois encore la question de ce que nous en ferons, nous, les humains. Ce n’est de facto pas une révolution, c’est un potentiel saut quantique dans l’histoire de l’évolution.
Mais pour Google comme pour AMI Labs, nous n’en sommes qu’au début. Il reste en effet encore beaucoup à faire avec les « world models ». « Il faudra des années, voire une décennie, avant que tout fonctionne correctement », admettait déjà Yann Le Cun, en octobre 2024.
Notre analyse Actus-Eco.fr : Ces informations offrent un aperçu des tendances économiques actuelles. Consultez nos autres publications pour suivre l’évolution des prix du carburant et des secteurs clés de l’économie.
Source : www.bfmtv.com

9999999
