La vision de Google DeepMind semble claire aujourd'hui : si nous voulons atteindre l'Intelligence Artificielle Générale (AGI), il faut que les machines comprennent la physique intuitive, la causalité et les objets permanents. Leur solution ? Surcharger les modèles multimodaux comme Gemini avec des flux vidéo génératifs de haute fidélité. L'hypothèse séduisante est la suivante :
Mais cette équation contient un biais fondamental : confondre la reproduction statistique de pixels avec la modélisation causale du réel. Voici pourquoi miser uniquement sur la génération vidéo pourrait être un impasse coûteuse.
Générer une vidéo réaliste nécessite d'absorber les distributions de probabilité des textures, des éclairages et des mouvements. Cependant, cela ne signifie pas que le modèle comprend ce qu'il génère. C'est une illusion de compétence. Reproduire la trajectoire d'une balle en fonction de millions d'exemples précédents n'est pas la même chose que de savoir pourquoi elle rebondit.
L'architecture concurrente défendue par Meta (les Joint Embedding Predictive Architectures ou JEPA) part d'un postulat opposé et probablement plus juste sur le plan biologique. Le cerveau ne prédit pas chaque pixel de ce qu'il va voir. Il prédit des états latents.
Au lieu d'entraîner un modèle à reconstruire le chaos des feuilles qui bougent dans le vent (un signal purement stochastique et non informatif), JEPA entraîne un réseau à prédire quelle représentation abstraite correspond à l'état futur. C'est un gain d'efficacité massif : au lieu de diluer la capacité cognitive du modèle dans des détails visuels triviaux, on concentre toute sa puissance de calcul sur la logique structurelle.
Les modèles de diffusion utilisés pour générer cette vidéo exigent des centaines d'étapes d'inférence itérative pour arriver à un résultat acceptable. Pour atteindre une réelle intelligance, il faut non seulement générer, mais planifier et anticiper dans ces mondes simulés. multiplier l'effort de calcul par des milliers rend le déploiement industriel et écologique profondément douteux comparé à une prédiction latente directe.
DeepMind a raison de croire que les seuls langages textuels sont insuffisants pour une intelligence incarnée. Cependant, confier la compréhension du monde aux sorties brutes de diffuseurs vidéo est comme construire une voiture en peignant méticuleusement les roues sans jamais regarder le moteur.
L'avenir de l'AGI ne réside ni dans le texte pur, ni dans le pixel brut, mais dans une architecture capable de naviguer entre les deux : utiliser le visuel pour ancrer des concepts abstraits, sans se perdre dans la complexité infinie de leur rendu instantané.