Multimodalité, importance cognitive de la vision & les capacités de l’IAg à résumer…

Multimodalité, importance cognitive de la vision & les capacités de l’IAg à résumer…

Voici quelques extraits d’une discussion forte intéressante entre Jensen Huang et Ilya Sutskever, autour des développements de l’IA générative, au moment de la sortie de ChatGPT-4 (mars 2023).

Ilya Sutskever est considéré comme le principal ingénieur du développement de ChatGPT-4, qui a marqué une étape essentielle vers une réelle « intelligence » des IA génératives. Il est l’élève de Geoffrey Hinton (Prix Turing 2018 et Prix Nobel de physique 2024) et l’un des cofondateurs de la société OpenAI.
Pour des divergences sérieuses avec la direction d’OpenAI, il a quitté cette société et a créé sa propre entreprise : SSI (Safe Superintelligence).


Jensen Huang est le CEO de NVIDIA, la société américaine d’abord connue pour ses cartes graphiques (coprocesseurs graphiques) permettant les animations 3D des jeux vidéo en temps réel, et qui fournit aujourd’hui les milliers de GPU (Graphical Processing Units) essentiels à la viabilité computationnelle des IA génératives. Colossus, le superordinateur d’IA d’Elon Musk, utilise 100 000 GPU H100, chaque GPU coûtant environ 100 000 dollars, soit un total de 10 milliards de dollars rien qu’en puces NVIDIA…

Cette discussion aborde des points clés permettant de mieux comprendre le fonctionnement et les limites des IA génératives.

Le premier extrait concerne l’importance de la multimodalité, et en particulier la capacité des IA génératives à interpréter finement une image. Sutskever évoque des cas pédagogiques où une image illustre un exercice ou une explication de cours, et explique pourquoi la vision est un élément clé de l’intelligence des IA génératives.

Premier extrait : les capacités de vision (image-to-text) des IAg

Jensen Huang : Pouvez-vous nous expliquer votre point de vue sur l’importance de la multimodalité ?

Ilya Sutskever : Il y a deux dimensions à la multimodalité, deux raisons pour lesquelles elle est intéressante. D’abord, je pourrais simplement dire que la multimodalité est utile. La modalité visuelle est utile pour un réseau neuronal, en particulier parce que le monde est très visuel. Les êtres humains sont des animaux très visuels. Je crois qu’un tiers du cortex humain est dédié à la vision. Donc, en n’ayant pas la vision, l’utilité de nos réseaux neuronaux, bien que toujours considérable, n’est pas aussi grande qu’elle pourrait l’être. C’est un argument de simple utilité. Il est simplement utile de voir, et GPT-4 peut voir assez bien. Le deuxième intérêt de la vision est que nous apprenons davantage sur le monde en apprenant avec des images en plus des textes. C’est aussi un argument puissant, bien que ce ne soit pas aussi clair qu’il n’y paraît. Je vais vous donner un exemple, ou plutôt, avant de donner un exemple, je vais faire un commentaire général. En tant qu’êtres humains, nous entendons environ un milliard de mots au cours de notre vie entière.

Jensen Huang : Seulement un milliard de mots ? C’est incroyable.

Ilya Sutskever : Oui, ce n’est pas beaucoup. Donc, nous devons compenser.

Jensen Huang : Est-ce que cela inclut mes propres mots dans ma propre tête ?

Ilya Sutskever : Disons deux milliards, mais vous voyez ce que je veux dire. Faisons un petit calcul. Un milliard de secondes équivaut à 30 ans et nous n’entendons pas plus que quelques mots par seconde ; nous dormons la moitié du temps, donc quelques milliards de mots au cours d’une vie est une estimation très plausible. On arrive facilement à la conclusion que la vision est une source d’information importante pour les humains. Le même argument vaut pour nos réseaux neuronaux, même si un réseau neuronal peut apprendre d’une énorme quantité de mots. Donc, les choses qui sont difficiles à apprendre sur le monde à partir du texte en quelques milliards de mots, peuvent devenir plus faciles à partir de trillions de mots. Prenez par exemple les couleurs. Il faut sûrement voir pour comprendre les couleurs. Et pourtant, les réseaux neuronaux basés uniquement sur le texte n’ont jamais vu un seul photon dans leur vie entière : si vous leur demandez quelles couleurs sont plus similaires entre elles, ils sauront que le rouge est plus similaire à l’orange qu’au bleu. Ils sauront que le bleu est plus similaire au violet qu’au jaune. Comment cela se fait-il ? Une réponse est que l’information sur le monde, même l’information visuelle, se glisse lentement dans le texte. Mais quand vous avez beaucoup de texte, vous pouvez toujours apprendre beaucoup. Bien sûr, une fois que vous ajoutez un mode d’apprentissage du monde à partir de la vision, vous apprendrez des choses supplémentaires qui ne sont pas capturées dans le texte. Il n’y a pas de séparation nette entre la connaissance tirées des textes et celles tirées de la vision, même s’il est clair qu’il existe  des choses qu’il est impossible d’apprendre uniquement à partir du texte. Bien sûr, si vous êtes comme un être humain limité à un milliard de mots [ou peut-être moins dans les premières années de votre vie], alors il devient évident que les autres sources d’informations prennent une importance relative bien plus importantes.

Jensen Huang : Et donc, en apprenant avec des images, y a-t-il une sensibilité qui suggérerait que si nous voulions comprendre le monde réel, comment le bras est connecté à mon épaule, mon coude à mon bras et que tout cela bouge dans le monde physique, si je voulais apprendre cela aussi, est-il possible de réduire l’apprentissage à la vision de vidéos ? Et si je voulais augmenter tout cela avec le son, comme par exemple pour prendre en compte les intonations, l’enthousiasme ou le sarcasme, l’audio pourrait-il aussi contribuer à l’apprentissage du modèle et pourrions-nous l’utiliser bientôt ?

Ilya Sutskever : Oui, je pense que c’est définitivement le cas. Que pouvons-nous dire sur l’audio ? C’est utile, c’est une source d’information supplémentaire, probablement pas autant que les images ou les vidéos. Mais il y a un argument à faire pour l’utilité de l’audio également, à la fois sur le côté reconnaissance et sur le côté production.

Jensen Huang : Les tests que vous avez effectués montrent que GPT-4 est meilleur que GPT-3. Comment pensez-vous que la multimodalité a contribué à ces tests ?

Ilya Sutskever : De manière assez simple. Il y a des tests (par exemple les tests AMC2 pour les lycéens) où un diagramme fait partie du problème : pour ces problèmes, GPT-3.5 s’en sort très mal avec 2 % de réussite : GPT-4 avec ses seules capacités textuelles passe de 2 % à 20 % de réussite. Mais quand vous ajoutez la vision, GPT-4 passe à 40 % de taux de réussite. La vision améliore vraiment les choses. Il est certain que les capacités des futures versions de ChatGPT à pouvoir communiquer et raisonner visuellement apporteront de la puissance et du confort d’utilisation. Peut-être que dans l’avenir, quand vous demanderez à votre réseau de neurones : « Explique-moi cela », plutôt que de produire quatre paragraphes, il produira un petit diagramme qui transmettra clairement ce que vous devez savoir.

Jensen Huang : Certaines estimations affirment qu’il y a un total d’environ 4 à 20 trillions de tokens utilisables pour l’entraînement des IA génératives et que cette quantité pourrait être limitante. Il y a un débat sur la possibilité d’un entraînement des IA à partir de données synthétiques pour des raisons de circularité. Mais les humains apprennent à partir de connaissances générées par d’autres humains aussi bien que par l’auto-réflexion. Quelle est votre position sur l’utilisation des données synthétiques et sur l’auto-entraînement des IA ?

Ilya Sutskever : Je ne sous-estimerais pas la quantité de données qui existent déjà sous une forme ou sous une autre. Je pense qu’il y a probablement plus de données que les gens ne le réalisent. Quant à votre deuxième question, c’est certainement une possibilité. Cela reste à voir.

Jensen Huang : Quelle est votre vision de l’avenir de ce sujet, disons à l’horizon de un ou deux ans. Où en sera le domaine des modèles de langage et quels sont les points de développement qui vous enthousiasment le plus ?

Ilya Sutskever : Les prédictions sont difficiles, mais il est certain que les progrès ne vont pas s’arrêter là et que de nouveaux systèmes vont émerger et nous étonner par ce qu’ils peuvent faire. Les recherches actuelles se focalisent sur la fiabilité afin d’aboutir à un système auquel vous pouvez faire confiance. Un tel système pourrait admettre qu’il ne comprend pas quelque chose et demander des clarifications ou un supplément d’informations. Je pense que ce sont peut-être les domaines où les progrès auront le plus grand impact. Aujourd’hui, si vous demandez à un réseau de neurones de résumer un long document, il n’est pas sûr qu’un point important n’ait pas été omis ! Le résultat est toujours un résumé utile, mais c’est une autre histoire quand vous savez que tous les points importants ont été couverts. À un certain point, il est acceptable qu’il y ait une ambiguïté à la marge, mais si un point est clairement important, le réseau neuronal doit aussi le reconnaître de manière fiable.

Deuxième extrait : les capacités des IAg à résumer des documents

Dans le deuxième extrait, Sutskever parle des capacités des IA génératives à résumer un document : cet aspect est essentiel dans les fonctions de recherche générative, où la production du texte généré est alignée avec des documents de référence utilisés pour construire la réponse. Si le résumé est de qualité, l’IA produira moins d’hallucinations. Plusieurs problèmes persistent : ne pas omettre des éléments importants, éviter les contresens…

Ilya Sutskever : Les [développements de l’IA générative] à venir porteront principalement sur les question de fiabilité, sur la capacité des systèmes à être digne de confiance. Atteindre un point où l’on peut vraiment faire confiance à ce que l’IA produit arriver à un niveau où, si l’IA ne comprend pas quelque chose, elle demande une clarification, indique qu’elle ne sait pas ou qu’elle a besoin de plus d’informations. Je pense que ce sont là les domaines où les améliorations auront le plus d’impact sur l’utilité réelle de ces systèmes. Actuellement, c’est cela qui fait obstacle. Par exemple, on demande à un réseau de neurones de résumer un long document, et on obtient un résumé : mais peut-on être sûr qu’aucun détail important n’a été omis ? C’est toujours utile, bien sûr, mais c’est une autre histoire si l’on sait avec certitude que tous les points importants ont bien été couverts.

Depuis le printemps 2023 et le lancement de GPT‑4, l’IA générative a parcouru un chemin impressionnant. L’arrivée de modèles véritablement multimodaux (image, audio, vidéo) tels que GPT‑4o (mai 2024), Google Gemini 2.5 (mars 2025) et Apple MM1 (2024) confirme la trajectoire tracée par Sutskever — que l’apprentissage visuel et sonore enrichit la compréhension du monde, notamment pour la perception des couleurs ou des mouvements.

Dans le même temps, des efforts majeurs se concentrent sur la fiabilité : réduction des hallucinations, meilleures capacités de résumé, transparence et capacité de dire “je ne sais pas” sont devenus des priorités centrales. Les modèles de prochaine génération intègrent désormais des chaînes de raisonnement explicites (OpenAI o1, Gemini 2.5) et exploitent davantage de données — y compris synthétiques et multimodales — pour pallier la limite des tokens textuels.

Enfin, la portée des IA génératives s’étend : génération vidéo synchronisée (Google Veo 3, mai 2025), audio/voix expressive, 3D et environnements interactifs, ainsi que applications industrielles — design, robotique, recherche scientifique…

Les prédictions de Sutskever se sont ainsi révélées justes : la multimodalité est devenue un pilier de l’intelligence artificielle, et la fiabilité est au cœur des innovations. Mais c’est aujourd’hui que le défi devient tangible : comment équilibrer performance, confiance, éthique et énergie ? Alors que nous nous rapprochons d’un véritable assistant multimodal infaillible, jusqu’où cela nous mènera-t-il ? Une belle ouverture pour débattre de l’impact sociétal, réglementaire et technique à venir.



Dernière mise à jour il y a 4 mois

Loading

Partagez votre appréciation ⭐
Nombre d'appréciation : 1 , moyenne : 5
S’abonner
Notification pour
guest
0 Commentaires publics
Le plus ancien
Le plus récent Le plus populaire
Commentaires publics en ligne
Afficher tous les commentaires publics
Chargement en cours...
Chargement en cours...
0
💬  Contribuer au débat public !x