Sorry, no results.
Please try another keyword
Épisode
9 juin 2025 - 6min
Une analyse approfondie des capacités de raisonnement des Grands Modèles de Raisonnement (LRM) par rapport aux Modèles de Langage Standards (LLM), se basant principalement sur une étude d'Apple intitulée "The Illusion of Thinking". Cette étude utilise des environnements de puzzle contrôlables pour évaluer les modèles, contournant les problèmes de contamination...
Une analyse approfondie des capacités de raisonnement des Grands Modèles de Raisonnement (LRM) par rapport aux Modèles de Langage Standards (LLM), se basant principalement sur une étude d'Apple intitulée "The Illusion of Thinking". Cette étude utilise des environnements de puzzle contrôlables pour évaluer les modèles, contournant les problèmes de contamination des données rencontrés dans les benchmarks standards. Les recherches révèlent que si les LRM affichent des avantages à complexité moyenne, leurs performances s'effondrent à haute complexité, suggérant une limitation fondamentale dans leur capacité à un raisonnement robuste et généralisable. Elles examinent également le rôle de la Chaîne de Pensée (CoT) et de l'Apprentissage par Renforcement (RL) dans ces modèles, tout en soulignant des comportements inattendus tels que la "sur-réflexion" et une diminution contre-intuitive de l'effort de raisonnement face aux problèmes les plus difficiles. Get full access to blackridder22 at blackridder22.substack.com/subscribe
Afficher plus
Une analyse approfondie des capacités de raisonnement des Grands Modèles de Raisonnement (LRM) par rapport aux Modèles de Langage Standards (LLM), se basant principalement sur une étude d'Apple intitulée "The Illusion of Thinking". Cette étude utilise des environnements de puzzle contrôlables pour évaluer les modèles, contournant les problèmes de contamination des données rencontrés dans les benchmarks standards. Les recherches révèlent que si les LRM affichent des avantages à complexité moyenne, leurs performances s'effondrent à haute complexité, suggérant une limitation fondamentale dans leur capacité à un raisonnement robuste et généralisable. Elles examinent également le rôle de la Chaîne de Pensée (CoT) et de l'Apprentissage par Renforcement (RL) dans ces modèles, tout en soulignant des comportements inattendus tels que la "sur-réflexion" et une diminution contre-intuitive de l'effort de raisonnement face aux problèmes les plus difficiles.
Pas de transcription pour le moment.
blackridder22
blackridder22
Vous devez être connecté pour soumettre un avis.
blackridder22