🏆 L’essentiel à retenir
LMArena AI (rebaptisé Arena en janvier 2026, accessible sur arena.ai) est la plateforme de référence mondiale pour comparer les modèles d’IA via des duels anonymes. 5+ millions d’utilisateurs mensuels, 316+ modèles évalués, 100% gratuit. Le classement de mai 2026 est dominé par les modèles Claude d’Anthropic.
- ✅ 100% gratuit — aucun compte requis pour comparer les modèles
- ✅ 316+ modèles — ChatGPT, Claude, Gemini, Grok, Mistral, Llama et plus
- ✅ Duels anonymes — tu vois deux réponses sans savoir quel modèle les a produites
- ✅ Multi-arenas — texte, image, code, vision, recherche, vidéo
LMArena AI est la plateforme qui répond à la question que tout le monde se pose : quel modèle d’IA est vraiment le meilleur ? Contrairement aux benchmarks techniques classiques (MMLU, HumanEval), LMArena mesure les préférences humaines réelles via des millions de duels anonymes. Résultat : un classement qui reflète ce que les utilisateurs trouvent réellement utile, pas ce que les entreprises annoncent dans leurs communiqués.
Qu’est-ce que LMArena AI (devenu Arena) ?
LMArena — officiellement rebaptisé Arena en janvier 2026 sur le domaine arena.ai — est né comme projet de recherche à l’Université de Californie à Berkeley sous le nom Chatbot Arena, porté par le groupe LMSYS. En mai 2025, la plateforme est devenue une entreprise indépendante (Arena Intelligence Inc.) après une levée de fonds de 100 millions de dollars.
En 2026, Arena est la référence mondiale pour évaluer les modèles d’IA :
- 5+ millions d’utilisateurs mensuels dans 150 pays
- 60 millions de conversations par mois
- 316+ modèles évalués (dont tous les grands modèles d’OpenAI, Anthropic, Google, Meta, xAI, Mistral, DeepSeek…)
- 5,37 millions de votes humains accumulés
Le nom LMArena reste très utilisé dans la communauté — c’est le même outil, juste rebaptisé. Sur Hugging Face, le leaderboard est toujours disponible sous l’identifiant lmarena-ai.
Comment fonctionne Chatbot Arena (LMArena) ?

Le principe est brillant dans sa simplicité. Tu arrives sur arena.ai, tu poses une question ou un prompt, et tu reçois deux réponses en parallèle. Tu ne sais pas quel modèle a produit quelle réponse — c’est le cœur du système : l’aveuglement garanti.
- Tu saisis ton prompt (question, demande de rédaction, problème de code…)
- Arena affiche simultanément deux réponses anonymisées (« Modèle A » et « Modèle B »)
- Tu votes pour la meilleure réponse, ou tu déclares une égalité
- Arena révèle les identités des modèles après ton vote
- Ton vote alimente le calcul du score Elo de chaque modèle
Le score Elo est le même système de classement utilisé aux échecs. Un modèle gagne des points Elo quand il bat un adversaire mieux classé — ce qui reflète sa force relative. Les scores sont recalculés en continu à chaque nouveau vote.
💡 Pourquoi l’anonymat est crucial
Sans anonymat, les utilisateurs voteraient pour les marques qu’ils connaissent (OpenAI, Google) indépendamment de la qualité. L’aveuglement force un jugement purement basé sur la qualité perçue de la réponse — c’est ce qui rend le classement LMArena plus représentatif que les benchmarks auto-déclarés des fabricants.
Le classement Arena AI 2026 — snapshot mai 2026

Le leaderboard évolue chaque semaine avec les nouvelles sorties de modèles. Voici l’état du classement général en mai 2026, avec les scores Elo approximatifs :
| Rang | Modèle | éditeurPoints forts | |
|---|---|---|---|
| 🥇 1 | Claude Opus 4.7 (thinking) | Anthropic | Raisonnement, coding, génération texte |
| 🥇 2 | Claude Opus 4.6 | Anthropic | Coding, analyse, vision |
| 🥈 3 | GPT-5.5 | OpenAI | Polyvalence, conversations longues |
| 4 | Gemini 3.1 Pro | Génération d’images, intégration Google | |
| 5 | Grok 4.3 | xAI | Données X temps réel, raisonnement |
| 6 | GPT-5.4 | OpenAI | Rapport qualité/prix production |
| 7 | DeepSeek V3 | DeepSeek | Meilleur open-source, coding |
| 8 | Llama 4 Maverick | Meta | Meilleur modèle open-weights |
| 9 | Mistral Large 3 | Mistral | RGPD européen, multilingue |
| 10 | Qwen 3 Max | Alibaba | Meilleur asiatique, rapport coût/perf |
⚠️ Important : ce tableau est un snapshot indicatif de mai 2026. Le classement change chaque semaine. Consulte arena.ai pour le classement en temps réel. Les modèles « thinking » (raisonnement étendu) dominent les catégories difficiles, tandis que les modèles standards restent souvent préférables pour les tâches quotidiennes.
Les arenas thématiques de LMArena
Depuis le rebranding en Arena en 2026, la plateforme évalue les modèles sur plusieurs dimensions séparées. Un modèle peut être top sur le texte et médiocre sur le code — d’où l’intérêt des arenas spécialisées :
- Text Arena — rédaction, analyse, conversation générale. Claude domine.
- Code Arena — génération et débogage de code. Claude Opus 4.6 et GPT-5.5 dominent.
- Image Arena — génération d’images. Gemini et GPT Image dominent.
- Vision Arena — analyse d’images. Claude et GPT-4o dominent.
- Video Arena — génération vidéo IA. Veo 3 et Sora 2 dominent.
- Search Arena — recherche web augmentée. Grok DeepSearch et Perplexity dominent.
- Arena Hard / Arena Expert — variantes réservées aux prompts difficiles, pour éviter les biais sur les tâches simples.
Peut-on vraiment faire confiance au classement LMArena ?
Question légitime — Reddit la pose régulièrement. Les limites réelles du système :
- Biais de population — les votants sont majoritairement des développeurs anglophones. Les préférences pour des tâches en français ou des cas métiers spécifiques peuvent diverger.
- Manipulation potentielle — des entreprises peuvent tenter d’orienter les votes en déployant du trafic coordonné. Arena a mis en place des détections d’anomalies depuis 2025.
- Biais de nouveauté — les derniers modéles sortis peuvent être surévalués par les premiers votants enthousiastes.
- Écart de 20 Elo = match nul — des modèles à moins de 20 points de distance sont statistiquement équivalents.
Malgré ces limites, Arena reste le benchmark le plus indépendant et le plus utile pour choisir un modèle — bien supérieur aux benchmarks publiés par les fabricants eux-mêmes. La clé : utiliser les arenas thématiques plutôt que le classement général, et vérifier les modèles dans ta catégorie d’usage spécifique.
Comment utiliser LMArena AI et participer
- Va sur arena.ai — 100% gratuit, pas de compte requis pour les duels de base
- Choisis le mode Battle (duel anonyme) ou Direct Chat (choisir un modèle spécifique)
- En mode Battle : saisis ton prompt, reçois les deux réponses, vote
- Après le vote : converse pour affiner, ou lance un nouveau duel
- Consulte le leaderboard sur arena.ai/leaderboard ou sur Hugging Face (
lmarena-ai/arena-leaderboard)
💡 Astuce usage : pour choisir le meilleur modèle pour ton usage spécifique, fais 10-15 duels en mode Battle avec des prompts représentatifs de ce que tu fais vraiment (code Python, analyse juridique, rédaction marketing…). Le classement général ne remplace pas ton propre test.
Bénéfices pour les développeurs et entreprises
- Choisir le bon modèle API — avant de migrer de GPT-4o à Claude, Arena permet de valider objectivement le gain de qualité perçu sur des prompts représentatifs
- Calibrer ses attentes — si deux modèles sont à moins de 20 Elo de distance, le moins cher est probablement le meilleur choix
- Suivre les évolutions — le classement se met à jour en continu : définir une alerte trimestrielle pour vérifier si un nouveau modèle s’impose dans sa catégorie
- Soumettre un modèle — si tu développes ou déploies un modèle, Arena accepte les soumissions via une API publique pour entrer dans le classement
Alternatives à LMArena pour évaluer les modèles IA
| Plateforme | Approche | Point fort |
|---|---|---|
| Arena AI (lmarena) | Duels anonymes par votes humains | Le plus indépendant et le plus utilisé |
| Open LLM Leaderboard (HuggingFace) | Benchmarks techniques automatiques | Focus open-source et modèles fine-tunés |
| MMLU / GPQA / MATH | Tests académiques standardisés | Référence pour le raisonnement et les sciences |
| SWE-bench | Benchmark coding réel (GitHub issues) | Le meilleur pour évaluer les agents de code |
| EloEverything | Classement multi-dimensionnel | Vue synthétique prix/performance/qualité |
📚 Pour aller plus loin
- DeepSearch — la recherche IA agentique que tu peux tester depuis LMArena (Search Arena)
- Mistral AI — le modèle français régulièrement évalué sur Arena
- Guide prompt IA — pour créer de bons prompts de test sur LMArena
- Stack IA rentable 2026 — choisir les bons modèles pour sa stack après consultation d’Arena
FAQ — Questions fréquentes sur LMArena AI
Qu’est-ce que LMArena AI ?
LMArena AI (rebaptisé Arena en janvier 2026) est la plateforme de référence mondiale pour comparer et classer les modèles d’intelligence artificielle. Née comme projet de recherche à UC Berkeley, elle fonctionne via des duels anonymes : les utilisateurs voient deux réponses sans savoir quel modèle les a produites, votent pour la meilleure, et le score Elo de chaque modèle est mis à jour. Plus de 5 millions d’utilisateurs mensuels et 316+ modèles évalués en 2026.
LMArena est-il gratuit ?
Oui, 100% gratuit. Tu peux accéder à arena.ai, lancer des duels et consulter le leaderboard sans compte et sans carte bancaire. La création d’un compte (optionnelle) permet de conserver l’historique de tes votes et d’accéder à certaines fonctions avancées.
Quel modèle IA est le meilleur en 2026 selon LMArena ?
En mai 2026, les modèles Claude d’Anthropic dominent le classement général, avec Claude Opus 4.7 (thinking) en tête. GPT-5.5 d’OpenAI est en position 3, Gemini 3.1 Pro de Google en position 4. Le classement évolue chaque semaine — consulte arena.ai pour le snapshot actuel. À noter : des modèles à moins de 20 Elo de distance sont statistiquement équivalents.
Quelle est la différence entre LMArena et les benchmarks classiques ?
Les benchmarks classiques (MMLU, GPQA, HumanEval) mesurent des capacités techniques sur des tests standardisés. LMArena mesure les préférences humaines sur des prompts réels. Un modèle peut scorer haut sur MMLU mais produire des réponses que les humains trouvent moins utiles — et vice-versa. LMArena est plus représentatif de l’expérience réelle mais reste soumis aux biais de sa population de votants.
Comment soumettre un modèle à LMArena ?
Les éditeurs de modèles peuvent soumettre leurs modèles via l’API d’Arena. La procédure est documentée sur arena.ai. Le modèle doit être accessible via une API, et Arena le soumet à des duels aléatoires contre d’autres modèles à l’aveugle. Les modèles open-source peuvent aussi être évalués via HuggingFace (lmarena-ai/arena-leaderboard).