Une récente évaluation objective des modèles de langage, menée par la Chatbot Arena, a positionné Google en tête du classement. En effet, le groupe a réussi à placer deux de ses modèles parmi les trois premiers, laissant OpenAI à la troisième place.
Chatbot Arena vient de publier son classement des 10 modèles d’intelligence artificielle les plus performants du mois de décembre. Cette nouvelle édition confirme l’intense compétition entre les géants de l’IA, Google et OpenAI. Avec huit modèles parmi les dix premiers, ces deux entreprises dominent le classement. Plus particulièrement, Google a réalisé une performance remarquable en s’emparant des deux premières places grâce au lancement de Gemini 2.0 Flash, témoignant de sa volonté de conserver sa position de leader.
Les facteurs d’évaluation des modèles de langage
La Chatbot Arena, une initiative de « Large Model Systems Organization », est une plateforme conçue pour évaluer les modèles d’IA. En opposant deux modèles dans des duels anonymes, elle sollicite les avis des utilisateurs pour déterminer lequel fournit la meilleure réponse. La plateforme garantit une évaluation objective et continue, reflétant les capacités des modèles dans des conditions d’utilisation réelles.
Pour classer ces modèles et suivre leur évolution, Chatbot Arena s’appuie sur un système de notation bien connu dans le monde des jeux « Elo ». Ce système attribue à chaque modèle une note qui évolue en fonction des résultats de ses duels. Un modèle gagne des points en battant un concurrent mieux classé et en perd dans le cas contraire. Ce mécanisme est similaire à celui utilisé dans une simulation de portage salarial où les revenus d’un employé porté évoluent en fonction de ses missions et de leur évaluation par le client.
Un classement dominé par Google et OpenAI
D’après l’évaluation de Chatbot Arena, Gemini-Exp-1206 obtient le meilleur classement avec une note Elo de 1372, démontrant ainsi une performance supérieure aux autres modèles. Il est suivi par Gemini 2.0 (1368) et ChatGPT 4o Latest (1364). Les autres modèles du top 10 incluent Gemini 2.0 Flash (1354), o1-preview (1335), o1-mini (1306), Gemini 1.5 Pro (1302), Grok-2-08-13 (1288), Yi-Lightning (1287) et GPT 4o (1285).
Le modèle de langage Claude, souvent dans les premiers rangs du classement, sort du top 10 pour se retrouver à la 11e position. De son côté, Yi Lightning, conserve sa place parmi les 10 meilleurs modèles en se classant 9e. Grok, quant à lui, perd une position par rapport au mois précédent et occupe la 8e place. Enfin, Mistral Large-24-11 n’a pas réussi à revenir dans le top 20 et se situe à la 25e place.
En parallèle à ces avancées dans le domaine de l’intelligence artificielle, le monde du travail continue d’évoluer. Pour les indépendants souhaitant bénéficier d’un statut de salarié tout en conservant leur autonomie, le portage salarial est une option de plus en plus populaire. Grâce à des outils de simulation portage salarial il est désormais possible d’obtenir rapidement une estimation précise de ses revenus potentiels.
Cet article vous a-t-il été utile ?
Note moyenne 0 / 5. Votants: 0