Il est indéniable que la GTC 2025 de NVIDIA a marqué une étape significative dans le domaine de l’intelligence artificielle, en particulier en ce qui concerne l’inférence. L’événement a servi de plateforme pour dévoiler des avancées technologiques majeures, soulignant l’importance croissante de l’inférence dans les applications d’IA modernes.
On a pu observer une orientation claire vers l’optimisation des performances et l’efficacité énergétique, des aspects cruciaux pour le déploiement à grande échelle des modèles d’IA. Les présentations ont mis en évidence les efforts de NVIDIA pour rendre l’inférence plus accessible et plus rapide, répondant ainsi aux besoins croissants des industries qui dépendent de l’IA pour des tâches critiques.
Il a été question de nouvelles architectures matérielles et logicielles, conçues pour accélérer le traitement des données et réduire la latence. L’accent a également été mis sur l’importance de l’inférence dans des domaines tels que la vision par ordinateur, le traitement du langage naturel et les systèmes de recommandation.
Progrès de l’architecture Blackwell et des réseaux
La famille Cosmos, qui permet de simuler des environnements réels, propose désormais un nouvel outil pour créer des données synthétiques pour les voitures autonomes. Les modèles Cosmos Transfer permettent de créer des rendus vidéo photoréalistes à partir de données de profondeur, lidar ou de trajectoire, en ajustant l’éclairage et la météo, ce qui peut impacter les frais professionnels liés à la production de ces rendus.
La gamme Cosmos Predict, déjà présentée, s’enrichit de modèles capables de prévoir des trajectoires ou des actions à partir d’images initiales et finales. NVIDIA a également développé Cosmos Reason, un modèle de raisonnement capable de prévoir les résultats d’interactions complexes. Parmi les autres initiatives, on trouve AI-Q, qui vise à créer des assistants de recherche avancés. Son fonctionnement repose sur des outils tels que les modèles Llama Nemotron, le RAG NeMo Retriever et la bibliothèque AgentIQ, développée en collaboration par des agents.
En plus de ses développements logiciels et de ses nouveaux modèles, NVIDIA poursuit ses innovations dans le domaine du matériel. Project Aether, un projet expérimental, vise à accélérer la migration des workloads Spark vers les GPU, en s’inspirant des bibliothèques RAPIDS. Avec une augmentation de 50 % de la puissance de calcul par rapport aux GB200, NVIDIA établit un nouveau record de 1,1 exaflops en FP4, grâce à une mémoire GPU étendue à 288 Go.
Ces systèmes devraient être disponibles au cours du second semestre 2025. En ce qui concerne le réseau, NVIDIA a pour objectif d’intégrer la photonique sur silicium dans ses commutateurs Quantum-X (InfiniBand) en 2025 et Spectrum-X (Ethernet) en 2026, ce qui améliorera considérablement les performances et l’efficacité des infrastructures de communication à haute vitesse.
Nouveaux modèles open source et optimisations logicielles chez NVIDIA
NVIDIA consolide son écosystème en améliorant ses logiciels et en rendant ses technologies fondamentales plus accessibles, réduisant ainsi les frais professionnels pour ses utilisateurs.
L’automatisation intelligente de l’allocation des ressources d’inférence est la marque de fabrique de Dynamo, qui adapte dynamiquement les étapes de prefill et de décodage, tout en optimisant le cache clé-valeur pour prévenir les recalculs inutiles. Cette approche intelligente permet d’optimiser l’efficacité, surtout pour les requêtes habituelles.
L’open source gagne du terrain avec cuOpt, un moteur d’optimisation combinatoire maintenant accessible via la fondation COIN-OR. Domino’s et Kawasaki, entre autres, y ont recours pour rationaliser leurs processus.
Llama Nemotron, des modèles de raisonnement open source de NVIDIA, basés sur Llama, sont conçus pour exceller dans les tâches complexes. Disponibles en plusieurs tailles, ils sont déjà utilisés par ServiceNow et SAP.
Cet article vous a-t-il été utile ?
Note moyenne 0 / 5. Votants: 0