Mistral et NVIDIA dévoilent NeMo : un modèle de langage révolutionnaire à grande mémoire

NeMo : un modèle de langage innovant par Mistral AI et NVIDIA

Introduction

Un modèle de langage développé par Mistral AI en collaboration avec NVIDIA. Ce modèle se distingue par ses performances et son accessibilité, révolutionnant ainsi le domaine des modèles de langage.

Caractéristiques principales

Taille et Efficacité
NeMo est un modèle compact avec 12 milliards de paramètres, conçu pour fonctionner efficacement sur des cartes graphiques de milieu de gamme. Cette conception le rend accessible pour une utilisation plus large sans nécessiter de ressources matérielles exorbitantes.
Capacité de Mémoire
Une des caractéristiques remarquables de NeMo est sa capacité à gérer jusqu’à 128 000 tokens, ce qui lui permet de traiter de grandes quantités d’informations en une seule fois. Cela surpasse de nombreux modèles concurrents, offrant ainsi une plus grande flexibilité et précision dans les applications linguistiques complexes.
Multilingue et Polyvalent
NeMo est conçu pour être utilisé dans un contexte global. Il prend en charge de multiples langues, y compris l’anglais, le français, l’allemand, l’espagnol, et bien d’autres. Cela en fait un outil précieux pour les applications multinationales et multilingues, facilitant la communication et l’analyse de données à travers différentes langues.

Innovation Technologique

Tokenizer Tekken
NeMo utilise un tokenizer innovant nommé Tekken, basé sur Tiktoken. Ce tokenizer a été entraîné sur plus de 100 langues et offre une compression plus efficace des textes naturels et du code source comparé à la technologie SentencePiece utilisée dans les modèles précédents de Mistral. Tekken est environ 30% plus efficace pour la compression de certaines langues et beaucoup plus performant pour le coréen et l’arabe.

L’iA pour votre entreprise : consultez notre solution Dixie Formation IA

Dixie Consulting intervient sur toute la France, avec une présence renforcée et une proximité particulière à Marseille, Aubagne et Aix-en-Provence. Nos formations sont disponibles en présentiel et en distanciel.

Licence et Accessibilité
Distribué sous licence Apache 2.0, NeMo est ouvert à l’utilisation et à la modification, ce qui encourage l’innovation et l’adoption par la communauté des chercheurs et des entreprises. Les poids du modèle sont disponibles sur HuggingFace, facilitant ainsi l’intégration et la personnalisation pour des besoins spécifiques.

Performances et Comparaisons

NeMo se distingue non seulement par ses caractéristiques techniques mais aussi par ses performances comparées à d’autres modèles récents comme Gemma 2 9B et Llama 3 8B. Les évaluations montrent que NeMo offre une précision de pointe dans sa catégorie de taille, notamment en matière de raisonnement, de connaissances mondiales et de précision en codage.
Contexte : Mistral NeMo affiche une longueur de contexte de 128k, largement supérieure aux 8k de Gemma 2 9B et Llama 3 8B. (Source Mistral.AI)

Benchmarks (source Mistral.AI) :

HellaSwag (0-shot) : NeMo atteint 83.5%, dépassant Gemma 2 (80.1%) et Llama 3 (80.6%).
Winogrande (0-shot) : NeMo obtient 76.8%, supérieur à Gemma 2 (74.0%) et Llama 3 (73.5%).
NaturalQ (5-shot) : NeMo avec 31.2%, légèrement meilleur que Gemma 2 (29.8%) et Llama 3 (28.2%).
TriviaQA (5-shot) : NeMo marque 73.8%, surclassant Gemma 2 (71.3%) et Llama 3 (61.0%).
MMLU (5-shot) : NeMo atteint 68.0%, inférieur à Gemma 2 (71.5%) mais supérieur à Llama 3 (62.3%).
OpenBookQA (0-shot) : NeMo obtient 60.6%, battant Gemma 2 (50.8%) et Llama 3 (56.4%).
CommonSense QA (0-shot) : NeMo affiche 70.4%, mieux que Gemma 2 (60.8%) et Llama 3 (66.7%).
TruthfulQA (0-shot) : NeMo atteint 50.3%, contre 46.6% pour Gemma 2 et 43.0% pour Llama 3.

Pour plus de détails sur NeMo, consultez le site de Mistral AI.

Jérôme HENRY

En tant que consultant en transformation digitale chez Dixie Consulting, je suis un expert du service client et un gestionnaire de projets aguerri, plaçant l'intelligence artificielle (IA) au cœur de mes approches. Mon objectif premier est d'assurer la satisfaction des clients en intégrant judicieusement l'IA pour faciliter leur transition digitale. Axé sur les résultats, je m'efforce de relever les défis de la digitalisation des processus en optimisant les performances grâce à l'IA. Chez Dixie Consulting, on accompagne les TPE et PME vers un avenir numérique réussi, propulsé par les avantages de l'IA. Retrouvez-moi sur LinkedIn : https://www.linkedin.com/in/jerome13henry/