NeMo : un modèle de langage innovant par Mistral AI et NVIDIA
Introduction
Un modèle de langage développé par Mistral AI en collaboration avec NVIDIA. Ce modèle se distingue par ses performances et son accessibilité, révolutionnant ainsi le domaine des modèles de langage.Caractéristiques principales
Taille et Efficacité NeMo est un modèle compact avec 12 milliards de paramètres, conçu pour fonctionner efficacement sur des cartes graphiques de milieu de gamme. Cette conception le rend accessible pour une utilisation plus large sans nécessiter de ressources matérielles exorbitantes. Capacité de Mémoire Une des caractéristiques remarquables de NeMo est sa capacité à gérer jusqu’à 128 000 tokens, ce qui lui permet de traiter de grandes quantités d’informations en une seule fois. Cela surpasse de nombreux modèles concurrents, offrant ainsi une plus grande flexibilité et précision dans les applications linguistiques complexes. Multilingue et Polyvalent NeMo est conçu pour être utilisé dans un contexte global. Il prend en charge de multiples langues, y compris l’anglais, le français, l’allemand, l’espagnol, et bien d’autres. Cela en fait un outil précieux pour les applications multinationales et multilingues, facilitant la communication et l’analyse de données à travers différentes langues.Innovation Technologique
Tokenizer Tekken NeMo utilise un tokenizer innovant nommé Tekken, basé sur Tiktoken. Ce tokenizer a été entraîné sur plus de 100 langues et offre une compression plus efficace des textes naturels et du code source comparé à la technologie SentencePiece utilisée dans les modèles précédents de Mistral. Tekken est environ 30% plus efficace pour la compression de certaines langues et beaucoup plus performant pour le coréen et l’arabe.L’iA pour votre entreprise : consultez notre solution Dixie Formation IA
Licence et Accessibilité Distribué sous licence Apache 2.0, NeMo est ouvert à l’utilisation et à la modification, ce qui encourage l’innovation et l’adoption par la communauté des chercheurs et des entreprises. Les poids du modèle sont disponibles sur HuggingFace, facilitant ainsi l’intégration et la personnalisation pour des besoins spécifiques.Dixie Consulting intervient sur toute la France, avec une présence renforcée et une proximité particulière à Marseille, Aubagne et Aix-en-Provence. Nos formations sont disponibles en présentiel et en distanciel.
Performances et Comparaisons
NeMo se distingue non seulement par ses caractéristiques techniques mais aussi par ses performances comparées à d’autres modèles récents comme Gemma 2 9B et Llama 3 8B. Les évaluations montrent que NeMo offre une précision de pointe dans sa catégorie de taille, notamment en matière de raisonnement, de connaissances mondiales et de précision en codage. Contexte : Mistral NeMo affiche une longueur de contexte de 128k, largement supérieure aux 8k de Gemma 2 9B et Llama 3 8B. (Source Mistral.AI) Benchmarks (source Mistral.AI) :- HellaSwag (0-shot) : NeMo atteint 83.5%, dépassant Gemma 2 (80.1%) et Llama 3 (80.6%).
- Winogrande (0-shot) : NeMo obtient 76.8%, supérieur à Gemma 2 (74.0%) et Llama 3 (73.5%).
- NaturalQ (5-shot) : NeMo avec 31.2%, légèrement meilleur que Gemma 2 (29.8%) et Llama 3 (28.2%).
- TriviaQA (5-shot) : NeMo marque 73.8%, surclassant Gemma 2 (71.3%) et Llama 3 (61.0%).
- MMLU (5-shot) : NeMo atteint 68.0%, inférieur à Gemma 2 (71.5%) mais supérieur à Llama 3 (62.3%).
- OpenBookQA (0-shot) : NeMo obtient 60.6%, battant Gemma 2 (50.8%) et Llama 3 (56.4%).
- CommonSense QA (0-shot) : NeMo affiche 70.4%, mieux que Gemma 2 (60.8%) et Llama 3 (66.7%).
- TruthfulQA (0-shot) : NeMo atteint 50.3%, contre 46.6% pour Gemma 2 et 43.0% pour Llama 3.
Pour plus de détails sur NeMo, consultez le site de Mistral AI.