Blog
Cartes NVIDIA pour l’IA – Ada Lovelace et Blackwell en pratique

NVIDIA Ada Lovelace et Blackwell pour les applications IA – sélection pratique du GPU
Dans les projets basés sur les grands modèles de langage (LLM), l’élément clé n’est pas la puissance théorique du GPU, mais le débit prévisible de génération et la stabilité dans un scénario concret. Cet article montre comment choisir les cartes NVIDIA pour l’IA en fonction de la métrique TPS, de la taille du modèle et de l’échelle de déploiement – des simples chatbots aux environnements d’entreprise.
Contexte matériel

Dans le reste de l’article, nous analysons les architectures Ada Lovelace et Blackwell non pas à travers les benchmarks marketing, mais à travers des scénarios réels d’inférence : nombre d’utilisateurs, taille du modèle et TPS cible.
1) TPS (tokens/s) : métrique pratique du débit des LLM
En environnement de production, les métriques théoriques ne se traduisent pas directement en expérience utilisateur. Pour les LLM, l’indicateur le plus simple et compréhensible est le TPS.
| Niveau | TPS | TPM | Effet typique |
|---|---|---|---|
| Fluidité limitée | 5 TPS | 300 tokens/min | retard perceptible dans la génération |
| Travail confortable | 20 TPS | 1 200 tokens/min | génération stable dans la plupart des usages |
| Haut débit | 100 TPS | 6 000 tokens/min | capacité à gérer un plus grand nombre de sessions |
Remarques méthodologiques : le TPS dépend du modèle, de la quantification, de la longueur du contexte, du moteur d’inférence et du profil de parallélisme (multi-session / batch).
2) 7B / 13B / 70B – que signifie la taille du modèle
Les désignations 7B/13B/70B indiquent le nombre de paramètres du modèle : 1B = 1 milliard de paramètres. Un plus grand nombre de paramètres augmente généralement la qualité des réponses et la capacité de raisonnement, mais augmente les exigences en VRAM et en débit GPU.
| Classe | Paramètres | Usages typiques | TPS cible |
|---|---|---|---|
| Modèles 7–8B | 7–8 milliards | chatbots, RAG, Q&A, résumés | 50–100+ TPS |
| Modèles 13B | 13 milliards | IA d’entreprise, documents, réponses longues | 40–70 TPS |
| Modèles 70B | 70 milliards | analyses avancées, agents IA, tâches expertes | 15–25 TPS |
3) Référence à ChatGPT – échelle des modèles
Pour comparaison : GPT-3 avait environ 175B paramètres. Pour GPT-4 et les versions ultérieures, OpenAI ne publie pas le nombre officiel de paramètres, et les estimations disponibles varient. La conclusion pratique est que les services de type ChatGPT fonctionnent à l’échelle hyperscale et sont optimisés pour le parallélisme et l’utilisation de plusieurs GPU.
| Niveau | Paramètres | Implication pour l’infrastructure |
|---|---|---|
| 7-13B | 7-13 milliards | souvent suffisant pour les déploiements d’entreprise (RAG/chatbots) |
| 70B | 70 milliards | nécessite un GPU puissant et une discipline dans le choix du contexte/quantification |
| GPT-3 | ~175 milliards | échelle cloud ; généralement pas destiné à un GPU unique |
| GPT-4 / ultérieurs | non divulgué | hyperscale + optimisations ; comparaisons 1:1 avec on-prem non pertinentes |
4) Cartographie des besoins : scénario → modèle → TPS cible
Chatbot / RAG pour un département ou une application
- Modèle : 7-8B
- Objectif : génération stable, faible latence
- TPS cible : 50-100+ TPS (session unique)
IA d’entreprise (réponses plus complexes, documents)
- Modèle : 13B
- Objectif : meilleure qualité des réponses avec TPS prévisible
- TPS cible : 40-70 TPS
Analyses avancées et tâches expertes
- Modèle : 70B
- Objectif : qualité et raisonnement ; compromis entre coût et débit
- TPS cible : 15-25 TPS
Entreprise : parallélisme + contexte long
- Modèle : 70B+ ou multi-session
- Objectif : TPS stable sous charge, contexte long (ex : 32k)
- TPS cible : 30+ TPS par modèle + marge pour parallélisme
5) Comparaison TPS : RTX 6000 Ada vs RTX PRO 6000 Blackwell
Ci-dessous les plages TPS indicatives pour des scénarios d’inférence typiques. Les valeurs servent pour une estimation initiale et le choix de la classe GPU.
| Scénario | RTX 6000 Ada | RTX PRO 6000 Blackwell | Interprétation |
|---|---|---|---|
| LLM 7–8B (FP16/FP8) | 90-120 TPS ≈ 5 400-7 200 TPM | 180-220 TPS ≈ 10 800-13 200 TPM | débit plus élevé et plus de marge pour le parallélisme |
| LLM 13B (FP16/FP8) | 45-65 TPS ≈ 2 700-3 900 TPM | 95-120 TPS ≈ 5 700-7 200 TPM | prise en charge stable des charges d’entreprise, meilleure marge |
| LLM 70B (INT8 / 4-bit) | 15-20 TPS ≈ 900-1 200 TPM | 30-40 TPS ≈ 1 800-2 400 TPM | Blackwell limite la chute du TPS sous forte charge |
| Contexte long (32k) | 8-12 TPS ≈ 480-720 TPM | 18-25 TPS ≈ 1 080-1 500 TPM | critique pour l’analyse de documents volumineux (droit/finance) |
Pourquoi dans l’IA de production, on ne compare pas les cartes GeForce aux cartes RTX / RTX PRO
Dans le contexte des déploiements IA, la question revient souvent : « pourquoi payer plus pour des cartes professionnelles, alors qu’il existe des cartes grand public moins chères ? » Cette question repose sur l’idée erronée que ce sont des solutions interchangeables. En pratique, les cartes grand public et professionnelles résolvent des problèmes différents.
Les cartes RTX / RTX PRO sont conçues pour le travail continu, la charge prévisible et l’environnement de production, où la stabilité du TPS, la gestion de plusieurs sessions parallèles et l’exécution de modèles plus grands et de contextes longs sans compromis sont essentielles.
- VRAM et échelle des modèles : les modèles plus grands (ex : 13B/70B), le contexte long et la multi-session révèlent rapidement les limites des classes grand public.
- Travail 24/7 : les charges d’inférence sont continues ; la stabilité et la prévisibilité sont cruciales, pas seulement la performance maximale.
- Fonctions enterprise : virtualisation GPU, pilotes optimisés, profils et scénarios multi-utilisateurs sont fondamentaux pour les déploiements de services.
- Mise à l’échelle sans dégradation : avec l’augmentation du nombre d’utilisateurs, du contexte et de la complexité des requêtes, maintenir un TPS stable est essentiel.
Les cartes grand public ne sont pas une alternative moins coûteuse pour les GPU IA en production – elles servent un autre profil d’usage. Dans les projets IA, le choix du matériel doit se baser sur le modèle, le TPS cible et les exigences SLA. Ainsi, dans les environnements de production, les cartes RTX 6000 (Ada Lovelace) et RTX PRO 6000 (Blackwell) sont un choix naturel.
Remarque : ceci s’applique aux projets de production et multi-sessions. Le choix du GPU doit toujours découler de la charge cible, du profil de trafic et des exigences SLA.
6) Recommandations de sélection – selon l’usage
Recommandation : Ada Lovelace (RTX 6000 Ada) – lorsque le coût/TPS est prioritaire
- Charge : chatbots, RAG, IA d’entreprise sur 7–13B, et 70B à échelle limitée.
- Priorité : efficacité coût élevée, TPS prévisible dans les scénarios standards.
Recommandation : Blackwell (RTX PRO 6000 Blackwell) – lorsque l’échelle et le SLA sont prioritaires
- Charge : 70B+ en environnement multi-session, contexte long, exigences enterprise.
- Priorité : débit plus élevé, stabilité sous charge, marge pour parallélisme.
Sélection de GPU pour IA chez ESUS IT
Nous sélectionnons les configurations GPU selon le modèle, le contexte, le nombre de sessions et le TPS/SLA cible. Si nécessaire, nous fournissons l’estimation de dimensionnement et la recommandation d’architecture (Ada/Blackwell).
Remarques méthodologiques : les plages TPS sont indicatives. Les résultats dépendent du modèle, de la quantification, du contexte, du moteur d’inférence, du parallélisme et de la configuration de la plateforme (pilotes, CPU/RAM, limites d’alimentation et refroidissement).
© ESUS IT • Matériel pédagogique : GPU pour IA





