C’est quoi la HBM ? La mémoire qui vide les rayons de RAM de votre PC pour nourrir l’IA

Kamleu Noumi Emeric

il y a 11 heures

C'est quoi la HBM La mémoire qui vide les rayons de RAM de votre PC pour nourrir l'IA

Si vous avez lu notre article sur le « RAM-ageddon » cette flambée des prix mémoire qui a forcé Apple et Microsoft à augmenter leurs tarifs en juin 2026, vous avez probablement croisé un acronyme à trois lettres revenant sans cesse dans les explications des analystes : HBM. Trois lettres qui désignent, littéralement, la cause profonde de la pénurie de mémoire qui touche votre prochain achat de PC, de smartphone ou de console.

La HBM, ou High Bandwidth Memory (mémoire à large bande passante), n’est pas un produit que vous achèterez jamais directement. Vous ne la trouverez dans aucun rayon de magasin informatique, elle n’apparaît sur aucune fiche technique de smartphone grand public. Et c’est précisément ça, le nœud du problème : cette mémoire ultra-spécialisée, invisible pour le grand public, est devenue si stratégique pour l’intelligence artificielle qu’elle aspire littéralement la capacité de production mondiale de mémoire au détriment de la RAM classique qui équipe votre ordinateur.

Dans cet article, on démonte ce composant technique en partant de zéro pour que vous compreniez exactement pourquoi un composant que vous n’achèterez jamais influence directement le prix de tout ce que vous achetez.

La RAM classique : Pour remettre les bases en place

Avant de comprendre la HBM, il faut rappeler ce qu’est la RAM (Random Access Memory) standard, celle qui équipe votre ordinateur ou votre smartphone. C’est une mémoire qui stocke temporairement les données dont votre appareil a besoin pendant qu’il fonctionne contrairement à un disque dur ou un SSD, qui conservent vos fichiers même éteint.

Publicités

Sur un PC de bureau classique, cette RAM se présente sous forme de barrettes, ces petites cartes rectangulaires qu’on insère dans des connecteurs sur la carte mère. Elle est reliée au processeur via un bus de données relativement étroit, généralement 64 bits par module sur les architectures DDR5 actuelles. C’est suffisant pour la quasi-totalité des usages quotidiens, mais ça devient un goulot d’étranglement sévère pour un type de calcul très particulier : celui qu’effectuent les puces qui entraînent les modèles d’intelligence artificielle.

💡 Le terme technique à retenir pour la suite : la bande passante mémoire. C’est la quantité de données qui peuvent circuler entre la mémoire et le processeur chaque seconde, mesurée en gigaoctets ou en téraoctets par seconde (Go/s ou To/s). C’est l’équivalent du nombre de voies sur une autoroute, plus il y a de voies, plus de voitures (de données) peuvent circuler simultanément, même si chaque voiture roule à la même vitesse.

La HBM : Qu’est-ce que c’est exactement

La HBM (High Bandwidth Memory) est une technologie de mémoire DRAM, donc sur le principe de base, la même famille technologique que votre RAM classique mais conçue selon une architecture radicalement différente pour démultiplier la bande passante disponible.

Là où une barrette de RAM DDR5 grand public communique via un bus de 64 bits, la HBM utilise une interface large de 1024 bits (pour les générations HBM2 et HBM3) ou même 2048 bits avec la nouvelle génération HBM4. Pour reprendre l’analogie de l’autoroute : si la RAM classique est une route à deux voies, la HBM est une autoroute à seize voies, sinon plus.

Cette technologie n’est pas née d’hier. Elle a été développée en 2013 dans le cadre d’une collaboration entre AMD et SK Hynix, le géant sud-coréen de la mémoire, pour résoudre un problème bien précis dans les cartes graphiques haut de gamme : les goulots d’étranglement de bande passante qui limitaient les performances des processeurs graphiques (GPU). Le standard a été officiellement adopté par le JEDEC (l’organisme international qui fixe les normes de l’industrie des semi-conducteurs) en octobre 2013.

Le secret technique : L’empilement vertical et les TSV

Voici la partie la plus fascinante, et qui explique pourquoi la HBM est si difficile et si coûteuse à fabriquer. Plutôt que d’aligner les puces mémoire à plat les unes à côté des autres comme dans une barrette de RAM classique, la HBM les empile verticalement, littéralement les unes sur les autres, comme une pile de crêpes.

Cet empilement se fait grâce à une technologie appelée TSV (Through-Silicon Via, ou « via traversant le silicium »). Ce sont de minuscules tunnels électriques percés verticalement à travers chaque puce de mémoire, qui permettent de connecter électriquement toutes les couches empilées entre elles, comme si on perçait des trous dans chaque crêpe de la pile pour y faire passer des fils électriques reliant le sommet à la base.

🥞 Le jargon technique utilise des termes comme « 8-Hi » ou « 12-Hi » pour désigner le nombre de puces empilées dans une seule pile HBM. 8-Hi signifie huit puces de mémoire empilées, 12-Hi en signifie douze. Plus il y a de couches, plus la capacité totale de la pile augmente, mais plus la fabrication devient délicate sur le plan thermique et électrique.

Cette pile de puces mémoire est ensuite intégrée directement sur le même support physique (le « package ») que le processeur GPU lui-même, via une technologie de fabrication avancée appelée CoWoS (Chip-on-Wafer-on-Substrate), développée et exploitée quasi exclusivement par TSMC, le géant taïwanais de la fabrication de semi-conducteurs. On reviendra sur ce point précis plus loin, parce que c’est justement ce maillon qui est devenu le véritable goulot d’étranglement de toute l’industrie.

Le résultat de cette architecture est spectaculaire en termes de performance pure. Un processeur Nvidia H100, l’une des puces IA les plus utilisées au monde, combiné à six piles de HBM3, atteint une bande passante mémoire d’environ 3,35 téraoctets par seconde, soit environ 65 fois la bande passante d’un PC de bureau classique équipé de DDR5 en double canal.

Pourquoi l’IA a un besoin si vorace de bande passante

Pour comprendre pourquoi cette différence de performance est si cruciale pour l’intelligence artificielle, il faut comprendre ce que font concrètement les modèles de langage comme ChatGPT, Claude ou Gemini sous le capot.

Entraîner ou faire tourner un modèle d’IA revient, fondamentalement, à effectuer des milliards de multiplications de matrices, des opérations mathématiques sur d’immenses tableaux de nombres qui représentent les milliards de paramètres du modèle. Le problème, c’est que ces opérations nécessitent de lire et écrire en mémoire des quantités absolument massives de données, en continu, à très haute fréquence.

Sans une bande passante mémoire suffisante, le processeur GPU le plus puissant du monde se retrouverait à attendre, inactif, que les données lui arrivent, un phénomène que les ingénieurs appellent être « memory-bandwidth-bound » (limité par la bande passante mémoire), plutôt que limité par sa puissance de calcul brute. C’est un peu comme avoir le moteur de Formule 1 le plus puissant du monde, mais alimenté par un tuyau d’arrosage de jardin plutôt que par un système d’injection de carburant adapté.

📈 Chiffre qui résume l’ampleur du phénomène : la bande passante mémoire nécessaire pour l’entraînement de l’IA a été multipliée par près de dix depuis 2020. C’est cette explosion de besoin, bien plus que l’augmentation de la puissance de calcul brute des GPU eux-mêmes, qui explique l’appétit dévorant de l’industrie pour la HBM.

Les générations de HBM : Du HBM1 au HBM4

Comme toute technologie de semi-conducteurs, la HBM évolue par générations successives, chacune apportant plus de bande passante et plus de capacité. Voici un panorama clair de cette évolution.

Génération	Bande passante par pile	Interface	Période / statut
HBM2E	Jusqu’à 410 Go/s	1024 bits	Génération antérieure, encore en usage
HBM3	Jusqu’à 819 Go/s	1024 bits	Utilisée dans Nvidia H100, AMD MI300X
HBM3E	Jusqu’à 1,18 To/s	1024 bits	Utilisée dans Nvidia H200, B200 : standard actuel de l’IA
HBM4	Plus de 2 To/s (jusqu’à 3,3 To/s en config. avancée)	2048 bits	Production 2026, ciblant Nvidia Rubin et AMD MI455X

La transition vers le HBM4 représente un bond technique particulièrement important : le doublement de la largeur d’interface, de 1024 à 2048 bits, s’accompagne d’une architecture à 32 canaux indépendants. Autre innovation notable de cette génération : la puce de contrôle à la base de l’empilement (le « base die ») pourrait être fabriquée sur les procédés de gravure les plus avancés de TSMC plutôt que sur les lignes de production DRAM classiques, une première qui permettrait des contrôleurs mémoire plus rapides et plus économes en énergie.

Pour donner une idée de la puissance brute en jeu : le GPU Nvidia Blackwell, dernière génération en date, combine plusieurs piles de HBM3E pour atteindre jusqu’à 8 téraoctets par seconde de bande passante totale, une capacité qui aurait semblé inimaginable il y a seulement cinq ans.

Qui fabrique la HBM : Le trio qui contrôle le marché

Seules trois entreprises au monde maîtrisent la fabrication de HBM à l’échelle industrielle, ce qui en fait l’un des marchés les plus concentrés de toute l’industrie des semi-conducteurs.

Fabricant	Part de marché HBM	Position stratégique
SK Hynix	50 à 55%	Leader incontesté, premier qualifié pour le H100 de Nvidia
Samsung Electronics	35 à 40%	Challenger sérieux, livraisons d’échantillons HBM4 à Nvidia
Micron Technology	5 à 10%	Acteur plus modeste mais en pleine montée en puissance sur HBM4

La position dominante de SK Hynix n’est pas un hasard ni un coup de chance. L’entreprise a fait le choix stratégique d’investir massivement dans la technologie HBM bien avant que la demande n’explose, acceptant sciemment une compression de ses marges à court terme pour construire son expertise en matière de TSV et d’empilement de puces avant que le marché ne décolle vraiment. Ce pari de long terme s’est révélé extraordinairement payant : SK Hynix a obtenu la majorité des contrats d’approvisionnement de Nvidia, et ses puces HBM3E étaient, selon Reuters, entièrement vendues jusqu’à fin 2025, avec une demande qui devrait encore croître d’environ 60% par an.

Cette relation entre SK Hynix et Nvidia est devenue si étroite, sur le plan technique, que les packages des GPU H100, H200 et B200 de Nvidia sont littéralement conçus autour de la géométrie physique précise des puces HBM de SK Hynix. Changer de fournisseur de HBM en cours de route nécessiterait une re-conception quasi complète du produit, un verrouillage technique qui renforce encore la position dominante du fabricant sud-coréen.

Le vrai responsable de la pénurie : CoWoS, le goulot d’étranglement caché

C’est sans doute l’information la plus surprenante de cet article, et celle qui explique le mieux pourquoi la pénurie persiste malgré les investissements massifs des fabricants de mémoire. Pendant la flambée de la demande de GPU IA entre 2023 et 2024, ce n’est ni la capacité de production de wafers (les plaques de silicium) chez TSMC, ni la production de HBM chez SK Hynix qui a constitué la véritable contrainte d’approvisionnement des GPU Nvidia.

🔑 Le vrai goulot d’étranglement, c’est l’étape de packaging avancé baptisée CoWoS (Chip-on-Wafer-on-Substrate), la technique qui assemble physiquement les puces HBM et le processeur GPU sur un même support. Cette étape, exploitée quasiment exclusivement par TSMC, dispose d’une capacité de production bien plus limitée et bien plus difficile à étendre rapidement que la simple fabrication des puces elles-mêmes.

TSMC a annoncé la construction d’une nouvelle usine baptisée « Advanced Backend Fab 6 », visant une capacité allant jusqu’à un million de wafers par an de packaging avancé. Mais même cette expansion massive pourrait, selon plusieurs analystes du secteur, rester insuffisante face à l’ampleur de la demande en intelligence artificielle. C’est cette rareté du packaging avancé, bien plus que la rareté de la mémoire elle-même, qui agit comme un véritable frein structurel sur toute la chaîne de production.

Le prix de la HBM : Pourquoi elle est si rentable pour les fabricants

Voici l’élément qui explique, en termes purement économiques, pourquoi Samsung, SK Hynix et Micron ont rationnellement choisi de privilégier la HBM au détriment de la RAM grand public, la cause directe de la pénurie qui touche votre prochain achat.

≈ 200 $ Prix d’une pile HBM3 (par pile, juin 2026)

≈ 300 $ Prix d’une pile HBM3E (par pile, juin 2026)

≈ 500 $ Prix estimé d’une pile HBM4 (estimation, montée en charge prévue 2026)

Pour mettre ces chiffres en perspective : un kit de RAM DDR5 grand public de 32 Go se vendait, avant la crise, autour de 60 à 90 dollars pour l’ensemble du kit. Une seule pile de HBM3E qui équipe un seul GPU, parmi plusieurs piles nécessaires par puce se vend à elle seule plus cher que tout un kit de RAM grand public. Et chaque GPU IA haut de gamme comme le H200 ou le B200 de Nvidia embarque généralement six à huit de ces piles simultanément.

Le calcul est limpide du point de vue d’un fabricant de mémoire : chaque tranche de capacité de production (chaque « wafer » de silicium) allouée à la HBM génère une marge largement supérieure à la même tranche allouée à la production de RAM grand public. Comme l’a résumé une note d’analystes de Deutsche Bank citée dans notre article RAM-ageddon : chaque wafer alloué à une pile HBM pour un serveur IA est un wafer indisponible pour un smartphone, un PC, ou une voiture.

L’impact concret sur votre RAM : Le lien de cause à effet

Résumons la chaîne causale complète, du datacenter jusqu’à votre prochain achat de PC, pour que le mécanisme soit parfaitement clair.

Étape 1 : La demande de puissance de calcul IA explose, portée par l’entraînement de modèles toujours plus gigantesques chez OpenAI, Anthropic, Google et d’autres.
Étape 2 : Cette demande tire la consommation de GPU spécialisés (Nvidia, AMD), qui nécessitent chacun plusieurs piles de HBM pour fonctionner efficacement.
Étape 3 : Samsung, SK Hynix et Micron réorientent une part croissante de leur capacité de production globale (qui n’est pas extensible du jour au lendemain) vers la fabrication de HBM, plus rentable.
Étape 4 : Mécaniquement, moins de capacité reste disponible pour produire de la DRAM et du NAND grand public, la RAM et le stockage flash qui équipent smartphones, PC et consoles
Étape 5 : Avec une offre de RAM grand public en baisse relative et une demande mondiale stable ou croissante, les prix s’envolent d’où les hausses de prix d’Apple et Microsoft documentées dans notre article RAM-ageddon.

⚙️ Symptôme le plus radical de ce basculement : Micron a annoncé l’arrêt complet de sa marque grand public Crucial (mémoire et stockage pour PC) en 2026, expliquant vouloir concentrer ses ressources sur ses « clients stratégiques de plus grande envergure », un aveu à peine voilé que les particuliers ne sont plus la priorité de l’entreprise.

Une prouesse d’ingénierie qui a un coût bien réel

La HBM est, sans exagération, l’une des avancées techniques les plus impressionnantes de l’industrie des semi-conducteurs de la dernière décennie. Empiler verticalement des puces de mémoire reliées par des milliers de connexions traversant le silicium, pour multiplier la bande passante par 65 par rapport à une RAM classique, est une prouesse d’ingénierie qui mérite d’être reconnue pour ce qu’elle est, un exploit technique remarquable, pas une simple astuce marketing.

Mais cette prouesse a un coût que la plupart des consommateurs découvrent seulement maintenant, sous la forme d’une facture salée pour leur prochain ordinateur. Ce qui me frappe le plus dans cette histoire, c’est l’invisibilité presque totale de la HBM dans la conscience du grand public, alors même qu’elle façonne directement le prix de tous les produits électroniques qu’on achète. On a longtemps cru que la pénurie de puces ne concernait que les cartes graphiques ou les voitures, on découvre aujourd’hui qu’elle façonne le prix d’un simple ordinateur portable familial.

La leçon la plus utile de cet article, je crois, c’est de comprendre qu’on ne peut plus penser le prix d’un produit électronique grand public isolément de la demande en infrastructure IA mondiale. Les deux marchés, autrefois totalement séparés, sont désormais branchés sur le même robinet de capacité de production et tant que la demande IA continuera de croître plus vite que les usines ne peuvent s’agrandir, ce sera le grand public qui absorbera une partie de la facture.