Vulnérabilités 6 min de lecture

GPUBreach : des chercheurs démontrent des attaques RowHammer sur les GPU NVIDIA

En bref

  • Des chercheurs découvrent des attaques RowHammer contre les GPU (GPUBreach, GDDRHammer, GeForce)
  • Première démonstration d'escalade de privilèges via la mémoire GPU
  • Affecte les GPU NVIDIA utilisant de la mémoire GDDR
  • Implications pour le cloud computing et les environnements GPU partagés

GPUBreach : RowHammer franchit la frontière du GPU

La communauté de recherche en sécurité matérielle vient de franchir un cap significatif. Des chercheurs ont publié les résultats d’une étude démontrant, pour la première fois de manière reproductible, des attaques de type RowHammer ciblant la mémoire des processeurs graphiques (GPU) NVIDIA. Ces travaux, regroupés sous les noms de code GPUBreach, GDDRHammer et GeForce Attack, ouvrent un nouveau front dans la sécurité des systèmes informatiques modernes.

Si RowHammer est connu depuis 2014 pour ses effets sur la mémoire DRAM des CPU, son extension aux GPU soulève des questions inédites, particulièrement dans les environnements où plusieurs utilisateurs ou processus partagent le même matériel graphique.

Comprendre RowHammer et son application aux GPU

Le principe de RowHammer

RowHammer est une classe d’attaques exploitant un effet physique de la mémoire DRAM : lorsqu’une ligne mémoire (row) est accédée de manière répétée et rapide, les fluctuations électriques induites peuvent provoquer des inversions de bits (bit flips) dans les lignes adjacentes. Ces inversions, bien que non intentionnelles, peuvent modifier des données critiques en mémoire, comme des bits de permission ou des pointeurs de sécurité.

Sur les CPU, RowHammer a permis des escalades de privilèges, des sorties de machines virtuelles (VM escape), et des compromissions de navigateurs web. Des variantes comme Rowhammer.js ont même démontré l’exploitation via JavaScript depuis un navigateur.

Pourquoi les GPU étaient considérés à l’abri

Jusqu’à ces travaux, les GPU étaient généralement considérés hors de portée pour plusieurs raisons :

  • La mémoire GDDR (Graphics DDR) utilisée par les GPU a une architecture différente de la DRAM standard
  • L’accès à la mémoire GPU est médiatisé par des pilotes et une API (CUDA pour NVIDIA) qui semblaient offrir une isolation suffisante
  • La fréquence d’accès nécessaire pour induire des bit flips semblait difficilement atteignable via les API standard

Les chercheurs ont démontré que ces hypothèses étaient incorrectes.

Les trois variantes d’attaque

GPUBreach

GPUBreach est la variante fondamentale qui démontre que des bit flips peuvent être induits dans la mémoire GDDR6 des GPU NVIDIA récents en utilisant des accès répétitifs via CUDA. Les chercheurs ont identifié des patterns d’accès spécifiques qui, exécutés depuis un processus utilisateur standard, induisent des corruptions de mémoire dans des régions adjacentes.

GDDRHammer

GDDRHammer pousse plus loin en démontrant que les bit flips peuvent être dirigés vers des structures de données critiques du pilote NVIDIA. En exploitant la connaissance de la disposition mémoire du pilote (nvidia.ko sur Linux), il devient possible de cibler des structures contenant des permissions d’accès ou des pointeurs vers des espaces mémoire privilégiés.

GeForce Attack (Escalade de privilèges)

GeForce Attack est la démonstration la plus alarmante : en combinant GDDRHammer avec une connaissance précise de l’organisation mémoire du pilote, les chercheurs ont réussi à réaliser une escalade de privilèges. Un processus tournant avec des permissions utilisateur standard a pu accéder à des régions mémoire d’un autre processus s’exécutant sur le même GPU, démontrant une violation de l’isolation entre processus.

Implications pour les environnements à risque

Cloud computing et GPU partagés

L’implication la plus sérieuse concerne les environnements de cloud computing où des GPU sont partagés entre plusieurs clients ou workloads. Les offres GPU cloud (AWS EC2 instances avec GPU, Google Cloud GPU, Azure ND-series, etc.) permettent à plusieurs machines virtuelles ou conteneurs de partager physiquement le même GPU via des technologies de virtualisation comme NVIDIA Multi-Instance GPU (MIG) ou NVIDIA vGPU.

Si un attaquant loue une instance GPU sur un cloud public et peut accéder à la mémoire d’une autre instance partageant le même GPU physique, les données d’entraînement de modèles ML, les poids de réseaux de neurones, ou d’autres informations confidentielles deviennent potentiellement accessibles.

Serveurs d’inférence et modèles de langage

Les serveurs d’inférence exécutant des grands modèles de langage (LLM) utilisent massivement des GPU. Dans un service d’API IA partagé où plusieurs clients soumettent des requêtes traitées sur le même GPU, une attaque GPUBreach pourrait théoriquement permettre l’exfiltration de données d’autres utilisateurs.

Environnements de jeu et streaming

Les fermes de serveurs de jeu en cloud (GeForce NOW, Xbox Cloud Gaming) font tourner des sessions de jeu de plusieurs utilisateurs sur du matériel partagé. Bien que l’impact soit moins critique que sur des données d’entreprise, la violation de l’isolation entre sessions représente une surface d’attaque réelle.

État actuel : recherche académique, pas d’exploitation connue

Il est important de souligner que ces attaques restent pour l’instant dans le domaine de la recherche académique. Aucune exploitation dans la nature (in-the-wild) n’a été documentée. Les conditions nécessaires à l’exploitation sont exigeantes :

  • Accès local ou via API à du code CUDA s’exécutant sur le GPU cible
  • Connaissance précise de la version du pilote et de la disposition mémoire
  • Temps d’exécution significatif (les bit flips ne sont pas instantanés)

NVIDIA a été informé des recherches dans le cadre d’une divulgation responsable coordonnée. La réponse de l’entreprise concernant des mitigations potentielles (modifications du pilote, ECC mémoire, isolation matérielle renforcée) est attendue.

Ce que les équipes de sécurité doivent faire maintenant

Bien qu’il n’y ait pas d’urgence opérationnelle immédiate, ces recherches doivent être intégrées dans les évaluations de risques :

  • Documentez les environnements GPU partagés dans votre inventaire des actifs avec un niveau de risque approprié
  • Suivez les communications de NVIDIA sur des mitigations ou mises à jour de pilotes liées à ces recherches
  • Évaluez si les données traitées sur vos GPU partagés justifient une isolation matérielle dédiée (GPU exclusifs par tenant)
  • Pour les déploiements cloud critiques, envisagez des instances GPU dédiées plutôt que partagées

Lectures recommandées

Ces liens sont des liens affiliés. Si vous effectuez un achat via ces liens, nous pouvons recevoir une commission, sans coût supplémentaire pour vous.

  • Analyser les risques cyber : pour intégrer les nouvelles classes de vulnérabilités matérielles dans votre processus de gestion des risques, notamment dans les environnements cloud.
  • Fondamentaux de la cybersécurité : couvre les bases de la sécurité matérielle et les mécanismes d’isolation qui sont au cœur des problèmes soulevés par GPUBreach.

Pour protéger les communications vers vos infrastructures GPU en cloud, NordVPN chiffre le trafic entre vos équipes et vos environnements de calcul distants, limitant la surface d’attaque réseau autour de ces ressources sensibles.

Sources

Partager :

Publicité

Articles liés