Les GPU s’usent-ils à force d’être utilisés ?

By Thomas GROLLEAU

Si vous prévoyez de faire des jeux intensifs, du calcul par le GPU, du rendu graphique, du Folding@home ou du minage de crypto-monnaies avec votre carte graphique, vous craignez peut-être que votre GPU ne s’use à force d’être utilisé. Mais est-ce le cas ? Nous allons étudier la question.
Oui, mais c’est compliqué

La plupart des informations sur la durée de vie des cartes graphiques que vous trouverez en ligne sont anecdotiques, avec des chiffres qui peuvent varier considérablement en fonction de la personne à qui vous demandez. Avec des centaines de modèles différents de cartes graphiques sortis au cours de la dernière décennie, il est difficile de réduire les données sur des cartes aussi différentes en de simples généralisations.

Jusqu’à présent, nous savons ceci : Selon un rapport de 2020 d’un détaillant allemand, les cartes graphiques les plus récentes ont un taux de défaillance global de 2 à 5 % (mesuré par les retours au détaillant). Et en 2021, Nvidia fournissait encore des mises à jour de pilotes pour des cartes vieilles de 9 à 10 ans (comme la série GTX 600), ce qui signifie que l’on peut s’attendre à une décennie d’utilisation d’une carte GPU bien traitée – bien qu’il puisse s’agir d’exceptions, comme nous le verrons plus loin.

Indépendamment des chiffres, la physique est à l’œuvre. Les matériaux et les composants utilisés dans la composition des cartes GPU ne sont pas magiques : plus vous les utilisez, plus les pièces se dégradent rapidement et plus elles risquent de tomber en panne. Une utilisation intensive a donc une incidence sur la durée de vie.

Plusieurs cartes GPU dans un mineur de crypto-monnaie.

Comme vous le verrez, l’extraction de crypto-monnaies réduit la durée de vie d’une carte graphique.

L’éventualité d’une défaillance de votre carte GPU dépend d’un grand nombre de variables différentes, notamment l’intensité de l’utilisation du GPU, la nature et le degré des variations de température dans les circuits, le nombre de fois où la carte a été mise sous tension et hors tension, et la propreté de l’environnement d’exploitation.

Une carte GPU étant un dispositif complexe composé de nombreuses pièces, chacune d’entre elles peut tomber en panne ou se dégrader de différentes manières. Nous allons passer en revue les principales pièces d’une carte GPU et examiner comment elles peuvent s’user au fil du temps en cas d’utilisation intensive.

A lire également :  Comment configurer Microsoft Office pour l'iPad

Pour aller plus loin : Comment surveiller la température du GPU des ordinateurs ?

Le premier à partir : Les ventilateurs de refroidissement

De toutes les pièces d’une carte graphique qui sont susceptibles de tomber en panne en premier, nous devons citer les ventilateurs de refroidissement (ou fan), qui sont des pièces physiques mobiles. Les ventilateurs maintiennent votre GPU au frais en éloignant l’air chaud de la puce du GPU (avec un dissipateur thermique) afin qu’elle puisse continuer à fonctionner.

Une carte GPU avec des ventilateurs qui tournent.

Pourquoi la chaleur est-elle néfaste ? Si la chaleur est suffisante, les transistors ne fonctionnent pas correctement, ce qui signifie que la carte GPU ne fonctionne pas. Avec encore plus de chaleur, les transistors des puces de la carte peuvent être définitivement endommagés.

Avec le temps, les ventilateurs de refroidissement s’encrassent souvent de poussière, ce qui réduit leur capacité à déplacer l’air efficacement. Les ventilateurs peuvent aussi tomber en panne si un lubrifiant interne se détériore. Dans les deux cas, la température du GPU augmente.

Chaque GPU se protège de la surchauffe en utilisant l’étranglement thermique, qui ralentit le fonctionnement du GPU pour abaisser la température de fonctionnement. Ce faisant, les performances sont sévèrement limitées. Par conséquent, si votre GPU est soudainement plus bruyant que d’habitude (le ventilateur tourne plus vite) ou moins performant, nettoyez soigneusement les ventilateurs de refroidissement et le dissipateur thermique de votre GPU à l’air comprimé.

Si le ventilateur de refroidissement du GPU est complètement défaillant, vous pouvez généralement le remplacer si vous trouvez un ventilateur équivalent chez un fournisseur de pièces informatiques.

Un autre suspect : Composé thermique défectueux

Entre chaque dissipateur thermique et la puce du GPU se trouve une couche de matériau conducteur thermique, comme un bloc de mastic ou de pâte qui aide à transférer la chaleur de la puce du GPU au dissipateur thermique.

À lire également : Activer la planification GPU Accélérée par Windows 11

Quelle quantité de pâte thermique dois-je appliquer sur mon CPU ?

Avec le temps, la pâte thermique peut se fissurer ou perdre de sa puissance. Lorsque cela se produit, le dissipateur thermique ne refroidit pas aussi efficacement et la température du GPU augmente. Comme nous l’avons vu dans la section sur les ventilateurs ci-dessus, une température élevée du GPU entraîne un étranglement thermique, ce qui ralentit votre GPU.

Pâte thermique pour GPU Arctic MX-4

La meilleure solution dans ce scénario est de remplacer la pâte thermique vous-même. Vous pouvez acheter de la pâte thermique chez les vendeurs de pièces informatiques.

Défaillances des autres composants, soudure

Outre la puce du GPU, une carte graphique comprend des dizaines d’autres composants électroniques tels que des condensateurs, des résistances, des puces mémoire, etc. Chacun de ces composants peut potentiellement tomber en panne en cas d’utilisation intensive ou d’exposition à une chaleur excessive.

A lire également :  Comment utiliser le texte incurvé dans PowerPoint

Certains sont plus susceptibles de tomber en panne que d’autres.

Les condensateurs, en particulier, ont tendance à tomber en panne avec le temps. Ils sont sensibles aux changements fréquents de température, et certains sont défectueux dès leur fabrication. Si vous êtes assez bricoleur pour résoudre les problèmes de condensateurs, vous pouvez potentiellement remplacer les condensateurs défectueux d’une carte GPU si vous pouvez trouver des pièces de rechange équivalentes.

De plus, la soudure qui relie les puces et les composants à la carte de circuit imprimé de votre carte GPU peut vieillir et se fissurer avec le temps en raison de changements de température fréquents, d’une manipulation physique brutale, d’un stockage inadéquat ou d’un fonctionnement trop chaud. Donc oui, une utilisation intensive du GPU peut augmenter les risques de défaillance des joints de soudure. La réparation des joints de soudure défectueux peut être techniquement difficile, mais elle n’est pas impossible.

Défaillances de la puce du GPU elle-même

La question reste donc posée : Une puce de GPU peut-elle finir par s’user à force d’être utilisée ? La réponse est oui, en théorie, dans des circonstances extrêmes. Mais vous verrez probablement la défaillance d’un autre composant de la carte graphique bien avant ce moment.

La puce du GPU de votre carte graphique contient des millions ou des milliards de transistors, gravés dans un morceau de silicium. Les transistors vieillissent avec le temps, ce qui affecte leurs performances. Lorsque suffisamment de transistors se comportent mal, la puce tombe en panne.

Selon Semiconductor Engineering, il existe plusieurs raisons majeures pour lesquelles les transistors fonctionnent mal avec le temps en raison du vieillissement (l’une d’entre elles étant la chaleur), et les erreurs sont d’autant plus probables que la taille des caractéristiques de la puce est petite. Les experts pensent que les puces informatiques fabriquées aujourd’hui ne dureront pas aussi longtemps que celles fabriquées dans les années 1990, mais la prédiction d’une durée de vie exacte reste une conjecture tant la technologie est récente.

Actuellement, NVIDIA ne publie pas d’estimations MTBF (mean time between failure) pour ses cartes graphiques grand public, mais la société les publie pour certains de ses accélérateurs graphiques industriels et professionnels. Par exemple, la fiche technique de l’accélérateur de GPU Tesla K20X indique que le MTBF de la carte (à une température de 35C/95F) est de 14,7 ans pour un « environnement non contrôlé » et de 23,8 ans pour un « environnement contrôlé ». (Notez que, généralement, le matériel graphique industriel est censé être plus robuste et mieux résister à une utilisation intensive que le matériel graphique grand public).

A lire également :  Mypixid : le Monde de l'Intérim par l'Innovation Technologique

Il est intéressant de noter que nous pouvons comparer ces chiffres théoriques avec des données concrètes recueillies sur le terrain. L’une des rares études empiriques sur la durée de vie des GPU provient d’un article de 2020 intitulé « GPU Lifetimes on Titan Supercomputer : Survival Analysis and Reliability », rédigé par Oak Ridge National Labs. L’article rend compte de la fiabilité des 18 688 cartes GPU Nvidia K20X Kepler utilisées dans le superordinateur Cray XK7 Titan, aujourd’hui retiré, sur une période de près de 7 ans (2012-2019).

Le supercalculateur Cray XK7 Titan

Après quelques contretemps initiaux dus à des problèmes de connexion, ils ont constaté une fiabilité relativement élevée des cartes graphiques du XK7 jusqu’en 2016 (environ 3-4 ans), lorsque beaucoup ont commencé à tomber en panne. Mais devinez quoi ? Ils ont attribué la plupart des défaillances du premier lot de cartes (avant leur remplacement) à une résistance défectueuse sur la carte de circuit imprimé de la carte graphique, et non à la puce du GPU elle-même. Dans l’ensemble, les auteurs de l’étude ont constaté que le MTBF moyen des cartes GPU du K20X, très utilisées, était d’environ 3 ans (et non de 14 à 23 ans, comme indiqué dans la fiche technique de Nvidia), certaines des cartes les plus chaudes du noyau tombant en premier. Ils ont conclu que « la fiabilité du GPU dépend de la dissipation de la chaleur ».

Il y a donc de fortes chances que si vous utilisez votre carte graphique aussi intensément que l’un des plus grands superordinateurs du monde (à l’époque), elle s’use plus rapidement, et que d’autres composants tels que les ventilateurs et les résistances tombent en panne bien avant la puce du GPU elle-même. La durée exacte dépend de facteurs que nous ne pouvons pas prévoir.

En fin de compte, la chaleur est l’ennemi

En fin de compte, d’après toutes les sources que nous avons lues, le facteur décisif le plus important pour la durée de vie d’une carte GPU est la température à laquelle elle fonctionne. Plus la carte est chaude, plus tous ses composants se dégradent rapidement. En outre, plus la carte est chaude, plus elle réduit ses performances pour éviter une défaillance catastrophique. Un bon refroidissement prolonge la durée de vie de votre carte et augmente ses performances.

Vous achetez un GPU d’occasion ? Voici ce à quoi il faut faire attention

Que vous exploitiez des crypto-monnaies ou que vous jouiez, si vous maintenez votre carte GPU à une température raisonnable grâce à des ventilateurs propres et fonctionnels et à une pâte thermique efficace, vous aurez probablement une carte très performante qui, si vous avez de la chance, pourra durer jusqu’à ce qu’elle devienne obsolète et que vous la mettiez à niveau.

Si vous envisagez d’acheter un GPU d’occasion, vous devez absolument tenir compte de son historique, notamment de la manière dont son propriétaire l’a traité et utilisé. Les cartes fortement utilisées (qui fonctionnent aujourd’hui) fonctionneront probablement bien à court terme mais sont plus susceptibles de tomber en panne à long terme. Nous ne pouvons pas donner de chiffre exact sur la durée de vie d’une carte, mais il est certain qu’une utilisation intensive use les cartes graphiques plus rapidement.