> > > > Zu Besuch im Failure Lab bei NVIDIA: 10-nm-GPUs bereits im Test

Zu Besuch im Failure Lab bei NVIDIA: 10-nm-GPUs bereits im Test

DruckenE-Mail
Erstellt am: von

nvidia 2013Im Vorfeld der GPU Technology Conference 2016, auf der unter anderem die neue Pascal-Architektur enthüllt wurde, konnten einige ausgewählte Redaktionen das Failure Lab bei NVIDIA besuchen. Dabei handelt es sich um eine Einrichtung direkt bei NVIDIA im kalifornischen Santa Clara, die sicherstellen soll, dass es beim Design und anschließend in der Fertigung nicht zu Fehlern innerhalb des Chips kommt.

Wie wichtig dieses Thema ist, weiß NVIDIA sicherlich spätestens seit dem verspäteten Launch der Fermi-Architektur. Damals kam es zu Problemen, da eine Emulation und Simulation von GPUs bzw. einzelnen Komponenten einer GPU nicht 1:1 das abbilden können, was am Ende nach der Fertigung dabei herauskommt. NVIDIA verwendete sogenannte SMs (Streaming-Multiprozessoren), die über einen Interconnect untereinander und mit dem Speicher kommunizieren. Die Verbindungen zwischen den SMs und dem Speicher werden über ein "Fabric", ein Gewebe aus feinen Drähten (Wires), hergestellt. Da diese Verbindungen mit extrem hohen Taktraten arbeiten müssen, kommt es aufgrund der räumlichen Nähe der einzelnen Verbindungen zu elektromagnetischen Interferenzen. Als dann der erste Fermi-Chip die Fabrik verließ, funktionierten die SMs einzeln betrachtet ohne größere Probleme. Doch sie konnten weder untereinander noch mit dem Speicher kommunizieren. Maßgeblich aus diesen Gründen benötigte NVIDIA eine Entwicklung bis zum A3-Stepping. Bei der Kepler-, Maxwell- und offenbar auch Pascal-Architektur hat man aus diesen Fehlern gelernt.

Doch zurück zum Besuch des Failure Lab. Den Rundgang führte Howard Marks, Director of Technology Operations im Silicon Failure Analysis Lab bei NVIDIA. Da NVIDIA kein Unternehmen mit eigener Fertigung ist und dazu Auftragsfertiger wie TSMC beauftragt, muss ein Failure Lab unterhalten werden, um Probleme, wie das zuvor beschriebene, rechtzeitig zu erkennen. Bei 10 Millionen GPUs und SoCs, die Monat für Monat die Fertigung verlassen, können bereits kleine Ausfallraten große Probleme bereiten.

Bei 8 Milliarden Transistoren keine ganz einfache Aufgabe – die GP100, die bisher einzig vorgestellte GPU auf Basis der Pascal-Architektur, kommt sogar auf 15,3 Milliarden Transistoren. Die Transistoren sind aber nicht die einzige Fehlerquelle. Das Fabric, verantwortlich für die Übertragung der Signale innerhalb der GPU und zwischen den verschiedenen Komponenten (Shadereinheiten, Caches, Register, etc.), kann ebenfalls fehlerhaft sein, wie die Fermi-Architektur 2009/2010 bewiesen hat.

NVIDIA Hauptquartier in Santa Clara, USA
"NVIDIA Hauptquartier in Santa Clara, USA

NVIDIA verwendet verschiedene Analysemethoden, um Problemen auf den Grund zu gehen oder Fehler auszuschließen. Dazu werden beispielsweise Elektronenmikroskope verwendet, die eine Vergrößerung um den Faktor 300.000 ermöglichen. Gekoppelt wird ein solches Elektronenmikroskop beispielsweise mit einer Röntgen-Analyse, um erkennen zu können, welches Material gerade betrachtet wird, um den Fehler im Aufbau eines Chips, der aus mehreren Schichten besteht, zu erkennen. Zum Beispiel könnte es zu Verunreinigungen im Material gekommen sein, die damit abgeklärt werden können. Um noch feinere Strukturen erkennen und analysieren zu können, werden zudem Ionenstrahl-Mikroskope verwendet, die eine Vergrößerung um den Faktor 1.500.000 ermöglichen. Da die Messinstrumente immer empfindlicher werden, muss NVIDIA Teile der Labore besonders abschirmen. Selbst die Stimme einer einzigen Person kann in einem solchen Raum bereits zu fehlerhaften Messungen führen.

Sollte es notwendig werden, die erste Schicht eines Chips oder mehrere Schichten zu durchbrechen, können solche Mikroskope mit Gallium-Strahl gekoppelt werden. Diese schweren Atome sind in der Lage, Löcher in die Schichten eines Chips zu bohren. Mithilfe eines AFM-Mikroskops (Atomic Force Microscope) kann dann auch in den Kleinstbereichen bis hin zu einzelnen Atomen ein Chip untersucht werden. Ist beispielsweise der fehlerhafte Transistor gefunden, kann dieser in seinen Bestandteilen abgetastet werden.

10-nm-GPUs bereits in der Analyse

Hier fiel dann auch ein interessanter Nebensatz, denn die Analyse mittels AFM-Mikroskop wird offenbar immer wichtiger, speziell da man bereits GPUs analysiere, die in 10 nm gefertigt werden. Dabei könnte es sich bereits um den Shrink der Pascal-Architektur handeln oder aber um den Nachfolger namens Volta.

Fehler können aber nicht nur im Inneren des Chips auftreten, sondern auch an den Schnittpunkten mit dem PCB oder dem Package, in dem sich die GPU befindet. Dazu verwendet NVIDIA 3D-Röntgengeräte. Im Fokus stehen dabei die BGAs (Ball Grid Arrays). Diese kleinen Kugeln auf der Unterseite eines jeden Chips dienen als Kontaktpunkt mit der Fläche, auf die der Chip gelötet werden soll. Bereits kleinste Abweichungen können dazu führen, dass kein Kontakt eines einzelnen Balls mehr sichergestellt werden kann. Bei inzwischen mehreren tausend Balls in einem BGA für einen modernen Chip kann ein solcher Fehler schnell auftreten.

Um den Fehler erkennen zu können, wird der Chip während des Röntgen-Vorgangs langsam gedreht und von allen Seiten beleuchtet. Dies ist nicht nur für die Verbindung zwischen GPU und PCB wichtig, sondern auch für das Package selbst, in dem sich die GPU verwendet. Diese verfügt über kleine Balls, die auf die größeren Balls das Package übertragen werden müssen. Schon dabei können Fehler auftreten. Damit man aber nun sehen kann, welche Kontaktpunkte fehlerhaft sind, muss die Röntgen-Analyse in 3D erfolgen. Dabei werden 1.600 Bilder für die Analyse eines Chips erstellt. Diese werden dann zu einem 3D-Bild oder besser einem Film zusammengesetzt. Früher dauerte alleine dieser Vorgang 11 Stunden. Dank der schnellen Quadro-Karten (natürlich bringt NVIDIA hier auch gerne etwas Eigenwerbung unter) ist dies inzwischen in drei Minuten möglich.

Tesla P100 Module mit GP100-GPUs in einem QuantaPlex T21W-3UTesla P100 Module mit GP100-GPUs in einem QuantaPlex T21W-3U

Tesla P100 Module mit GP100-GPUs in einem QuantaPlex T21W-3U

Ebenfalls im Failure Lab durchgeführt, wird die Kalibration der Temperatursensorik innerhalb einer GPU. Diese ist mit den Boost-Mechanismen immer wichtiger geworden, zumal die Oberflächentemperatur einer GPU wenig darüber aussagt, wie warm es wirklich darin ist. Diese Temperatursensorik muss allerdings kalibriert werden – nicht für jede GPU einzeln, aber in regelmäßigen Abständen für eine bestimmte Variante (zum Beispiel GM200-310, GM200-400, etc.). Dazu wird ein Infrarot-Instrument verwendet, da das Silizium für infrarotes Licht ebenso transparent ist, wie sichtbares Licht durch eine Glasscheibe scheinen kann. Natürlich kommt es in beiden Fällen zu Absorptionen, die Analogie aber soll helfen zu verstehen, warum ein Infrarot-Instrument verwendet wird.

An der Messeinrichtung können bestimmte Bereiche der GPU angesteuert werden. Nun wird beobachtet wie warm diese und die Randbereiche werden bzw. wie schnell sie sich wieder abkühlen, damit NVIDIA abschätzen kann, unter welcher Last die GPU wie warm wird. Man wird natürlich nicht in jedem Quadratmillimeter eine Messsonsorik verbauen können, daher beruhen solche Messungen später auch auf solchen Schätzungen. Wer die Temperatur seiner GPU ausließt, bekommt letztendlich genau diese Werte geliefert, wobei NVIDIA diese auch verwendet, um bestimmte Stromsparmechanismen zu implementieren. Über eine solche Infrarotmessung können außerdem fehlerhafte Transistoren erkannt werden, da diese ohne Hitzeentwicklung als nicht funktionsfähig erachtet werden können.

Die Signalintegrität wird über Methoden sichergestellt, bei der Gigaherzsignale an verschiedenen Punkten eingespeißt werden. An den zu erwartenden Punkten sollte dieses Signal wieder auftauchen. Tut es das nicht, ist auch hier von einem Fehler auszugehen und dieser muss über die Eingrenzung über verschiedene weitere Methoden dann genauer analysiert werden.

Letzte Station war das ESD Lab. Bauteile wie GPUs sind natürlich anfällig für elektrostatische Entladungen und NVIDIA hat verschiedene Schutzmechanismen in seinen GPUs verbaut, um diese zu verhindern. Getestet werden diese über das Anlegen von 3.500 V an jeden IO des Chips. Übersteht der Chip den Test, funktionieren auch die ESD-Schutzmechanismen. Tut er das nicht, müssen weitere Analysten stattfinden, um herauszufinden, warum das nicht der Fall ist.

Blunty, ein Youtuber aus dem Hardware-Bereich, hat den Besuch des Failure Lab gefilmt.

Social Links

Kommentare (28)

#19
customavatars/avatar37708_1.gif
Registriert seit: 29.03.2006
Nürnberg
Kapitänleutnant
Beiträge: 1616
Darum geht es doch gar nicht. In so einem Testlabor stellen bewusste Designentscheidungen, die vielleicht später der Kunde als problematisch empfindet, doch kein Problem dar. Auch ist die Lautstärke eines Kühlers und das subjektive Empfinden des Kunden kein Thema für das Failure Lab. Es geht ausschließlich um technische Eigenschaften der Architektur, die sich anders Verhalten als spezifiziert.

mfg TommyB
#20
customavatars/avatar202850_1.gif
Registriert seit: 06.02.2014
Im sonnigen Süden
Admiral
Beiträge: 9482
Zitat TommyB2910;24512456
Darum geht es doch gar nicht. In so einem Testlabor stellen bewusste Designentscheidungen, die vielleicht später der Kunde als problematisch empfindet, doch kein Problem dar.

Dass ein Teil des Speichers grundsätzlich langsamer angesprochen werden kann als der Rest, war ganz sicher ein bekanntes Problem und wurde auch intern von den Entwicklern so genannt..
Man hat sich nur entschieden das so beizubehalten, weil man sonst hätte weniger weglasern können.
#21
customavatars/avatar193511_1.gif
Registriert seit: 13.06.2013
Kölle
Banned
Beiträge: 2981
Da ist was dran, geht schon auch um so Dinge wie Unternehemskultur usw. in diesem Zusammenhang ja eindeutig .... und dazu kann man auch eindeutig eine Haltung zu haben ...
#22
Registriert seit: 04.08.2015

Fregattenkapitän
Beiträge: 2716
Klar kann man das - aber man sollte dann auch bei den Tatsachen bleiben.

Es ist nunmal kein Fehler an der Karte - die wollten es so :)
#23
customavatars/avatar37708_1.gif
Registriert seit: 29.03.2006
Nürnberg
Kapitänleutnant
Beiträge: 1616
Zitat Josedan03;24512769
Da ist was dran, geht schon auch um so Dinge wie Unternehemskultur usw. in diesem Zusammenhang ja eindeutig .... und dazu kann man auch eindeutig eine Haltung zu haben ...


Nein. Hier geht es um das Failure Lab und nicht um irgendeine Unternehmenskultur oder ethischen Normen oder Werte oder sonstwas was ein Hersteller nach Meinung irgendwelcher Leute zu erfüllen hat.
Alashondra formuliert es zwar harsch aber so ist es.


mfg TommyB
#24
customavatars/avatar17965_1.gif
Registriert seit: 15.01.2005
Hannover
Admiral
Beiträge: 10115
Eigentlich bin ich überhaupt nicht gläubig, aber:

Lieber Gott, lass es nie wieder zu so einem Theater um eine Grafikkarte kommen!!!

Wie kann man sich denn in JEDEM beschissenen Thema mit der GTX 970 beschäftigen? Hier geht es um etwas komplett anderes in diesem Thread.
Demnächst wird auch im Kaffeeautomaten-Kaufberatungs-Thread über die GTX 970 hergezogen.
Geht's euch noch gut?
#25
Registriert seit: 09.03.2016

Banned
Beiträge: 91
Zitat even.de;24512864

Demnächst wird auch im Kaffeeautomaten-Kaufberatungs-Thread über die GTX 970 hergezogen.
Geht's euch noch gut?


Ja das finde ich auch schlimm, die gute 970 absichtlich so runterzumachen.
#26
customavatars/avatar202850_1.gif
Registriert seit: 06.02.2014
Im sonnigen Süden
Admiral
Beiträge: 9482
Zitat even.de;24512864
Eigentlich bin ich überhaupt nicht gläubig, aber:

Lieber Gott, lass es nie wieder zu so einem Theater um eine Grafikkarte kommen!!!

Wie kann man sich denn in JEDEM beschissenen Thema mit der GTX 970 beschäftigen? Hier geht es um etwas komplett anderes in diesem Thread.
Demnächst wird auch im Kaffeeautomaten-Kaufberatungs-Thread über die GTX 970 hergezogen.
Geht's euch noch gut?

Es ist einfach frustrierend dass Nvidia ungestraft sowas abziehen kann...
Foren wie diese sind dann noch zu kleines Ventil.
#27
customavatars/avatar17965_1.gif
Registriert seit: 15.01.2005
Hannover
Admiral
Beiträge: 10115
Vergleich es doch mit VW. Der Abgsasskandal ist auch eine Schweinerei. Dennoch bauen sie gute Autos.
Das gleiche sehe ich bei der 970. Und nun :btt2:
#28
customavatars/avatar3377_1.gif
Registriert seit: 15.11.2002
www.twitter.com/aschilling
[printed]-Redakteur
Tweety
Beiträge: 29105
NVIDIA veröffentlicht Whitepaper zur Pascal-Architektur bzw. GP100-GPU - Hardwareluxx
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

Roundup: 5x GeForce GTX 1070 mit Custom-Design im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/5X-GTX1070/GTX1070_CUSTOM_ROUNDUP-TEASER

Nachdem wir bereits eine Reihe von Boardpartner-Karten der NVIDIA GeForce GTX 1080 ausführlich getestet haben, holen wir gleiches nun für das kleinere Schwestermodell nach, denn auch von der NVIDIA GeForce GTX 1070 gibt es viele Custom-Modelle mit höheren Taktraten, eigenen Kühlsystemen und... [mehr]

Drei Custom-Modelle der GeForce GTX 1060 im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/3X-GTX1060/GTX1060_ROUNDUP_TEST-TEASER

Anders als bei der GeForce GTX 1080 und GeForce GTX 1070 trudelten wenige Stunden nach unserem Test zur Founders Edition der NVIDIA GeForce GTX 1060 schon die ersten Boardpartner-Karten mit teils höheren Taktraten, eigenem Kühlsystem und überarbeitetem Platinenlayout ein. Sie dürften... [mehr]

NVIDIA GeForce GTX 1080 mit Pascal-Architektur im XXL-Test

Logo von IMAGES/STORIES/LOGOS-2016/GEFORCE-GTX-1080

Heute ist es soweit: NVIDIA läutet mit der GeForce GTX 1080 und GTX 1070 auf Basis der Pascal-Architektur den diesjährigen Neustart bei den Grafikkarten ein. In Kürze wird wohl auch AMD seinen Beitrag zu diesem Thema leisten. Vor zehn Tagen lud NVIDIA die gesammelte Fachpresse nach Austin ein... [mehr]

Roundup: 5x GeForce GTX 1080 im Custom-Design im Test

Logo von IMAGES/STORIES/LOGOS-2016/GEFORCE-GTX-1080

Nachdem wir uns die Founders Edition der GeForce GTX 1080 und GeForce GTX 1070 bereits angeschaut haben, folgen nun fünf Retail-Modelle, die wir in aller Ausführlichkeit unter die Lupe nehmen wollen. Aus den vielen Boardpartnern und unterschiedlichen Modellen haben wir uns solche von ASUS, EVGA,... [mehr]

AMD Radeon RX 480 im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/RADEON-RX480/RADEON-RX480-REFERENCE-LOGO

Es ist also soweit: AMD startet die großangelegte Zurückeroberung des Grafikkartenmarktes mit der Radeon RX 480, die als erste Grafikkarte der Polaris-Generation mit gleichnamiger Architektur erscheint und die wir uns genauer anschauen können. Dabei versucht sich AMD an einem anderen Ansatz im... [mehr]

PowerColor Radeon RX 480 Red Devil im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/POWERCOLOR-RX480/POWERCOLOR-RX480REDDEVIL-LOGO

Mit der Radeon RX 480 will AMD zurück zu alter Stärke und hat daher über Monate hinweg die PR-Trommel geschlagen. Letztendlich dabei herausgekommen ist eine sehr gute Karte für einen niedrigen Preis, die aber nicht in allen Bereichen zu überzeugen weiß. Wohl größtes Manko der Karte sollte... [mehr]