> > > > Vega-Architektur mit HBM2 und neuer Compute-Engine vorgestellt

Vega-Architektur mit HBM2 und neuer Compute-Engine vorgestellt

DruckenE-Mail
Erstellt am: von

Kurz nachdem man sich bei AMD dazu entschlossen hatte, mit der Polaris-Architektur auf den Mittelklasse- und Mobile-Markt abzuzielen, folgte die Entscheidung mit einer parallelen Architektur-Entwicklung andere Märkte in den Fokus zu nehmen. Auch wenn AMD in den vergangenen Monaten immer wieder neue FirePro-Grafikkarten auf den Markt brachte, so schien man den Trend zum Machine Learning, Deep Learning, Artificial Intelligence etwas verschlafen zu haben – auch weil die verfügbaren GPUs aufgrund ihrer Architektur in diesem Bereich nicht ihre Stärken hatte. Mit der Vega-Architektur soll diese Lücke nun geschlossen werden. Heute gibt AMD einen ersten Einblick auf das, was uns 2017 erwartet.

Zum jetzigen Zeitpunkt dürfen wir etwas genauer über das sprechen, was wir schon Mitte Dezember im Rahmen der Vorstellung von Radeon Instinct zumindest an der Oberfläche ankratzen konnten. Schon damals wurden einige Details zu Vega bekannt, wenngleich AMD offiziell noch nichts sagen wollte.

Bei der Entwicklung der Vega-Architektur wollte AMD diese auf die aktuellen Anforderungen auslegen und das nicht nur hinsichtlich der Rohleistung der Shadereinheiten, sondern auch die dazugehörige (Speicher)-Infrastruktur. Dass der Speicher ein immer wichtigerer Faktor wird, zeigt die Entwicklung von High Bandwidth Memory, GDDR5X und weiteren Stapelspeichertechnologien wie 3D XPoint bei Intel und HMC bei Micron. In Spielen werden inzwischen einige Gigabyte an Daten in den Speicher geschrieben und wieder von dort gelesen. Bei der Verarbeitung von Video-Inhalten sind wir inzwischen bei mehreren Petabyte angekommen. Schaut man aber in den Compute-Bereich und diesen will AMD mit der Vega-Architektur ansprechen, sind mehrere Exabyte keine Seltenheit mehr. Das auseinanderlaufende Verhältnis zwischen Rechenleistung und der zur Verfügung stehenden Speichermenge sowie dessen Anbindung will AMD wieder in ein sinnvolles Verhältnis rücken.

Neue Speicherarchitektur

Im Rahmen der ersten Vorstellung der Vega-Architektur wollen wir auch mit der Betrachtung der neuen Speicherarchitektur beginnen. Ein wichtiger Bestandteil ist dabei der High-Bandwidth Cache. So bezeichnet AMD den für die GPU verfügbaren Speicher. Dabei handelt es sich nicht nur um den Grafikspeicher, sondern um allen der GPU zur Verfügung stehenden Speicher, einschließlich Caches. Dabei spielt es auch keine Rolle, ob es sich beim Speicher um GDDR5, GDDR5X oder HBM der 1. oder 2. Generation handelt.

Der Vorteil der neuen Speichertechnologien wie HBM2 liegt auf der Hand. Die Speicherbandbreit kann auf bis zu 1.024 GB/s und damit verdoppelt werden. Die zur Verfügung stehende Kapazität kann bis zu 32 GB in vier Stacks zu jeweils 8 GB betragen.

HBM2 ermöglicht flexible Speicherausstattung

Bisher kennen wir den High Bandwidth Memory im Desktop-Bereich nur von der Radeon R9 Fury X. Dort kommt dieser Speicher jedoch in seiner ersten Generation zum Einsatz. AMD verwendet im GPU-Package vier HBM-Speicherstacks mit einer Kapazität von jeweils 1 GB und einer Speicherbandbreite von jeweils 128 GB/s. Der Takt des Speichers liegt bei 500 MHz und somit ergeben sich daraus die insgesamt 4 GB Grafikspeicher und 512 GB/s.

NVIDIA präsentierte im letzten Frühjahr den GPU-Beschleuniger Tesla P100 und dieser ist nach wie vor der einzige seiner Art, der HBM der zweiten Generation verwendet. Auch hier werden vier Speicherstacks verwendet, die allerdings auf jeweils 4 GB Speicherkapazität und auf 180 GB/s kommen. Insgesamt ergeben sich daraus die 16 GB Gesamtspeicher auf der Tesla P100, der mit 720 GB/s angebunden ist. bei HBM2 kann der Takt theoretisch verdoppelt werden, sodass 256 GB/s pro Speicherstack erreicht werden, allerdings verwendet NVIDIA für die Tesla P100 vermutlich noch Speicher aus der Risikoproduktion von Samsung, der diese Taktraten noch nicht erreichen konnte.

Doch HBM2 soll im Unterschied zu HBM1 deutlich flexibler sein, was den Speicherausbau betrifft. Spezifiziert ist HBM2 in Speicherstacks zu 2 (2Hi HBM2), 4 (4Hi HBM2), 8 GB (8Hi HBM2) sowie 16 GB (16Hi HBM2). Bisher haben SK Hynix und Samsung als Hersteller von HBM2 aber nur bis zu 8Hi HBM2 in der Produktion vorgesehen. 16Hi HBM2 sind allerdings bereits spezifiziert und damit theoretisch umsetzbar. Je nachdem, wie viele Speicherstacks nun zum Einsatz kommen, kann der Speicherausbau und dessen Anbindung unterschiedlich ausgeführt werden.

Einige Vorteile des High Bandwidth Memory kennen wir bereits von der 1. Generation, die auf der Radeon R9 Fury X zum Einsatz kommt. Hier liegt die Speicherbandbreite mit 512 GB/s zwar auch schon auf einem recht hohen Niveau, schon damals war es aber wichtig festzuhalten, dass der HBM1 um den Faktor zwei effizienter weil sparsamer bei der Leistungsaufnahme ist. Hinzu kommt, dass der High Bandwidth Memory auf einem Interposer direkt neben der GPU und damit im GPU-Package platziert wird. Damit nimmt der Speicher auch deutlich weniger Platz auf dem PCB sein.

Immer mehr DRAM zu verwenden konnte die aktuellen Limitierungen also nicht mehr aufheben. Außerdem steigen der PCB Footprint und die Leistungsaufnahme. Ein heterogenes Speichermanagement soll die notwendige Flexibilität bieten. Dazu hat AMD den HBCC (High-Bandwidth Cache Controller) entwickelt. Dieser kümmert sich um die Ansteuerung und Verwaltung der verschiedenen Speichertechnologien.

Neben der reinen Größe und Geschwindigkeit des Speichers gibt es noch viele andere Punkte, an denen die Effizienz des Gesamtsystems verbessert werden kann. So ist es nicht notwendig alle Daten im schnellsten Speicher vorzuhalten, denn die GPU kann nur einen bestimmten Datensatz gleichzeitig verarbeiten. Das Datamanagement verschiebt sich von den Spieleentwicklern hin zu AMD bzw. der Architektur selbst. Bisher verwenden die Entwickler allen Speicher, den sie zur Verfügung gestellt bekommen. Die Kontrolle darüber haben sie selbst. Allerdings kostet eine gute und effiziente Anpassung viel Zeit und damit auch Geld.

Die Radeon Pro SSC mit einer SSD war in diesem Segment ein erster Schritt in die Richtung, der mit der Vega-Architektur nun vollständig vollzogen wird. Verschiedene Speicher werden kombiniert, die Hardware übernimmt weitestgehend die Zuteilung und sorgt für eine effiziente Nutzung.

Im Rahmen dieser Umstellung werden wir uns aber auch an neue Begriffe und Funktionsprinzipien gewöhnen müssen. Der Grafikspeicher oder richtiger Frame Buffer wird von AMD nur noch als High-Bandwidth Cache bezeichnet. Angesprochen wird dieser vom neuen High Bandwidth Cache Controller (HBCC), der neben dem HB Cache auch angebundenen Network Storage und System DRAM verwalten kann. Insgesamt kann der HBCC 512 TB an virtuellem Adressraum verwalten. 49 Bit können als Shared Memory auf alle GPUs in einem System verteilt werden. Dazu werden Speicherpools angelegt. 256 TB kann ein einzelner physikalischer Speicher theoretisch groß werden. Der HBCC entscheidet, welche Daten im schnellen Speicher und welche Daten im langsamen Speicher landen. Gesteuert wird dies über den Treiber (siehe Speichermanagement bei Fiji). Zugriffe auf die Daten im Speicher sollen optimiert werden, denn nur etwa die Hälfte der Daten, die sich im Frame Buffer befinden, werden überhaupt verwendet.

Wie ineffizient ein Speicher trotz vieler Optimierungen verwendet wird, zeigt folgendes Beispiel: In einer beispielhaft ausgesuchten Spielszene in Deus Ex: Mankind Devided sind 210 Millionen Polygonevorhanden, davon aber nur 2 Millionen davon sind sichtbar.

Unklar ist noch, wie das neue Speichermanagement genauer aussieht. Ab wann der Treiber die Kontroller übernimmt und wie viel Einfluss die Programmierer darauf haben. Mit DirectX 12 sollte die Kontrolle des Speichers eigentlich weiter in die Hände der Entwickler überführt werden. AMD und NVIDIA übernehmen über die Treiber aber weiterhin eigene Optimierungen, die auf die Hardware angepasst sind.

Neue Geometry Pipeline

Neben dem Speicher hat AMD in der Vega-Architektur aber noch weitere Änderungen vorgenommen und diese betreffen die Geometry Pipeline. Diese soll einen doppelt so hohen Pixeldurchsatz pro Takt im Vergleich zu den bisherigen Architektur aus dem Hause AMD ermöglichen.

An dieser Stelle ein kleiner Exkurs durch die GPU-Architekturen bei AMD. AMD bezeichnet seine Architekturen und Instruction Sets in den vergangenen Jahren mit dem Namen Graphics Core Next (GCN). Den Anfang machte AMD mit der 1. Generation in der Radeon-HD-7700-Serie. Intern wurde diese Architektur auch als GFX7 bezeichnet. Allerdings gibt es Überschneidungen zwischen den GCN-Generationen und den Architekturbezeichnungen bei AMD. Mit GCN 2.0 und GCN 3.0 bzw. GFX8 wurden die darauffolgenden Generationen bezeichnet – bis hin zu den im letzten Sommer vorgestellten Polaris-Karten, die mit GCN 4.0 bezeichnet werden.

Die weitgehenden Änderungen bei der Vega-Architektur rechtfertigen wohl auch eine neue interne Bezeichnung bei den Architekturen. Die Vega-Architektur wird daher auch mit GFX9 benannt. Vega 10 und Vega 11 bleiben dem grundsätzlichen Design der GCN-Architekturen treu.

Neu innerhalb der Geometry Pipeline ist, dass Vertex Shader und Geometry Shader nicht mehr getrennt voneinander behandelt werden. Stattdessen können sogenannte Primitive Shader eingesetzt werden. Diese beinhalten Vertex- und Geometry-Berechnungen, lassen sich über einen verbesserten Load Balancer aber besser auf die zur Verfügung stehenden Hardware-Ressourcen verteilen. Damit sollen die Shadereinheiten auch besser ausgelastet werden. Die GPU überwacht sich bzw. die Auslastung ständig selbst und versucht die ideale Verteilung zu erreichen.

Neue Compute Engine

Dritter wichtiger Bestandteil der neuen Architektur ist die neue Compute Engine und auch hier gibt es weitgehende Änderungen im Vergleich zur bisherigen Architektur. Im Rahmen der neuen Compute Engine wird auch der bereits im Dezember gefallene Begriff NCU genauer erläutert. NCU steht wie von uns vermutet für Next-Generation Compute Engine.

Diese neue Compute Engine kann 512 8-Bit Operationen pro Takt, 256 16-Bit Operationen pro Takt und 128 32-Bit Operationen pro Takt ausführen. Damit kommt die Vega-Architktur auf ein 4:2:1-Verhältnis für diese Datentypen und liegt wieder auf Niveau der Hawaii-GPUs. Das Double-Precision-Verhältnis ist anpassbar. AMD setzt dabei auch auf eine Technologie, die wir von NVIDIA als Mixed Precision kennen. Dabei können 32 Bit Register mit den dazugehörigen 32 Bit Operationen in 2x 16 Bit Register mit 2x 16 Bit Operationen aufgeteilt werden. Dies ist der wesentliche Schritt, um hinsichtlich der Leistung für Machine-Learning-Anwendungen wieder mithalten zu können. Durch andere Optimierunge sollen die NCU auch eine höhere Single-Threaded-Leistung vorzuweisen haben.

Neue Pixel Engine

Änderungen hat es auch bei der Pixel Engine gegeben. Diese kann nun neue sogenannte Draw Stream Binning Rasterizer ausführen, die für eine bessere Kompression der vorhandenen Daten sorgen. Damit soll der Speicherbedarf reduziert werden, was bei der Übertragung dieser Daten aus und in den Speicher auch Vorteile bei der Geschwindigkeit birgt. In einer Szene wird jedes Objekt nacheinander berechnet, dies alles muss durch den Rasterizer – ob sichtbar oder nicht spielt dabei zunächst einmal keine Rolle. Durch den Draw Stream Binning Rasterizer können Pixel entfernt werden, die nicht sichtbar sind. Ein Shading ist in diesem Fall nicht mehr notwendig. Dadurch wird Speicherkapazität und Speicherbandbreite eingespart. In bisherigen GPU-Architekturen von AMD ist der Pixel- und Texturspeicher nicht coherent ausgelegt und musste daher teilweise doppelt verwendet werden. Mit der Vega-Architektur nutzen die Geometry Pipeline, die Compute Engine und die Pixel Engine den zur Verfügung stehenden L1- und L2-Cache parallel. Dies gilt auch für die Render Backends.

Die immer komplexere Fertigung mit mehr und mehr Transistoren stellt für AMD natürlich auch eine Herausforderung dar. Die Leistung muss ebenso steigen wie die Effizienz. Einiges davon kann durch eine verbesserte Fertigung erreicht werden, ein Großteil der aber über eine verbesserte Architektur. Dazu trägt bei Vega unter anderem die neue Speicherhierarchie bei, aber auch die neuen Entwicklungen bei der Compute und Pixel Engine. Ein Ergebnis dieser Entwicklung, die vor vier Jahren startete, ist der Infinity Fabric.

Infinity Fabric

Bei den Zen- bzw. RYZEN-Prozessoren tauchte immer wieder der Begriff Infinity Fabric oder Infinity Control Fabric auf. Doch was steckt dahinter? Eben diese Frage versuchen wir nun einmal zu klären.

Mit der Zen- und Vega-Architektur führt AMD einen neuen Interconnect ein. An diesem Infinity Fabric hat AMD seit 4 Jahren gearbeitet. Der Name Fabric legt im Grunde schon nahe, um welche Struktur es sich handelt, denn Fabric heißt übersetzt Stoff und eben so ist auch dieser Interconnect aufgebaut. Laut AMD ist der Infinity Fabric modular aufgebaut und kann beliebig komplex ausgeführt werden. Eben diese Skalierbarkeit soll den Infinity Fabric in allen neuen Prozessoren und GPUs einsetzbar machen.

Der Infinity Fabric teilt sich auf in einen Control Fabric und Data Fabric. Der Control Fabric ist für die Ansteuerung der verschiedenen Engine-HUBs verantwortlich. Auf Basis des Control Fabric können Technologien wie das Power Management, Sicherheitsfunktionen, Reset&Initialization und das Testing durchgeführt werden. Der Data Fabric hingegen ist ein extrem schneller Interconnect, der dafür verantwortlich ist, dass die Daten schnellstmöglich innerhalb einer Architektur bewegt werden können. Über den Data Fabric wird auch die Verbindung zum Speicher sichergestellt. Im Falle der Vega-GPU bedeutet dies, dass der Interconnect bis zu 512 GB/s zur Anbindung des HBM2 bereitstellen muss. Im Falle eines Mobile-Prozessors mit DDR4-Arbeitsspeicher sind aber auch nur 40-50 GB/s notwendig. Eben dies soll zeigen, wie flexibel der Infinity Fabric ist.

Der Infinity Fabric ist Bestandteil der Vega-Architektur bei den Grafikkarten, aber auch von Summit Ridge bzw. den RYZEN-Prozessoren sowie den für das 2. Halbjahr geplanten Mobile-Prozessoren Raven Ridge, die ebenfalls unter der Marke RYZEN vermarktet werden sollen. Im Falle der Vega-Architektur soll der Infinity Fabric als Mesh, also in einer Gitterstruktur ausgeführt werden. Dies liegt vor allem daran, dass in einer GPU tausende von Shadereinheiten mit Daten gefüttert werden müssen und eine effiziente Verteilung der Daten ist über ein Mesh am besten möglich. Bei den Prozessoren sollen weniger komplexe Topologien für den Infinity Fabric zum Einsatz kommen. AMD wollte keine weiteren Details verraten, eine Ringstruktur wäre hier aber denkbar und wird beispielsweise auch von Intel so umgesetzt.

Der Infinity Fabric ist aber kein reiner Interconnect innerhalb einer CPU oder einer GPU. Laut AMD soll der Infinity Fabric auch in Multi-Socket-Verbindungen zum Einsatz kommen. Dort dient er als technische Basis für AMDs HyperTransport. Mehr zum Infinity Fabric werden wir sicherlich erfahren, wenn AMD den Vorhang zu Zen und Vega vollständig lüftet.

Bis zur ersten Hardware wird es noch etwas dauern

Im Verlaufe der Demos zu Radeon Instict erwähnte Raja Koduri, Chef der Radeon Technologies Group, dass die gezeigte Hardware erst wenige Wochen alt gewesen sei. Der erste Tape Out von Vega 10 soll im Sommer stattgefunden haben. Dies deckt sich in etwa mit dem Zeitrahmen, den AMD zur Polaris-Architektur nannte. Auch hier soll das sogenannte Final Silicon Ende November bzw. Anfang Dezember 2015 vorhanden gewesen sein, wie wir alle wissen erschien die Radeon RX 480 Ende Juni 2016, also rund ein halbes Jahr später. Diesen Zeitplan auf Vega angewendet sehen wir die erste Desktop-Hardware auch nicht viel früher als Mai oder Juni 2017.

Dennoch können wir neben den theortischen Details zur Vega-Architektur auch noch ein paar weitere Details aus den Fotos des Events gewinnen. So hielt Raja Koduri die GPU mehrfach in die Kameras. Im GPU-Package zu erkennen sind zwei HBM-Speicherstacks. Damit könnte die GPU auf 8 oder 16 GB an HBM2 kommen. Das ausgestellte Demo-Systeme zeigte allerdings nur 8 GB an.

Derzeit wissen wir auch noch nicht, um welchen Ausbau der Vega-Architektur es sich bei der gezeigten Hardware handelt. Wir gehen davon aus, dass AMD bisher nur Vega 10 und damit die kleinere Ausbaustufe gezeigt hat. Kommen wir nun wieder zurück zum Demo-System mit Vega und den besagten 8 GB Speicherausbau. Mit HBM2 bestückt wäre es für AMD am logischsten, hier zwei Speicherstacks zu verwenden. Bei 4Hi HBM2 ergäbe dies die 8 GB Gesamtspeicherausbau und bei einem Takt von 1.000 MHz werden hier 256 GB/s pro Speicherstack und insgesamt 512 GB/s erreicht.

Aus der Vorstelltung der Radeon Instinct MI25, die ebenfalls eine Vega-GPU verwendet und zu der AMD eine Rechenleistung von 25 TFLOPS (FP16) angibt, ergibt sich aus angenommenen 4.096 Shadereinheiten ein GPU-Takt von 1.520 MHz. Ob dies letztendlich auch für die Desktop-Version zutrifft, wird sich noch zeigen müssen. Aufgrund der FPS in DOOM bei 3.840 x 2.160 Pixel und dem Ultra-Preset kann aktuell davon ausgegangen werden, dass die erste Vega-Grafikkarte etwas schneller als eine GeForce GTX 1080 sein wird. Genaueres lässt sich derzeit aber noch nicht abschätzen.

Da sich AMD mit der Angabe von technischen Daten noch etwas zurückhält, haben wir versucht aus den Bildern noch ein paar weitere Erkenntnisse zu gewinnen. Gefertigt wird diese wohl in 14 nm. Aus den Bildern der GPU sowie der bekannten Größe der HBM2-Speicherstacks (7,75 mm × 11,87 mm und 91,99 mm²) ergibt sich eine Die-Größe von etwa 520 bis 540 mm². Die Polaris-10-GPU kommt bei 232 mm² auf 5,7 Milliarden Transistoren. Vega 10 mit 520 mm² besäße damit in etwa 12,8 Milliarden Transistoren und wäre ähnlich komplex wie die GP102-GPU von NVIDIA auf der Titan X. Sollte die Größe über 500 mm² tatsächlich zutreffen sein, wäre die erste Vega-GPU deutlich komplexer, als zunächst vermutet. Die daraus zu erwartende Rohleistung müsste deutlich über dem liegen, was NVIDIA mit der GeForce GTX 1080 bieten kann.

Nun heißt es aber zunächst einmal zurücklehnen, denn so schnell werden wir noch keine Grafikkarte mit Vega-GPU sehen. Bis dahin wird AMD sicherlich auch noch einige Informationen veröffentlichen und spätestens mit dem finalen Release und der Verfügbarkeit werden dann auch die letzten Fragen zum Takt und Leistung beantwortet.

Social Links

Ihre Bewertung

Ø Bewertungen: 5

Tags

Kommentare (271)

#262
Registriert seit: 17.01.2005

Kapitänleutnant
Beiträge: 1694
Zitat mustrum;25218457
Diese Käuferschicht hat ganz einfach schon lange eingekauft!

nope

Wobei die Karten ja nicht nur zu Release gekauft werden (ach Gott hab von 1 Monat ne RX480 gekauft)
Geld, komplett neues System, mal weniger Zocken mehr Skifahren, mal weniger Zocken mehr Radfahren, keine Zeit für PC, Warten (auf was auch immer), warten weil man keinen Erstkäufer Zuschlag zahlen möchte...
Hab nen neuen Monitor gekauft und brauch JETZT mehr Leistung :fresse:
es gibt x gute Gründe nicht sofort sich einzudecken
#263
customavatars/avatar191989_1.gif
Registriert seit: 12.05.2013

Flottillenadmiral
Beiträge: 5388
Er hat nicht ganz unrecht, im absoluten HighEnd Bereich wird relativ schnell eingedeckt.
#264
customavatars/avatar47095_1.gif
Registriert seit: 12.09.2006
Pfalz
Oberstabsgefreiter
Beiträge: 490
Zitat Naennon;25217841
auch interessant was NVidia von VEGA hält :D

(Preis vor VEGA Abklebespaß für Alle: 1299,-€)


Zeigt wohl eher was Nvidia von seinen Kunden hält =)
#265
Registriert seit: 09.08.2006

Flottillenadmiral
Beiträge: 4170
Zitat schapy;25217970
Währungsschwankungen, Preiserhöhungen etc. ...


Für jeden Konsumenten muss das fast schon zynisch klingen, denn bei der Marge, die nVidia mit der Titan X bereits jetzt schon hat, könnte man wohl jede Währungsschwankung oder (Rohstoff-)preiserhöhung auch ohne Preisanpassung problemlos verkraften. Der einzige Grund für sowas ist nur, weil man es (noch) machen kann. :(
#266
customavatars/avatar7384_1.gif
Registriert seit: 05.10.2003
Nahe Dortmund
Flottillenadmiral
Beiträge: 5295
Zitat Cippoli;25218999
Für jeden Konsumenten muss das fast schon zynisch klingen, denn bei der Marge, die nVidia mit der Titan X bereits jetzt schon hat, könnte man wohl jede Währungsschwankung oder (Rohstoff-)preiserhöhung auch ohne Preisanpassung problemlos verkraften. Der einzige Grund für sowas ist nur, weil man es (noch) machen kann. :(



Angebot & Nachfrage, bzw. fehlende Konkurenz in dem Produktsektor und dann kann man das ohne Probleme machen - warum wass für 1299,- verkloppen, wenn man es auch teurer losbekommt. Davon abgesehen gibt es so etwas wie eine Inflation, wenn der Wert des Geldes sinkt bekommt, warum soll Nvidia diesen Verlust nicht an seine Kunden weitergeben.

So ist das im Wettbewerb, wenn Nvidia auf der Karten sitzen bleiben würde, würden sie es nicht machen ... jedes Gewinnoptimierte Unternehmen würde so handeln :shake:
#267
Registriert seit: 09.08.2006

Flottillenadmiral
Beiträge: 4170
Das verstehe ich natürlich, so sind eben die Prinzipien der Marktwirtschaft, die möchte ich hier auch gar nicht in Frage stellen, nur als Konsument befriedigt mich das so überhaupt nicht. Da kann man nur hoffen, das AMD in Zukunft wieder zu einen stärkeren Konkurrenten wird. :)
#268
customavatars/avatar11960_1.gif
Registriert seit: 18.07.2004
Vorarlberg/Österreich
Fregattenkapitän
Beiträge: 2680
Zitat NasaGTR;25218698
Er hat nicht ganz unrecht, im absoluten HighEnd Bereich wird relativ schnell eingedeckt.


Genau das meinte ich. Natürlich wird sich Vega verkaufen wenn sie 500 € kostet und 1080er Performance hat.
Nur wo bleibt da der Gewinn? Nvidia verkauft Chips mit ca. gleichen Die Fläche für deutlich mehr Geld, einfach weil sie in der Entwicklung voraus ist.
AMD bringt was vergleichbares auf den Markt und kann nur noch moderatere Preise verlangen.

Das ist für den Kunden schon gut, nur bricht das AMD über kurz oder lang das Genick, da Nvidia mit der Kohle fröhlich weiter entwickeln kann.
Die Titan X mag eine Randerscheinung sein aber die 1080 GTX hat sich laut Shops fantastisch verkauft obwohl der Preis eigentlich extrem hoch angesetzt war.
#269
customavatars/avatar44491_1.gif
Registriert seit: 08.08.2006
Weinböhla (Sachsen)
Moderator
Beiträge: 32195
Zitat Cippoli;25216941
@fdsonne: Ich schätze, dass es nur darum geht die Art der Daten besser auszuwerten. Häufig genutzte Daten bleiben im schnellen Speicher, eher selten genutzte Daten sollen die wertvolleren Daten nicht behindern und wandern (bei Notwendigkeit) gezielt in eine langsamere Speicherebene hinab, wenn der Bedarf dazu da ist. Auf Vorrat Daten im VRAM lagern kannst du nur wenn du auch den überschüssigen Platz dazu hast. In kritischeren Grenzbereichen kann es anders aussehen. Es ist letztendlich eine effektivere Ausnutzung des Speicherbedarfs und der Bandbreite. Natürlich bedingt das einen Best,- und Worst-Case, das liegt in der Natur der Sache, aber es ist ein Fortschritt in Bezug auf Effizienz.


Der Witz daran ist doch, das geht schon seit ewig :fresse:
Nicht so fein granular steuerbar, wie es wohl mit Vega passieren wird, aber das ist nicht das entscheidende... Das entscheidende ist eher, dass es eben schon bspw. mit dem R300 seinerzeit möglich war, einen local und einen non local Pool zu haben/zu nutzen/anzusprechen.

Dazu kommt, weiterhin gilt doch, Speicher ist da um benutzt zu werden, sprich ungenutzter Speicher ist sinnfrei und bringt nix. :wink:
Warum man jetzt krampfhaft in Games Speicher unnütz rumliegen lassen will ist mir ehrlich gesagt absolut ein Rätzel. Der Karte tut es absolut gar keinen Abbruch, wenn der Speicher bis Randvoll ausgefahren wird. Bei dem Fiji war/ist das schon in ähnlicher Form zu sehen, dass der absolute Verbrauch geringer ausfällt als bei anderen 4GB Vertretern aus dem selben Hause. Quervergleiche ggü. NV sind allerdings so oder so eher unsinnig. Das Speichermanagement funktioniert nachweisbar anders. Die Redaktionen sprechen davon, dass NV GPUs im Limit klar besser wegkommen als die AMD Vertreter, wobei Fiji etwas besser raussticht als andere Modelle.

Das Kernproblem bei Games ist allerdings -> und das scheint man hier bei aller Euphorie mal wieder zu vergessen -> die Treiber/die Karte KANN prinzipbedingt gar nicht wissen, was der Gamer für Daten auf dem Schirm sehen will bzw. demnächst sehen soll. Nimmt man mal als simples Beispiel BF1, dann geht der geneigte Gamer davon aus, dass die Daten der kompletten Map im Speicher liegen, damit während der Session keine unschönen Nachladeruckler vorkommen, das wäre wohl so die Optimalvorstellung. Im Mindesten geht er aber davon aus, dass die Software so intelligent die Daten nachladen kann und wird, dass es Rucklerfrei geht. Wenn nun aber nur noch die Daten im Speicher liegen, welche absolut benötigt werden und kein Deut mehr, hat es schon in der nächsten Sekunde Spielzeit ggf. ein Problem -> denn dann brauch es Daten, die gerade NICHT im Speicher sind. Diese müssen über dei popligen 16GB/sec mit Latenz und allem drum und dran hindurch. Und wir wissen alle, dass eine GPU im VRAM Limit (also bei Access direkt/indirekt durch den PCIe Slot in den RAM) völlig inakzeptabel funktioniert.


Das Feature, wie es dort genannt wird, hat ganz sicher seine Berechtigung. Vor allem in Märkten außerhalb von Games... Dennoch muss man es aus meiner Sicht nicht überdramatisieren. Vega ist und bleibt ein Zwitter. Und damit sind auch nicht alle Neuerungen pauschal in Games interessant geschweige denn bringen sie dort was. :wink:

Zitat mustrum;25219208
Das ist für den Kunden schon gut, nur bricht das AMD über kurz oder lang das Genick, da Nvidia mit der Kohle fröhlich weiter entwickeln kann.
Die Titan X mag eine Randerscheinung sein aber die 1080 GTX hat sich laut Shops fantastisch verkauft obwohl der Preis eigentlich extrem hoch angesetzt war.


Bedenke, dass NV gleich drei GPUs im "HighEnd" Bereich entworfen/gebaut/geliefert/produziert hat...
GP104, GP102 und GP100...

AMD wird mit Vega wohl vorerst genau eine GPU bringen, die die gleichen Märkte abdeckt. Das was AMD macht, ist in etwa das, was Intel im CPU Bereich macht, man nehmen die so oder so benötigten Server DIEs und schmeiße sie als i7 auf den Desktop Markt für hohe Preise.
Bei NV klappt das so in der Art nicht... Der GP104 muss ggf. (Spekulation meinerseits) den GP102 mitfinanzieren, da sich der Chip alleine vllt gar nicht trägt? Die paar Hanseln, die auf TitanX gehen, dürfte man als Tropfen auf den heißen Stein abtun können. GP100 ist Profimarkt only und dazu noch ggü. Intels Xeon Phi aufgestellt. Bleibt GP104 -> kleiner Chip, hoher Preis, viel "Gewinn" (spekuliert)
Rechnet man nun die Aufwände für 3x Modelle/Chips gegen die Umsätze und Gewinne, könnte ich mir schon vorstellen, dass AMD deutlich weniger hoch mit dem Preis muss, um ähnliche Marge (absolut gesehen) zu erziehlen...
Denn die gleiche GPU wird es sicher auch als FirePro S-irgendwas geben doer W-irgendwas wie es sie als Radeon irgendwas geben wird. Selbst eine Dual-GPU Version wird im Moment spekuliert...
#270
customavatars/avatar179024_1.gif
Registriert seit: 29.08.2012

Kapitän zur See
Beiträge: 3298
Zitat fdsonne;25219794
die Treiber/die Karte KANN prinzipbedingt gar nicht wissen, was der Gamer für Daten auf dem Schirm sehen will bzw. demnächst sehen soll. [...] Wenn nun aber nur noch die Daten im Speicher liegen, welche absolut benötigt werden und kein Deut mehr, hat es schon in der nächsten Sekunde Spielzeit ggf. ein Problem -> denn dann brauch es Daten, die gerade NICHT im Speicher sind.


So, und hier ist das Missverständnis. Ich habe es so verstanden, dass im Speicher Daten sind, die in Benutzung sind(logisch, über die brauchen wir auch nicht sprechen) - vielleicht 2GiB. Und darüberhinaus Daten, die vielleicht demnächst gebraucht werden - meinetwegen 6 GiB. Und was ich aus dem Text rauslese ist: Von den 6 GiB werden 4GiB in keinem einzigen Szenario jemals geladen, weil es wohl in dem Moment wo sie reingeladen werden, völlig unmöglich ist, dass sie in einem künftigen Szenario gebraucht werden - die Spieleentwickler haben also viel mehr reingeschoben als nötig wäre(z.B. Daten hinter einer Felswand, die erst im nächsten Level zugänglich ist etc.).
Wenn Du nun schreibst, dass die Grafikkarte/Treiber nicht wissen kann, welche von den Daten tatsächlich gebraucht werden, und welche nicht, dann ist doch klar, dass diese Daten potenziell immer schädlich sind, weil wenn in einer anderen Spielszene welche dazukommen, die GPU andere rausschmeißen müsste und nicht weiß, mit welchen sie sich unschädlich hält.

Wenn aber die GPU eben doch irgendwas abschätzen kann, und das scheint sie zu können, denn sonst müsste man ja keinen extra Controller entwerfen und bewerben, könnte sie die Daten, die unwahrscheinlicher gebraucht werden, in einen anderen Speicher(RAM) stecken, oder wenn der RAM fast voll ist, sogar erst mal auf der SSD lassen, je nachdem, wie schnell die ist etc., die Wahrscheinlichkeit jeden Frame neu berechnen und dynamisch nachladen und den "HBM- Cache" wieder aufräumen.

Natürlich fragt sich, wie das technisch überhaupt umgesetzt wird - ob das vielleicht nur mit Vulkan/DX12 gehen wird, oder wie das alles kommuniziert wird. Aber genau das könnte ich mir eben vorstellen - dass vielleicht ein Tag vorgesehen ist, in dem steht, wie wahrscheinlich diese Textur in den nächsten 100 Frames gebraucht wird oder so - und jedes Frame wird die Wahrscheinlichkeit grob neu berechnet...
#271
customavatars/avatar44491_1.gif
Registriert seit: 08.08.2006
Weinböhla (Sachsen)
Moderator
Beiträge: 32195
Zitat oooverclocker;25220222
So, und hier ist das Missverständnis. Ich habe es so verstanden, dass im Speicher Daten sind, die in Benutzung sind(logisch, über die brauchen wir auch nicht sprechen) - vielleicht 2GiB. Und darüberhinaus Daten, die vielleicht demnächst gebraucht werden - meinetwegen 6 GiB. Und was ich aus dem Text rauslese ist: Von den 6 GiB werden 4GiB in keinem einzigen Szenario jemals geladen, weil es wohl in dem Moment wo sie reingeladen werden, völlig unmöglich ist, dass sie in einem künftigen Szenario gebraucht werden - die Spieleentwickler haben also viel mehr reingeschoben als nötig wäre(z.B. Daten hinter einer Felswand, die erst im nächsten Level zugänglich ist etc.).


Dann hat doch aber irgendwer massiv geschlafen?
Welcher Entwickler kommt denn auf die Idee, Zeug zu laden, wenn es NIE gebraucht wird?
Davon ist defakto wohl nicht auszugehen... Der Spaß funktioniert mittlerweile (vereinfacht gesagt) so, das oftmals eine gewisse Basis geladen wird und während der Laufzeit Kontent gestreamt wird. Das was länger nicht angefasst wurde fliegt irgendwann raus und das was alle Nase lang gebraucht wird, bleibt logischerweise drin.

Das Problem ist, man bricht in den Ausführungen das Thema idR. bis auf das Frame oder die Szene runter, das ist aber nicht praxisrelevant. Spiele bestehen aus unzähligen Szenen und Frames, man muss also doch klar diese Wechsel beäugen. Denn da entscheidet sich ob es ruckelt oder flüssig durch läuft. Statischer Kontent ohne Veränderung wird immer gleiche Mengen Speicher benötigen, variabel wird es durch Bewegungen.
Das geht soweit, das durch zu schnelle Bewegungen das Streamingsystem vllt überfordert wird und nicht mehr nachkommt -> so zu sehen in FarCry4 im Heli bei max Details.

Zitat oooverclocker;25220222
Wenn Du nun schreibst, dass die Grafikkarte/Treiber nicht wissen kann, welche von den Daten tatsächlich gebraucht werden, und welche nicht, dann ist doch klar, dass diese Daten potenziell immer schädlich sind, weil wenn in einer anderen Spielszene welche dazukommen, die GPU andere rausschmeißen müsste und nicht weiß, mit welchen sie sich unschädlich hält.

Die Daten sind doch nicht schädlich!?
Wenn der VRAM massiv überbucht wird, ruckelt es halt... Wichtig ist also doch eher, genügend Speicher vorzuhalten anstatt Platz brach liegen zu lassen... Der Punkt andem das VRAM Management eingreifen muss, ist formal schön über Limit...

Zitat oooverclocker;25220222
Wenn aber die GPU eben doch irgendwas abschätzen kann, und das scheint sie zu können, denn sonst müsste man ja keinen extra Controller entwerfen und bewerben, könnte sie die Daten, die unwahrscheinlicher gebraucht werden, in einen anderen Speicher(RAM) stecken, oder wenn der RAM fast voll ist, sogar erst mal auf der SSD lassen, je nachdem, wie schnell die ist etc., die Wahrscheinlichkeit jeden Frame neu berechnen und dynamisch nachladen und den "HBM- Cache" wieder aufräumen.


Nochmal, die Vega GPU ist ein Zwitter, ob der HBMC respektive HBMCC in kleineren GPUs Einsatz findet, bleibt abzuwarten. Ebenso sollte man es eben nicht überbewerten. Es sind GPUs mit lokalem SSD Storage angekündigt (wenn mich nicht alles täuscht) wo soll das denn dran?
Der Controller ist klar ersichtluch für deutlich mehr als Games entwickelt, man könnte sogar drüber streiten ob Games überhaupt Anteil daran hatten...

Wie oben schon erwähnt ist es Gamingsicht eher wurscht, wo die Daten liegen, die nicht im VRAM sind... ob nun SSD, HDD, RAM oder sonstwo -> nicht im VRAM = zu lahm.
Was interessant sein wird, ob AMD versuchen wird unterschiedliche Cache Pools zu implementieren. So wäre ein Texturcache mit weniger Speed denkbar als der Speicherbereich, den die GPU selbst benötigt. Danach sieht es aber im Moment nicht aus -> es sieht weiterhin nach einem Stück Speicher aus (Kartendediziert) + der Möglichkeit externe Medien zu adressieren, die alle samt am PCIe Flachenhals klemmen.

Theoretisch macht man das bspw. bei Intel mit der Iris Pro IGP und bei AMD mit der XBox One. Schneller Cache als oberste Cacheebene, die von allem durchlaufen wird. Denkbar wäre also schon seit langen, ein eher kleinen mehrere 100GB/sec fixen Cache vor eher langsame, große Speicher zu setzen -> hat man aber irgendwie nicht gemacht. Wäre eine viel einfachere Möglichkeit, GPUs für Games effenktiv mit hochen Speichermengen auszustatten ;)

PS: versteife dich nicht auf DX12 oder Vulcan... Solange es die Entwickler heute mit DX11 nicht sauber hinbekommen, wie soll das dann aufgehen, wenn deren Verantwortung noch weiter wächst?
Ich sehe jedenfalls sehr wenig Ressourcenoptimierte Games... Eine dedizierte Optimierung für jene Games wird durch den Schwenk der API kaum auf einmal einzug erhalten... Eher das Gegenteil ist der Fall, denn es finden sich Entwickleraussagen, das der Verbrauch eher steiget ;)
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

Roundup: 5x GeForce GTX 1070 mit Custom-Design im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/5X-GTX1070/GTX1070_CUSTOM_ROUNDUP-TEASER

Nachdem wir bereits eine Reihe von Boardpartner-Karten der NVIDIA GeForce GTX 1080 ausführlich getestet haben, holen wir gleiches nun für das kleinere Schwestermodell nach, denn auch von der NVIDIA GeForce GTX 1070 gibt es viele Custom-Modelle mit höheren Taktraten, eigenen Kühlsystemen und... [mehr]

Drei Custom-Modelle der GeForce GTX 1060 im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/3X-GTX1060/GTX1060_ROUNDUP_TEST-TEASER

Anders als bei der GeForce GTX 1080 und GeForce GTX 1070 trudelten wenige Stunden nach unserem Test zur Founders Edition der NVIDIA GeForce GTX 1060 schon die ersten Boardpartner-Karten mit teils höheren Taktraten, eigenem Kühlsystem und überarbeitetem Platinenlayout ein. Sie dürften... [mehr]

NVIDIA GeForce GTX 1080 mit Pascal-Architektur im XXL-Test

Logo von IMAGES/STORIES/LOGOS-2016/GEFORCE-GTX-1080

Heute ist es soweit: NVIDIA läutet mit der GeForce GTX 1080 und GTX 1070 auf Basis der Pascal-Architektur den diesjährigen Neustart bei den Grafikkarten ein. In Kürze wird wohl auch AMD seinen Beitrag zu diesem Thema leisten. Vor zehn Tagen lud NVIDIA die gesammelte Fachpresse nach Austin ein... [mehr]

Roundup: 5x GeForce GTX 1080 im Custom-Design im Test

Logo von IMAGES/STORIES/LOGOS-2016/GEFORCE-GTX-1080

Nachdem wir uns die Founders Edition der GeForce GTX 1080 und GeForce GTX 1070 bereits angeschaut haben, folgen nun fünf Retail-Modelle, die wir in aller Ausführlichkeit unter die Lupe nehmen wollen. Aus den vielen Boardpartnern und unterschiedlichen Modellen haben wir uns solche von ASUS, EVGA,... [mehr]

AMD Radeon RX 480 im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/RADEON-RX480/RADEON-RX480-REFERENCE-LOGO

Es ist also soweit: AMD startet die großangelegte Zurückeroberung des Grafikkartenmarktes mit der Radeon RX 480, die als erste Grafikkarte der Polaris-Generation mit gleichnamiger Architektur erscheint und die wir uns genauer anschauen können. Dabei versucht sich AMD an einem anderen Ansatz im... [mehr]

PowerColor Radeon RX 480 Red Devil im Test

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/2016/POWERCOLOR-RX480/POWERCOLOR-RX480REDDEVIL-LOGO

Mit der Radeon RX 480 will AMD zurück zu alter Stärke und hat daher über Monate hinweg die PR-Trommel geschlagen. Letztendlich dabei herausgekommen ist eine sehr gute Karte für einen niedrigen Preis, die aber nicht in allen Bereichen zu überzeugen weiß. Wohl größtes Manko der Karte sollte... [mehr]