> > > > NVIDIA präsentiert den Tegra X1 mit Maxwell-GPU - erster SoC mit 1 TFLOP Rechenleistung (Update)

NVIDIA präsentiert den Tegra X1 mit Maxwell-GPU - erster SoC mit 1 TFLOP Rechenleistung (Update)

DruckenE-Mail
Erstellt am: von

nvidia 2013In guter alter Tradition stand auf der Pressekonferenz von NVIDIA die Vorstellung einer neuen Tegra-Generation an. Bereits im Frühjahr 2014 wurden auf der hauseigenen Messe GTC 2014 die Weichen für Erista gestellt. Dabei sollte es sich um einen SoC handeln, der wie der Tegra K1 ein GPU-Cluster der Desktop-Architektur verwendet, dabei aber auf die neue "Maxwell"-Generation setzt. Der letztendliche Produktname Tegra X1 lässt anders als der Tegra K1 aber nichts von der "Maxwell"-Architektur durchscheinen und es wird wohl auch noch einige Zeit dauern, bis wir erste Produkte mit dem neuen Chip sehen werden.

Illustration des Tegra-X1-SoC
Illustration des Tegra-X1-SoC

Seine Rechenleistung bezieht der Tegra X1 aus acht ARM-CPU-Kernen. Verwendet werden dabei jeweils vier ARM-Kerne im Cortex-A57- und Cortex A-53-Design. NVIDIA scheint also auf das big.LITTLE-Konzept von ARM zu wechseln, bei dem vier leistungsstarke Kerne von vier sparsameren ergänzt werden und je nach Anwendung und Bedarfsfall zwischen diesen gewechselt wird. Der Tegra K1 war und ist noch in einer Version verfügbar, die einen Companion-Core für die weniger aufwendigen Berechnungen vorsieht und dabei die hungrigeren Kerne pausieren lässt. Was aus dem Projekt-"Denver" und den daraus entwickelten CPU-Kernen geworden ist, die bei einer Variante des Tegra K1 zum Einsatz kommen, ist unklar. Weiterhin zum Einsatz kommt das erwähnte "Maxwell"-GPU-Cluster mit seinen 256 Shadereinheiten. Zusammengenommen erreichen diese beiden Komponenten eine Rechenleistung von 1 TFLOP und ermöglichen beispielsweise das Abspielen von 4K Videoinhalten mit 60 Bildern die Sekunde. Noch beeindruckender war allerdings die Demo der Unreal Engine 4. Genauer gesagt wurde die Elemental-Demo auf dem Tegra X1 gezeigt. Die Leistungsaufnahme des Chips soll dabei 10 Watt betragen haben - gefertigt wird er im 20-nm-Prozess. Zum Vergleich herangezogen wird die Tatsache, dass eine Xbox One dafür rund 100 Watt benötigt und eine Grafikkarten von NVIDIA vor rund zwei Jahren noch etwa 300 Watt benötigte. Allerdings soll die Elemental-Demo auf dem Tegra X1 auch einige Partikel-Effekte vermissen lassen - so der Eindruck des Publikums vor Ort.

Elemental-Demo mit Unreal Engine 4 auf dem Tegra X1
Elemental-Demo mit Unreal Engine 4 auf dem Tegra X1

Für einen weiteren Vergleich wurde ein 15 Jahre alter Supercomputer namens ASCI Red herangezogen. Der vom U.S. Department of Energy's Sandia National Laboratory betriebene Supercomputer belegte eine Fläche von 1.600 Quadratfuß und verbrauchte 500.000 Watt an Leistung. Weitere 500.000 Watt wurden benötigt um den Raum, in dem er stand, zu kühlen. Der Tegra X1 erreicht die bereits angesprochenen 1 TFLOP mit der Größe eines Fingernagels und der Leistungsaufnahme von nur 10 Watt.

Das Einsatzgebiet des Tegra X1 ist klar umrissen: NVIDIA will weiterhin den Tablet-Markt bedienen, richtet seinen Fokus aber ebenfalls auf die Automobilindustrie. Der Tegra X1 muss dazu aber nicht nur beweisen, dass er bei maximaler Performance möglichst effizient ist, sondern im Alltagsbetrieb auch stromsparend zu Werke geht. Diesen Nachweis blieb NVIDIA zu einem solch frühen Zeitpunkt der Produktentwicklung noch aus. Seit Jahren versucht NVIDIA mehr und mehr Marktanteile für Tablet-SoCs an sich zu reißen, bisher ist es aber bei einem niedrigen einstelligen Prozentsatz geblieben. In Sachen Schnittstellen und APIs ist man bereits für das Jahr 2015 und darüber hinaus gerüstet. Unterstützt werden DirectX 12, OpenGL 4.5, CUDA, OpenGL ES 3.1 und auch das Android Extension Pack ist bereits verfügbar.

Elemental-Demo mit Unreal Engine 4 auf dem Tegra X1
Elemental-Demo mit Unreal Engine 4 auf dem Tegra X1

Update:

Inzwischen konnten wir mehr Details zum Tegra X1 in Erfahrung bringen. So verwendet dieser jeweils 2x vier unterschiedliche CPU-Kerne, aber nicht das big.LITTLE-Konzept von ARM. Es wird ein eigener Interconnect und nicht der ARM CCI-400 verwendet. Anstatt auf ein 2x4-Core-Cluster können die Tasks auf alle acht Kerne verteilt werden. Den Programmierern und damit letztendlich auch den Apps stehen also alle acht Kerne zur Verfügung. Die vier A57-Kerne verwenden dabei einen gemeinsamen 2 MB großen L2-Cache sowie pro Kern 48 bzw. 32 KByte an L1-Cache (Instruction- und Data-Cache). Das A53-Cluster muss mit 512 KByte an L2-Cache für alle vier Kerne auskommen. Hier stehen jeweils 32 KByte an L1-Cache für Instruktionen und Daten zur Verfügung.

Elemental-Demo mit Unreal Engine 4 auf dem Tegra X1
Elemental-Demo mit Unreal Engine 4 auf dem Tegra X1

Auch die Frage warum NVIDIA nicht die eigenen "Denver"-Kerne einsetzt, konnte inzwischen beantwortet werden. Mit den beiden A57- und A53-Clustern sei es schneller möglich gewesen den Tegra X1 auf den Markt zu bringen, als es mit den "Denver"-Kernen möglich gewesen wäre. Das Projekt-"Denver" könnte aber bei der nächsten Generation des Tegra-SoC "Parker" wieder eine Rolle spielen.

Auch außerhalb der CPU und GPU des Tegra X1 gibt es noch einige Änderungen. So wechselt NVIDIA vom 64 Bit LPDDR3 auf einen 64 Bit LPDDR4-Speicher und beschleunigt damit die Speicherbandbreite von 14,9 auf 25,6 GB pro Sekunde. Damit wird letztendlich auch das Video-Encoding in 4K bei 60 Bildern pro Sekunde ermöglicht. Profitieren können davon natürlich auch grafikintensive Anwendungen. Auf Seiten der Anschlüsse für Displays kommt nun auch HDMI 2.0 hinzu, damit eine solche Auflösung bei dieser Bildwiederholungsrate auch ausgegeben werden kann.

Mit der "Maxwell"-Architektur arbeiten Desktop und Mobile enger zusammen, als bisher. Features wie die Speicherkompression kommen auch dem Tegra X1 mit dem nur 64 Bit breiten Speicherinterface zu Gute. Gleiches gilt auch für die Effizienz der "Maxwell"-Architektur. Aber es gibt auch einige Features bei "Maxwell", die sich bisher nur im Tegra X1 wiederfinden.

Elemental-Demo mit Unreal Engine 4 auf dem Tegra X1
Elemental-Demo mit Unreal Engine 4 auf dem Tegra X1

Dazu gehört der sogenannte "Double Speed FP16"-Support. Wie die "Fermi"- und "Kepler"-Architektur zuvor auch, bietet "Maxwell" dedizierte FP32- und FP64-CUDA-Kerne. Dies ist auch beim "Maxwell"-Cluster auf dem Tegra X1 so. Allerdings spielen in diesem Segment FP16-Berechnungen eine wesentlich größere Rolle. NVIDIA hat also das Handling dieser FP16-Berechnungen geändert, um von den dedizierten FP32-Kernen profitieren zu können. Dazu werden FP16-Berechnungen zusammengelegt, damit sie auf FP32-Kernen ausgeführt werden können. Damit die FP16-Berechnungen zusammengelegt werden können, müssen sie allerdings die gleichen Operationen ausführen. Zum Beispiel können nur zwei Additionen oder zwei Multiplikationen zusammengeführt werden. FP16-Operationen sind für die Ausführung von Android ebenso entscheidend wie bei Spielen oder der Analyse von Foto- und Videodaten. Die Konkurrenz von ARM, Imagination Technology und AMD hat dies bereits vor einiger Zeit erkannt. NVIDIA legt beim Tegra X1 nun auch wieder deutlich mehr Wert darauf und will daher in Sachen Performance einen Schritt nach Vorne machen.

NVIDIA Tegra K1 und Tegra X1 im Vergleich
Modell Tegra K1 Tegra X1
Technische Daten
Architektur Kepler Maxwell
Fertigung TSMC 28 nm TSMC 20 nm
Shadereinheiten 192 256
Textureinheiten 8 16
ROPs 4 16
GPU-Takt etwa 950 MHz etwa 1.000 MHz
Speicher-Takt 930 MHz 1.600 MHz
Speichertyp LPDDR3 LPDDR4
Speicherbandbreite 64 Bit 64 Bit
FP16-Performance 365 GFLOPS 1.024 GFLOPS
FP32-Performance 365 GFLOPS 512 GFLOPS

Social Links

Ihre Bewertung

Ø Bewertungen: 0

Tags

Kommentare (15)

#6
customavatars/avatar168709_1.gif
Registriert seit: 23.01.2012
Dromund Kaas
Kapitän zur See
Beiträge: 3258
Bin ja gespannt auf TV Boxen, hier wären 10 Watt kein Problem.
#7
Registriert seit: 30.04.2008
Civitas Tautensium, Agri Decumates
Bootsmann
Beiträge: 668
Zitat [email protected];23031253
Über die Leistungsfähigkeit der ARM Kerne erfährt man weniger.


Steht doch im Artikel: Das sind standard Cortex-A53 und Cortex-A57. Was gibt es da besonderes zu berichten?
#8
Registriert seit: 01.03.2013
tief im Süden
Hauptgefreiter
Beiträge: 232
Zitat Don;23031214
Die 10 Watt beschreiben einen Peak-Verbrauch und sicherlich ist das nicht gerade wenig, auch nicht für ein Tablet. Mal sehen ob und wann die Programme davon auch wirklich Gebrauch machen.


Gibt es schon Ankündigungen seitens Hersteller die Tegra X1 nutzen, bzw. Software dafür entwickeln wollen?
Wie wird wohl die Konkurrenz reagieren?

Hab mir die Präsentation angeschaut und bin schon recht fasziniert wie klein und süß dieser Chip ist, aber im Innern ein Vulkan brennt ... :)
#9
Registriert seit: 05.07.2010

Admiral
Beiträge: 12096
Zitat [email protected];23031253
Also 4 FP16 oder 2FP32 Operationen pro Shader Einheit pro Takt.
Naja, theoretisch, praktisch kann es ja nicht pausenlos bei jedem Takt rechnen sondern muss die Daten auch mal bewegen oder auf Daten warten. Außerdem glaube ich kaum das der Supercomputer vor 15 Jahren auch nur mit 16 Bit breiten Zahlen gerechnet hat, der Vergleich ist also spektakulär, hinkt aber wohl gewaltig.
#10
customavatars/avatar5839_1.gif
Registriert seit: 20.05.2003

Bootsmann
Beiträge: 592
ich frag mich grad warum nvidia auf das LITTLE.big konzept umsteigt, ich fand das 4(+1 companion-core) des 32 bit K1 (bzw. 2+1 vom 64 bit)besser, warum 4 sparsamme cores wenns einer auch macht? oder hab ich was übersehen
#11
customavatars/avatar12967_1.gif
Registriert seit: 28.08.2004
Radeberg (Bierstadt)
Moderator
Beiträge: 1431
weil es effizienter ist, so wird die last auf mehrere noch schwächere cores aufgeteilt, die insgessamt aber stärker und energiesparender sind als ein einzelner kern.
Lieber mehrere kleine kerne nutzen, statt einen stärkeren, ist wie in der natur, lieber mehrere kleine dinge als ein großes nutzen(darum haben z. B. Bäume nicht nur ein großes blatt sondern mehrere kleine blätter, oder darum haben menschen auch zwei nieren oder zwei lungenflügel, anstatt nur einem... Einfach energieeffizienter)
#12
customavatars/avatar5839_1.gif
Registriert seit: 20.05.2003

Bootsmann
Beiträge: 592
klar, aber der zusatzkern is doch auf energiesparen ausgelegt, aber eben nur einer und nich glei 4
#13
customavatars/avatar63928_1.gif
Registriert seit: 14.05.2007

Fregattenkapitän
Beiträge: 2705
Zitat DragonTear;23031088
Einige Passagend es texts lesen sich sehr beeindruckend! Statt den Vergleichen mit uralten Superrechnern hätte ich mir eher einen mit einem aktuellen Intel Atom oder CoreM (Grund und Turbotakt) gewünscht. Weiss jemand zufällig wieviel TFlops die schaffen?


Ein Core M-5Y70 macht auf dem Papier 346 FP32-GFLOPS bei 900 MHz GPU-Peak. Mit 300 MHz Basistakt ein Drittel ...
#14
Registriert seit: 12.06.2010

Obergefreiter
Beiträge: 108
Zitat Lefteyehawk;23033803
ich frag mich grad warum nvidia auf das LITTLE.big konzept umsteigt, ich fand das 4(+1 companion-core) des 32 bit K1 (bzw. 2+1 vom 64 bit)besser, warum 4 sparsamme cores wenns einer auch macht? oder hab ich was übersehen


Im Gegensatz zu Big.Little können hier ja alle 8 Kerne gleichzeitig genutzt werden. Steht oben im Update mit drin. 4 Kerne können außerdem unter Umständen bei deutlich höherer Rechenleistung weniger Strom verbrauchen. Hängt aber natürlich von der Aufgabe ab.
#15
customavatars/avatar5839_1.gif
Registriert seit: 20.05.2003

Bootsmann
Beiträge: 592
Das alle 8 kerne genutz werden können macht dann natürlich sinn. Das wären dann 3 leistungsstufen, 4 schwache, 4 starke oder alle gemeinsam wenn mal eng wird. Das gefällt natürlich.
Um Kommentare schreiben zu können, musst Du eingeloggt sein!

Das könnte Sie auch interessieren:

Core i7-6950X im Test: Dicker Motor, alte Karosse

Logo von IMAGES/STORIES/GALLERIES/REVIEWS/6950X/6950X-LOGO

Intels letzter CPU-Launch ist schon eine Weile her - Ende Oktober 2015 testeten wir den Xeon E5-1230v5 auf Skylake-Basis, seitdem war zumindest im Desktop-Bereich nichts neues mehr vom Marktführer zu hören. Am heutigen Tag aktualisiert Intel endlich die High-End-Plattform und bringt mit dem Core... [mehr]

So schnell ist Kaby Lake: Erste eigene Benchmarks zum i7-7500U

Logo von IMAGES/STORIES/REVIEW_TEASER/INTEL_KABY_LAKE

Offiziell vorgestellt hat Intel die 7. Generation der Core-Prozessoren bereits Ende August, doch erst jetzt ist Kaby Lake in Form des ersten Notebooks verfüg- und damit testbar. Dabei handelt es sich um das Medion Akoya S3409 MD60226, in dem ein Core i7-7500U verbaut wird. Während das Notebook... [mehr]

Intel 'Kaby Lake': Die siebte Core-Generation im Detail vorgestellt

Logo von IMAGES/STORIES/LOGOS-2016/INTEL_7TH_CORE_GEN

Im Zuge der kommenden "Kaby Lake"-Plattform, deren breite Verfügbarkeit für das erste Quartal 2017 erwartet wird, nutzt Intel heute die Gelegenheit, die siebte Core-Generation offiziell im Detail vorzustellen und bereits ein paar Prozessoren auf den Markt zu bringen. Wir konnten uns bereits vor... [mehr]

Delid Die Mate im Test

Logo von IMAGES/STORIES/IMAGES/STORIES/GALLERIES/REVIEWS/2016/DDM/DDM

Seit der Ivy-Bridge-Generation verlötet Intel Die und Heatspreader nicht mehr miteinander, was leider in deutlich schlechteren Kern-Temperaturen resultiert. Abhilfe dagegen schafft nur das Delidding (das sogenannte „Köpfen“) der CPU sowie der anschließende Austausch der Wärmeleitpaste durch... [mehr]

Intel Core i7-7700K (Kaby Lake) nun ebenfalls in Benchmark gesichtet

Logo von IMAGES/STORIES/LOGOS-2015/INTEL3

Mittlerweile sind die ersten Benchmarks zum kommenden Intel Core i7-7700K (Kaby Lake) aufgetaucht und ergänzen damit die Werte zum Core i7-7500U. Die Ergebnisse wirken durchaus sehr glaubhaft, denn sie sind in der offiziellen Datenbank von Geekbench 4 zu finden. Getestet wurde der neue Prozessor... [mehr]

AMD nennt architektonische Details zu Zen - Summit Ridge mit Broadwell-E...

Logo von IMAGES/STORIES/LOGOS-2016/AMD-ZEN

Alle Journalisten, die von Intel auf das IDF eingeladen wurden, bekamen von AMD eine Einladung für ein eigenes Event im Hotel gegenüber. Also machte sich der Tross auf den Weg, um in einer Pressekonferenz neue Details über AMDs kommende Zen-Architektur und die Prozessoren zu erfahren. Erstmals... [mehr]