> > > > Test: AMD Radeon HD 6970 und 6950

Test: AMD Radeon HD 6970 und 6950

DruckenE-Mail
Erstellt am: von

Seite 5: Core-Design, Render Back-Ends und GPU-Compute

Neues Core-Design

Cayman_03_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Eine der wesentlichsten Änderungen in der Architektur der Radeon-HD-6900-Serie ist das neue Design der Thread-Prozessoren. Diese sind nun, wie bereits mehrfach erwähnt, im VLIW4-Design aufgebaut. Jeder dieser Thread-Prozessoren ist nun gleich aufgebaut, besteht aus einer Branch-Unit und vier Stream-Processing-Units. Zahlreiche verschiedene 32 und 64 Bit Gleitkomma- und Integer-Operationen können pro Takt ausgeführt werden.

AMD spricht von einer 10% höheren Performance pro mm² Chipfläche. Zudem ist es einfacher, einen Prozess 4-stufig aufzubauen, als ihn auf fünf Stream-Processing-Units zu verteilen.

Render Back-Ends

Cayman_04_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Weitere wichtige Änderungen wurden in den Render Back-Ends vorgenommen. Pro SIMD-Einheit stehen vier Color-ROPs zur Verfügung. Insgesamt kommen wir also bei der Radeon HD 6970 auf 96 und bei der Radeon HD 6950 auf 88 ROPs. Ebenfalls in jeder SIMD-Einheit enthalten sind 32 Z/Stencil ROPs. Weitere Verbesserungen im hier verwendeten Cache sollen für eine höhere Performance in 16 und 32 Bit Operationen sorgen.

GPU-Compute Optimierungen

Cayman_05_rs

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Für NVIDIA spielt das Computing auf GPUs eine immer größere Rolle. Doch auch an AMD geht dieses Thema nicht vorbei und so will man mit der Radeon-HD-6900-Serie hier neue Wege gehen. Möglich sollen diese durch unabhängige Rechenkerne werden, die durch einen asynchronen Dispatcher mit den nötigen Informationen versorgt werden. Die GPU soll sich dadurch mehr als ein Multi-Core-Prozessor darstellen, als ein einzelner Chip. Müssen die Software-Programmierer ihren Programmcode natürlich weiterhin für den Einsatz auf mehreren Threads hin optimieren, besitzen die SIMD-Einheiten zumindest eigene Command-Queues und vereinfachen diese Prozeduren.

Reichen die 32 kB Local Data Share, 8 kB L1- und 128 kB L2-Cache nicht aus, müssen Daten im Grafikspeicher abgelegt werden bzw. werden auch aus diesem entnommen, um sie im Cache der SIMD-Einheiten schneller griffbereit zu haben. Sollen besonders viele Daten verarbeitet werden, reichen auch die 2 GB an Grafikspeicher nicht aus. Dann muss auf den Arbeitsspeicher zurückgegriffen werden. Dies geschieht über zwei sogenannte DMA-Engines. DMA steht für Direct Memory Access und beschreibt eine Zugriffsart, bei der nicht über die CPU auf den Arbeitsspeicher zugegriffen wird, sondern direkt über das Bussystem. AMD verwendet bidirektionale DMA-Engines, die eine vollständige Saturierung des PCI-Express-Interfaces erreichen.