1. Hardwareluxx
  2. >
  3. News
  4. >
  5. Hardware
  6. >
  7. Prozessoren
  8. >
  9. Tachyum Prodigy: Schneller als Intel, AMD, ARM und alle anderen (Update)

Tachyum Prodigy: Schneller als Intel, AMD, ARM und alle anderen (Update)

Veröffentlicht am: von

tachyumIm Frühjahr 2018 machte ein Startup namens Tachyum das erste Mal auf sich aufmerksam. Statt auf spezielle Beschleunigerhardware zu setzen, setzte man von Anfang an auf einen Universalprozessor, der alle Anforderungen zugleich bedienen soll. Tachyum will damit das Datacenter revolutionieren. Rund ein Jahr später sprach man dann über erste technische Details.

64 Kerne sollten in der vorerst größten Ausbaustufe des Chips arbeiten. Hinzu kommen acht DDR5/DDR4-Speichercontroller, 72 PCI-Express-5.0-Lanes, 2x 400/100/50/25/10 GbE, 2x HBM3 (optional), 32 MB an kohärentem L2/L3-Cache und dies alles verpackt in einen Thermal Design Power von 180 W bei 4 GHz.

The Next Platform sprach mit Radoslav Danilak, einem der Gründer und CEO von Tachyum. Statt in einzelnen CPUs, GPUs, TPUs, NNPs und FPGAs sieht man bei Tachyum die Zukunft in einem Hybrid-Design, welches die einzelnen Spezialanforderungen und damit einen größeren Markt abdecken kann. Radoslav Danilak und die beiden Mitgründern Igor Shevlyakov und Rod Mullendore haben allesamt Erfahrungen im Halbleitergeschäft – waren bei Toshiba, SandForce, Nishan Systems und NVIDIA angestellt. Doch hinter Tachyum stehen weitere Köpfe wie Fred Weber, Co-Founder von Encore Computer (Supercomputer-Hersteller), der auch am 64-Bit-Design der Opteron- und Athlon-Prozessoren von AMD beteiligt war.

Die harten Fakten

Doch kommen wir zu dem, über das Tachyum nun eigentlich sprechen will. In den vergangenen Monaten hat man den Prodigy-Chip in FPGA-Simumlatoren weiterentwickelt und will Ende 2020 den Type Out des Chips schaffen. Gefertigt wird dieser in 7 nm bei TSMC. Der Prozessor hat eine Größe von 290 mm². Über die Anzahl der Prozessoren spricht Tachyum nicht.

Die einzelnen Prozessorkerne des Chips sollen in der Lage sein, die unterschiedlichsten Rechenoperationen durchzuführen – seien es HPC-Operationen mit hoher Genauigkeit, ein Inferencing mit geringer Genauigkeit oder etwas zwischen diesen Anforderungen. Danilak stellt dabei eine kühne Behauptung auf:

"Every core is faster than a Xeon core or an Epyc core, and it is smaller than an Arm core, and overall, our chip is faster than a GPU on HPC and AI." – Jeder einzelne Kern soll demnach schneller als ein solcher von Intel, AMD und dabei kleiner als ein HPC-ARM-Designs sein. Der Chip soll schneller als ein HPC- oder AI-Chip sein.

Die einzelnen Kerne sollen in der Prozessor-Pipeline einer Out-of-Order-Execution folgen – nicht in der Hardware selbst, wohl aber über den Compiler. Die Pipeline als solches kann im Grunde nicht auf eine In-Order- oder Out-of-Order-Execution festgelegt werden. Hinsichtlich der Instructions Sets (32 Integer Register mit 64 Bit und 32 Vector Register die 256 oder 512 Bit haben können) und deren Handling ist man an Intels Itanium-Design erinnert, aber auch NVIDIA nutzt sogenannte Poison Bits. Letztendlich kann die Pipeline eines Kerns zwei Multiply-Adds, einen Store, eine Adresserhöhung, einen Vergleich und einen Branch pro Taktzyklus ausführen. Man will sich hier hinsichtlich der IPC auf Niveau von Intels Skylake-Architektur bewegen.

Die 64 Kerne des Tachyum Prodigy T864 teilen sich in vier Blöcke zu je 16 Kernen. Sie sind über ein Mesh-Interconnect im L3-Cache miteinander verbunden – die Speichercontroller über ein eigenen Mesh-Interconnct. Jeder der Blöcke mit 16 Kernen ist mit zwei DDR4/DDR5-Speichercontrollern und 18 PCI-Express-5.0-Lanes verbunden. Per SerDes (Serialisierer/Deserialisierer) können pro Block 16 PCI-Express-Lanes und ein 400-GbE-Controller verwendet werden. Mischkonfigurationen sind ebenfalls möglich. Die Speichercontroller für den HBM3 bleiben optional und können bei Bedarf umgesetzt werden. Durch die hohen Kosten von HBM3 sieht Tachyum jedoch nur geringe Vorteile gegenüber der Nutzung von schnellem DDR4/DDR5-Speicher.

Ein Blick in die einzelnen Kerne offenbart, dass der L1-Cache vergleichsweise klein ist, die L2- und L3-Caches jedoch übliche Kapazitäten aufweisen. Die Integer-Pipeline besitzt neun Stages und die Vektor-Pipeline 14. Anhand der Blockdiagramme ist zu erkennen, dass der DDR4/DDR5-Speicher mit einer Datenrate von 410 GB/s angebunden ist, während der HBM3 bis zu 1 TB/s pro Speichercontroller anbieten kann.

Die Vektoreinheiten unterstützen FP64, FP32, FP16, FP8 und BFLOAT16. Hinzu kommen INT32, INT16 und INT8. In den Vektor-Einheiten können Matrix-Operationen ausgeführt werden. Ein 4×4 Matrix Multiply wird auf den FP32- und FP64-Einheiten ausgeführt. An Daten der Matrizen sind acht oder 16 Bit Integer- oder Fließkommadaten möglich. Die Fließkommaeinheiten derart doppelt zu belegen, ist interessant, kann aber auch eine Hürde werden, wenn beides gleichzeitig verwendet werden soll. Tachyum überlegt daher die FP-Einheiten in zukünftigen Designs weiter auszubauen. Die vier SIMD-Einheiten mit 512 Bit können als Vektor- oder Tensor Core arbeiten – gewisse Parallelen zu NVIDIA finden sich hier immer wieder. Im Grunde zeigt der Prodigy-Chip bei den Funktionseinheiten keine großen Unterschiede zu den bestehenden Designs von AMD, Intel, NVIDIA und Co.

Wo Tachyum mit den Prodigy-Chips einen Vorteil gewinnen will, ist die Tatsache, dass man die breiten Funktionseinheiten mit voller Geschwindigkeit arbeiten lässt, während AVX-Einheiten in Prozessoren nicht mit dem vollen Takt arbeiten und GPUs (sowie andere Spezialbeschleuniger) für gewöhnlich nicht sonderlich hoch takten. Dies soll durch eine verbesserte Verdrahtung der Hardware, schnelle Interconnects und weitere Maßnahmen gelingen.

Wie anfangs erwähnt, will Tachyum den ersten Tape-Out 2020 schaffen. 2021 soll dann die Massenproduktion beginnen können. Verfügbar werden diese dann in der ersten Jahreshälfte 2021 sein. Über einen internen System-C-Simulator wird die Entwicklung weitergeführt und auch ein simuliertes Benchmarking ist damit bereits möglich. Ein FPGA-Hardware-Emulator wird gegen Ende des Jahres verfügbar sein. 

 Geplant waren ein 2S-System mit 2x 128 Kernen und vier Stacks an HBM in Q1 2020, ein 64-Kern-Chip mit acht DDR4/DDR5-Speichercontrollern in Q2 2020 und ein 32-Kern-Chip mit vier DDR4/DDR5-Speichercontrollern in Q3 2020. Doch diese Pläne sind inzwischen nach hinten verschoben worden.

Die Preise der Prozessoren sollen von ein paar hundert US-Dollar bis unter 10.000 US-Dollar für die High-End-Varianten reichen. Ob man dies mit 32 GB an HBM3 wird umsetzen können, ist jedoch mehr als fraglich.

Noch viele Fragezeichen hinter der Umsetzung

Noch ein viel größeres Fragezeichen muss hinter dem Software-Ökosystem gemacht werden. Der Prodigy-Chip bzw. das Design ist mit keiner bestehenden Architektur kompatibel. Dies wird eine Integration schwierig machen. Wir werden einfach schauen müssen, wie sich das Thema Tachyum Prodigy weiterentwicklen wird.

Zuletzt hat das Thema HPC-Beschleuniger (vor allem auf Basis eines ARM-Systems) deutlich an Fahrt aufgenommen. Marvell präsentierte mit dem ThunderX3 die nächste Generation seiner Serverchips mit bis zu 96 Kernen und SMT4 für 384 Threads. Zuvor stellte Ampere den Altra mit 80 Kernen ausführlich vor. Amazon setzt den Graviton2 mit 64 Kernen bereits erfolgreich in seinen eigenen Cloud-Instanzen ein. Mit Nuvia wurde im vergangenen Jahr ein Startup gegründet, welches den Markt der Datacenter-Prozessoren revolutionieren soll. Hier setzt man allerdings auf eine breite Unterstützung bestehender ARM-Server-Standards durch Server Base System Architecture (SBSA) und Server Base Boot Requirements (SBBR).

Welche ist die beste CPU?

Unsere Kaufberatung zu den aktuellen Intel- und AMD-Prozessoren hilft dabei, die Übersicht nicht zu verlieren. Dort zeigen wir, welche Prozessoren aktuell die beste Wahl darstellen - egal, ob es um die reine Leistungsfähigkeit oder das Preis-Leistungs-Verhältnis geht.


Social Links

Das könnte Sie auch interessieren:

  • AMD Ryzen 7 3800X im Test: Ein hungriger Lückenfüller

    Logo von IMAGES/STORIES/2017/AMDRYZEN93900X

    Kurz vor dem Start des lange ersehnten AMD Ryzen 9 3950X und der kommenden Threadripper-Modelle schließen wir eine weitere Lücke in unserer Testdatenbank und stellen den AMD Ryzen 7 3800X auf den Prüfstand, der über acht Kerne verfügt, gegenüber seinem kleinen Schwestermodell jedoch in einer... [mehr]

  • In Spielen König, sonst eher ein kleiner Prinz: Intel Core i5-10600K und Core...

    Logo von IMAGES/STORIES/2017/INTEL-CML-S

    Heute ist es soweit und wir dürfen die ersten Leistungsdaten des Core i5-10600K und des Core i9-10900K präsentieren. Damit öffnet Intel seine Comet-Lake-Prozessoren für den Markt, denn ab heute sind die ersten Modelle im Handel verfügbar. Die Kernkompetenzen der neuen Prozessoren liegen vor... [mehr]

  • AMD hängt Intel weiter ab: Der Ryzen 9 3950X im Test

    Logo von IMAGES/STORIES/2017/RYZEN-3950X

    Besser spät als nie – so ließe sich das Timing für unseren Test des Ryzen 9 3950X wohl am besten zusammenfassen. Zum Ursprünglichen Termin der Tests konnte uns AMD kein Sample zur Verfügung stellen und so mussten wir uns etwas gedulden, bis auch wir den 16-Kerner testen konnten. Der... [mehr]

  • Insider-Gerüchte: Intel streicht 10-nm-Pläne für den Desktop komplett

    Logo von IMAGES/STORIES/2017/INTEL

    Aus Insiderkreisen haben wir einige exklusive Informationen zu zukünftigen Desktop-Prozessoren von Intel erhalten. Die Quelle hat sich in der Vergangenheit zu CPU-Themen bereits mehrfach aus treffsicher erwiesen. Dennoch sollte wie bei allen Gerüchten dieser Art eine gewisse Vorsicht an den... [mehr]

  • Ein Athlon ist noch längst kein Ryzen: Der Athlon 3000G im Test

    Logo von IMAGES/STORIES/2017/AMD_ATHLON_200GE

    Für den Athlon 3000G hat sich AMD ein knappes Zeitfenster ausgesucht. Letzte Woche hab es die Testberichte zum Ryzen 9 3950X, zum 25. November erfolgt der Marktstart und auch die Tests zu den Ryzen-Threadripper-Prozessoren werden dann veröffentlicht. Dementsprechend fokussieren wir uns heute auf... [mehr]

  • Schneller dank Zen 2: Ryzen Threadripper 3960X und 3970X im Test

    Logo von IMAGES/STORIES/2017/RYZEN-THREADRIPPER-3RDGEN

    Nachdem sich AMD auf dem klassischen Desktop mindestens auf Augenhöhe zu Intel sieht, will man nun den bereits vorhandenen Vorsprung im High-End-Desktop weiter ausbauen. Den Anfang machen der Ryzen Threadripper 3960X mit 24 und der Ryzen Threadripper 3970X mit 32 Kernen. Zum Vorgänger... [mehr]