NEWS

Intel will neuronale Netzwerke mit Custom-Kernen und HBM2 schneller trainieren

Von Andreas Schilling
Mittwoch, 23.11.2016 um 12:33 Uhr

Deep Learning, neuronale Netze und maschinelles Lernen sind derzeit in aller Munde. Fast alle Hardware-Hersteller haben auf die Rechenanforderungen in diesem Bereich eine entsprechende Antwort – sei es NVIDIA mit seinen eigenen GPUs, Intel mit Xeon-Phi-Beschleunigern oder aber AMD mit seinen neuen Workstation-Grafikkarten. Doch die Rechenleistung stellt an solche Systeme unterschiedliche Anforderungen, je nachdem ob es darum geht ein Deep-Learning-Netzwerk zu trainieren oder per Inferencing Ergebnisse aus solchen Netzwerken zu ermitteln.

Intel hat sich in den letzten Jahren in dieser Hinsicht ebenfalls neu ausgerichtet und zahlreiche Käufe getätigt. Auf der Supercomputing 2016 präsentierte man eine PCI-Express-Zusatzkarte mit Arria-Chip. Genauer gesagt handelt es sich um einen FPGA, der aus bereits trainierten Deep-Learning-Netzwerken per Inferencing schnelle Ergebnisse abrufen kann. Die dazugehörige Hardware basiert auf dem Altera Arria 10 und ab dem ersten Quartal 2017 sollen die ersten Produkte marktreif sein.

Doch Intel beackert nicht nur ein Feld. Ein weiterer, zumindest geplanter Zukauf, ist Nervana. Auch hier arbeitet man an spezieller Hardware, die auf die Anforderungen von Deep-Learning-Netzwerken hin ausgelegt ist. Eines der ersten Produkte ist ein Beschleunigerchip namens Lake Crest. Er soll im kommenden Jahr auf ersten Beschleunigerkarten ausgeliefert werden und dabei wesentlich effizienter sein als aktuelle GPUs wie beispielsweise NVIDIAs P100 auf Basis der Pascal-Architektur. Gefertigt werden soll der Chip in 28 nm. Der erste Tape Out ist allerdings noch nicht erreicht worden.

Auf dem Intel AI Event ermöglichte Nervana einen ersten Blick auf die Architektur und darin wird die Auslegung der Hardware auch schnell deutlich. Es gibt ein Array aus Processing Cluster, die Fließkomma-Berechnungen schneller ausführen können als aktuelle Hardware. Nervana spricht von einer zehnfach höheren Leistung gegenüber Chips aus gleicher Fertigung. Dabei sei angemerkt, dass AMD, NVIDIA und Intel in 14/16 nm oder mit den neuen Xeon Phi Knights-Landing-Beschleunigern, sogar schon in 10 nm fertigen lassen. Die ältere 28-nm-Hardware von diesen Herstellern ist daher die Vergleichsbasis, die herangezogen wird.

Architektur des Beschleunigers von Nervana

Um die Processing Cluster schnellstmöglich mit Daten füttern zu können, ist die Anbindung dieser Cluster untereinander und an den Speicher besonders wichtig. Mit High Bandwidth Memory der zweiten Generation steht modernen GPUs inzwischen ein Speicher zur Seite, der 720 GB/s bis 1 TB/s erreichen kann. Die Interconnects in solchen Chips müssen aber ebenfalls schnell sein. Nervana verwendet einen eigens entwickelten Interconnect, der aus zwölf bidirektionalen Links mit 100 GBit/s besteht. Insgesamt kommt der Interconnect also auf 1,2 TBit/s. Verwendet wird dazu eine Technik namens SerDes. Dabei handelt es sich um einen Serialisierer/Deserialisierer, der aus einem Paar aus einem Multiplexer und einem Demultiplexer besteht, die zur seriellen Datenübertragung zwischen zwei parallelen Endpunkten genutzt werden. Auf dem Interposer befindet sich neben den Processing Cluster aber auch noch besagter HBM2 mit 1 TB/s. Die Kapazität des HBM2 beläuft sich auf 32 GB.

Den als Lake Crest entwickelte Chips soll bei Intel als Knights Crest in zukünftige Produkte integriert werden. Derzeit hat Intel mit der Auslieferung von Xeon-Phi-Beschleunigern auf Basis von Knights Landing begonnen (bzw. kann diese nun in größeren Stückzahlen liefern), der Nachfolger Knights Mill wurde aber noch nicht offiziell vorgestellt. Was genau mit Knights Crest passieren wird, lässt sich derzeit noch nicht absehen. Der Bedarf an spezieller Hardware wird in Zukunft aber immer größer werden, da sich solche Anwendungen mit "allgemeiner" Hardware nicht mehr effizient bearbeiten lassen. Kein Wunder also, dass sich auch Intel in diesem Bereich mit speziellen Produkten etwas breiter aufstellen möchte.

Quellen und weitere Links

KOMMENTARE (0)

{{{_source.title}}} {{#_source.showPrice}} {{{_source.displayPrice}}} {{/_source.showPrice}}

Intel will neuronale Netzwerke mit Custom-Kernen und HBM2 schneller trainieren