Da diese Woche sowohl GDC als auch GTC stattfinden, ist dies eine große Zeit für GPUs aller Artwork. Und heute will AMD mit der Veröffentlichung der PCIe-Model ihrer MI200-Beschleunigerfamilie, dem MI210, ebenfalls ins Spiel einsteigen.

Der MI210 wurde erstmals zusammen mit dem MI250 und MI250X im November vorgestellt, als AMD die Intuition MI200-Familie auf den Markt brachte. Der MI210 ist das dritte und letzte Mitglied der neuesten Technology von GPU-basierten Beschleunigern von AMD. Die MI210 bringt die CDNA 2-Architektur in eine PCIe-Karte und richtet sich an Kunden, die die HPC- und maschinelle Lernleistung der MI200-Familie suchen, sie aber in einem standardisierten Formfaktor für Mainstream-Server benötigen. Insgesamt wird der MI200 heute im Rahmen der Umstellung des gesamten MI200-Produktstapels auf allgemeine Verfügbarkeit für OEM-Kunden von AMD auf breiter Foundation eingeführt.


























AMD Intuition-Beschleuniger
MI250 MI210 MI100 MI50
Recheneinheiten 2 x 104 104 120 60
Matrix-Kerne 2 x 416 416 480 N / A
Spice up-Uhr 1700MHz 1700MHz 1502MHz 1725MHz
FP64-Vektor 45,3 TFLOPS 22.6 TFLOPS 11,5 TFLOPS 6.6 TFLOPS
FP32-Vektor 45,3 TFLOPS 22.6 TFLOPS 23.1 TFLOPS 13.3 TFLOPS
FP64-Matrix 90,5 TFLOPS 45,3 TFLOPS 11,5 TFLOPS 6.6 TFLOPS
FP32-Matrix 90,5 TFLOPS 45,3 TFLOPS 46.1 TFLOPS 13.3 TFLOPS
FP16-Matrix 362 TFLOPS 181 TFLOPS 184,6 TFLOPS 26,5 TFLOPS
INT8-Matrix 362,1 TOPS 181 SPITZEN 184,6 TOPS N / A
Gedächtnisuhr 3,2 Gbit/s HBM2E 3,2 Gbit/s HBM2E 2,4 Gbit/s HBM2 2,0 Gbit/s GDDR6
Speicherbusbreite 8192-Bit 4096 Bit 4096 Bit 4096 Bit
Speicherbandbreite 3,2 TB/s 1,6 TB/s 1,23 TB/s 1,02 TB/s
VRAM 128 GB 64 GB 32 GB 16 GIGABYTE
ECC Ja (Voll) Ja (Voll) Ja (Voll) Ja (Voll)
Infinity Cloth-Hyperlinks 6 3 3 N / A
CPU-Kohärenz Nein N / A N / A N / A
TDP 560W 300W 300W 300W
Herstellungsprozess TSMC N6 TSMC N6 TSMC7nm TSMC7nm
Transistorzähler 2 x 29,1 B 29.1B 25.6B 13.2B
Die Architektur cDNA 2 cDNA 2 CDNA (1) Weg
Grafikkarte 2 x cDNA 2 GCD
“Aldebaran”
cDNA 2 GCD
“Aldebaran”
cDNA 1 Weg 20
Formfaktor OAM PCIe (4.0) PCIe (4.0) PCIe (4.0)
Erscheinungsdatum 11/2021 03/2022 11/2020 11/2018

Beginnend mit einem Blick auf die Most sensible-Line-Spezifikationen ist der MI210 eine interessante Variante der bestehenden MI250-Beschleuniger. Während diese beiden Teile auf einem Paar Aldebaran (CDNA 2)-Chips in einer MCM-Konfiguration auf einem einzigen Gehäuse basierten, reduziert AMD für MI210 alles auf einen einzigen Chip und die zugehörige {Hardware}. Da der MI250(X) im OAM-Formfaktor 560 W benötigt, musste AMD die {Hardware} ohnehin halbieren, um die Leistung für eine PCIe-Karte auf 300 W zu reduzieren. Sie haben dies getan, indem sie den zweiten Chip auf der Verpackung weggeworfen haben.

Das Nettoergebnis ist, dass der MI210 im Wesentlichen die Hälfte eines MI250 ist, sowohl in Bezug auf die physische {Hardware} als auch auf die erwartete Leistung. Der CNDA 2 Graphics Compute Die verfügt über die gleichen 104 aktivierten CUs wie der MI250, wobei der Chip mit der gleichen Spitzentaktgeschwindigkeit von 1,7 GHz läuft. Abgesehen von der Workload-Skalierbarkeit ist die Leistung des MI210 für alle praktischen Zwecke die Hälfte eines MI250.

Diese Halbierung gilt auch für die Erinnerung. Da MI250 64 GB HBM2e-Speicher mit jeder GCD koppelte – für insgesamt 128 GB Speicher – reduziert MI210 dies auf 64 GB für die einzelne GCD. AMD verwendet hier denselben 3,2-GHz-HBM2e-Speicher, sodass die Gesamtspeicherbandbreite für den Chip 1,6 TB/Sekunde beträgt.

In Bezug auf die Leistung führt die Verwendung eines einzelnen Aldebaran-Chips zu einigen seltsamen Vergleichen mit AMDs PCIe-Karte der vorherigen Technology, der Radeon Intuition MI100. Obwohl höher getaktet, bedeutet die leicht reduzierte Anzahl von CUs im Vergleich zum MI100, dass der alte Beschleuniger für einige Workloads zumindest auf dem Papier etwas schneller ist. In der Praxis hat das MI210 mehr Speicher und mehr Speicherbandbreite, additionally sollte es immer noch den Leistungsvorsprung der realen Welt haben, aber es wird nah dran sein. Bei Workloads, die die architektonischen Verbesserungen von CDNA 2 nicht nutzen können, wird MI210 keine Verbesserung gegenüber MI100 darstellen.

All dies unterstreicht die allgemeine Ähnlichkeit zwischen den Architekturen von CDNA (1) und CDNA 2 und wie Entwickler die neuen Funktionen von CDNA 2 nutzen müssen, um das Beste aus der {Hardware} herauszuholen. Wo cDNA 2 im Vergleich zu cDNA (1) glänzt, sind FP64-Vektor-Workloads, FP64-Matrix-Workloads und gepackte FP32-Vektor-Workloads. Alle drei Anwendungsfälle profitieren davon, dass AMD die Breite seiner ALUs auf volle 64 Bit verdoppelt, wodurch FP64-Operationen mit voller Geschwindigkeit verarbeitet werden können. Wenn FP32-Operationen zusammengepackt werden, um die breitere ALU vollständig zu füllen, können auch sie von den neuen ALUs profitieren.

Aber wie wir in unserer anfänglichen MI250-Diskussion festgestellt haben, ist gepacktes FP32 wie alle gepackten Befehlsformate nicht kostenlos. Entwickler und Bibliotheken müssen codiert werden, um davon profitieren zu können; gepackte Operanden müssen benachbart und auf gerade Check in ausgerichtet sein. Für Instrument, die speziell für die Architektur geschrieben wurde (z. B. Frontier), ist dies problemlos möglich, aber portablere Instrument muss aktualisiert werden, um dies zu berücksichtigen. Aus diesem Grund bewirbt AMD seine FP32-Vektorleistung klugerweise immer noch mit voller Geschwindigkeit (22,6 TFLOPS), anstatt die Verwendung von gepackten Anweisungen anzunehmen.

Die Markteinführung des MI210 markiert auch die Einführung von AMDs verbesserten Matrixkernen in eine PCIe-Karte. Für CDNA 2 wurden sie erweitert, um einen FP64-Matrix-Betrieb mit voller Geschwindigkeit zu ermöglichen, wodurch sie auf die gleiche Charge von 256 FLOPS wie FP32-Matrix-Operationen gebracht werden, eine 4-fache Verbesserung gegenüber der alten Charge von 64 FLOPS/Takt/CU.











AMD GPU-Durchsatzraten
(FLOPS/Uhr/CU)
cDNA 2 CDNA (1) Weg 20
FP64-Vektor 128 64 64
FP32-Vektor 128 128 128
Gepackter FP32-Vektor 256 N / A N / A
FP64-Matrix 256 64 64
FP32-Matrix 256 256 128
FP16-Matrix 1024 1024 256
BF16-Matrix 1024 512 N / A
INT8-Matrix 1024 1024 N / A

Im weiteren Verlauf erhält das PCIe-Layout MI210 ebenso wie das MI100 ein Trio von Infinity Cloth 3.0-Hyperlinks entlang der Oberseite der Karte. Dadurch kann eine MI210-Karte mit einer oder drei anderen Karten verbunden werden, wodurch ein 2- oder 4-Wege-Cluster von Karten gebildet wird. Unterdessen wird Backhaul zur CPU oder anderen PCIe-Geräten über eine PCIe 4.0 x16-Verbindung bereitgestellt, die von einem der flexiblen IF-Hyperlinks von der GCD mit Strom versorgt wird.

Wie bereits erwähnt, ist die TDP für den MI210 auf 300 W eingestellt, das gleiche Niveau wie beim MI100 und MI50 davor – und im Wesentlichen die Grenze für eine PCIe-Serverkarte. Wie die meisten Serverbeschleuniger ist dies ein vollständig passives Twin-Slot-Kartendesign, das auf einen erheblichen Luftstrom aus dem Servergehäuse angewiesen ist, um die Dinge kühl zu halten. Die GPU selbst wird durch eine Kombination aus dem PCIe-Steckplatz und einem 8-poligen EPS12V-Anschluss auf der Rückseite der Karte mit Strom versorgt.

Ansonsten verfolgt AMD trotz der Änderung der Formfaktoren mit dem MI210 den gleichen Markt wie mit dem MI250(X). Das heißt, HPC-Benutzer, die speziell einen schnellen FP64-Beschleuniger benötigen. Dank ihrer Custom als Chip, der in erster Linie für Supercomputer (z. B. Frontier) entwickelt wurde, steht die MI200-Familie derzeit allein in ihrer FP64-Vektor- und FP64-Matrix-Leistung, da konkurrierende GPUs sich stattdessen darauf konzentriert haben, die Leistung bei den in den meisten Industriezweigen verwendeten niedrigeren Präzisionen zu verbessern /nichtwissenschaftliche Arbeitslasten. Aber selbst bei geringerer Genauigkeit ist die MI200-Familie mit ihrer Charge von 1024 FLOPS professional CU bei FP16- und BF16-Matrixoperationen nicht zu verachten.

Abschließend soll der MI210 ab heute bei den üblichen Serverpartnern von AMD erhältlich sein, darunter ASUS, Dell, Supermicro, HPE und Lenovo. Diese Anbieter bieten jetzt auch Server an, die auf AMDs MI250(X)-Beschleunigern basieren, sodass AMDs Mainstream-Kunden Zugang zu Systemen haben werden, die auf AMDs vollständiger Palette von MI200-Beschleunigern basieren.

https://aspiringsysadmin.com/