> > > > NVIDIA nForce 4 SLI Intel Edition

NVIDIA nForce 4 SLI Intel Edition

DruckenE-Mail
Erstellt am: von

Seite 2: FSB und Speicherinterface (1)

Im Gegensatz zum Athlon 64-Chipsatz musste NVIDIA für den Intel-Chipsatz etwas mehr Energie aufwenden, denn der Speichercontroller ist bei allen Pentium 4-Modellen nicht wie bei AMD in die CPU integriert, sondern befindet sich im Chipsatz. Somit hat NVIDIA sich für den nForce 4 Intel Edition auch für eine Zweichip-Variante entschieden. Als positiver Nebeneffekt wird somit auch die Kombination der beiden Chips, South- und Northbridge, etwas flexibler. Möchte man beispielsweise neue Storage- und Netzwerk-Features integrieren, kann man eine bestehende Northbridge mit der neuen Southbridge koppeln - und umgekehrt.

Der SPP, wie NVIDIA die Northbridge nennt, kann aktuelle Pentium 4-Prozessoren - und vermutlich auch die kommenden Dual Core-Prozessoren - von Intel aufnehmen. Auch die neue Extreme Edition-Serie mit 1066 MHz FSB kann eingesetzt werden, somit stehen einem vom normalen Pentium 4 aus der 5xx oder 6xx-Serie bis zum Pentium 4 Extreme Edition alle Auswahlmöglichkeiten offen. Durch den 1066 MHz FSB kann NVIDIA bis zu 8,5 GB/s zur Northbridge übertragen. Features wie Dynamic Bus Inversion oder eine In-Order-Queue-Tiefe von 12 hat der Chipsatz gemeinsam mit den Intel-Pendants.

Mit in der Northbridge integriert ist natürlich auch das PCI-Express-Interface - hier hat NVIDIA zwei unterschiedliche Konfigurationen:

  • Ohne SLI: 1 x PCI-Express x16, 4 x PCI-Express x1
  • Mit SLI: 1 x PCI-Express x16 oder 2 x PCI-Express x8, 3 x PCI-Express x1

Je nachdem, welche Variante man nutzt, kommen also unterschiedliche Konfigurationen zum Einsatz. Mit 20 PCI-Express-Lanes über fünf seperate Controller liegt man hiermit auf gleichem Niveau wie Intel bei den i925XE/i915P-Chipsätzen, aber man ist flexibler bei den Einsatzmöglichkeiten, denn Intel bietet kein SLI, sondern nur eine fixe x16/x1-Verteilung. Der Wegfall der einen x1-Lane kommt durch die fünf Controller zustande: Ohne SLI werden fünf Ports durch fünf Slots abgedeckt, im unteren Bereich könnten theoretisch sechs Slots verwendet werden. Da jedoch nur fünf PCIe-Controller enthalten sind, entfällt im Endeffekt eine PCIe-Lane. Da Intel in der kommenden ICH7 vier x1-Ports integriert, ist man dann in der Lage, eventuell auch NVIDIA-ähnliche Lösungen anzubieten und zudem auch noch eine reichhaltigere PCI-Express-Infrastruktur bereitzustellen.

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Interessanter wird es beim Speichercontroller - hier musste NVIDIA Eigenarbeit leisten und einen leistungsfähigen DDR2-Controller für die Intel-Prozessoren entwickeln. Dies ist schon eine Herausforderung, denn bislang hatte man nur für den AMD Athlon XP einen DDR-Controller entwickelt. Da Intel in diesem Bereich auch relativ stark ist, konnte man sich keinen Fehltritt leisten, denn viele Applikationen ziehen Performance aus einer guten Speicherperformance. NVIDIA bietet hier Dual Channel DDR2, einsetzbar sind Module mit einer Taktfrequenz von 667 MHz innerhalb der Spezifikation. Intel wird DDR2-667 erst mit den kommenden Chipsätzen unterstützen.

Mit DDR2-667 kann theoretisch eine Bandbreite von 10,6 GB/s erreicht werden. Wie wir oben bereits angemerkt haben, überträgt der Chipsatz zur CPU ohne Overclocking bei 1066 MHz FSB nur 8,5 GB/s. Hier entsteht also kein Nadelöhr auf Seiten des Speichers, sondern eher bei der CPU-Anbindung. Entsprechend würde ein DDR2-533-Interface für aktuelle Extreme Edition-Prozessoren vollkommen ausreichen. Für 800 MHz-Prozessoren wären rechnerisch sogar DDR2-400 in Ordnung, denn beide Kanäle würden so mit 6,4 GB/s Übertragungskapazität arbeiten. Natürlich existiert aber nicht nur Traffic von der CPU zum Speicher, sondern auch von den PCI-Express-Karten und der Southbridge zum Speicher. Ein wenig "Luft" ist also gar nicht schlecht, deshalb sah man in vielen Benchmarks auch einen Vorteil von DDR2-533 gegenüber DDR2-400 bei 800 MHz FSB CPUs. Bei einem Pentium 4 mit 800 MHz FSB wäre der Einsatz von DDR2-667 aber nur bedingt vorteilhaft.

Wichtiger als die Bandbreite ist hier die Latenz des Speichers. Hier hat NVIDIA gleich eine Reihe von Features implementiert, die die Latenz absenken sollen. So besitzt jeder Dimm einen dedizierten Address- und Command-Bus, um die Latenzzeiten zu verringern:

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Praktisch bedeutet dies, dass bei häufiger Adressierung und dem Übertragen von Befehlen an den Speicher ein besserer, effizienterer Zugriff möglich ist. Bei einer Shared-Architektur müsste teilweise der Chipsatz Befehle zwischenspeichern, wenn gleichzeitig mit zwei Dimms innerhalb eines Kanals kommuniziert werden müsste. Da der Address-Bus im Vergleich zum Datenbus den 4- bis 8-fachen Load besitzt, wirkt sich dies deutlich auf die Performance aus. Zudem kann NVIDIA durch die Aufspaltung sicherstellen, dass das Memory-Interface auch bei hohen Geschwindigkeiten mit 1T Address-Timing lauffähig ist.

Die Auswirkung von 1T Address-Timing gegenüber 2T Address-Timing zeigt die folgende Grafik - im Endeffekt lässt sich daraus erkennen, dass das Absenken von 2T auf 1T einem Absenken der Cas Latency von 4T auf 3T entsprechen würde. Besitzt man dann noch schnelle DDR2-Module mit einer Cas-Latency von 3 bei 533 MHz, lässt sich dadurch also eine hervorragende Performance erzielen:

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Ein Chipsatz, der eine Burst Length von 8 und 2T Adress-Timings verwendet, benötigt zwei Lesebefehle um 64 Byte aus dem Speicher zu lesen. Der nForce 4 Intel Edition verwendet hingegen eine Burst Length von 4 und 1T Adress Timing. Dadurch werden vier Lesebefehle für 64 Byte notwendig. Trotz dieses eigentlichen Nachteils ist es aber durch den 1T-Adress-Timing möglich, dass der nForce 4 hier die doppelte Menge an Befehlen in den Speicher schreiben kann.

Wie sich dies bei einer Reihe von Zugriffen auswirkt, zeigt die folgende Grafik:

Durch Klick auf das Bild gelangt man zu einer vergrößerten Ansicht

Auf der nächsten Seite schauen wir DASP 3.0 und QuickLink an und geben auch einen Einblick in die Speicherperformance.