Speicherkontroller des Nehalem: unganged, oder ganged ?

Opteron · 04.11.2008

Ich lager mal die Diskussion aus dem "Wird AMD benachteiligt" Thread aus, da sie dort OT ist, und sicherlich bald einem Mod. anheimfällt ^^
------------

mr.dude schrieb:
Das war mir schon klar. Es ging darum, dass Nehalem lediglich EINEN Speichercontroller hat.

Aha, so kommst du darauf. Dann drückst du dich aber irgendwie falsch aus. Es ist und bleibt ein Speichercontroller.

Was zu beweisen wäre ... AMD hat beim K10 eben 2 vollwertige Speicherkontroller, im unganged Mode sind die auch aktiv. Merkmal 2er unabhängier MCs ist, dass man unabhängig voneinander Lesen/schreiben kann, das wird wichtiger je mehr Kerne / Threads man hat, für Intel wäre das durch HT imo seehr wichtig, zumindest unter Vollast.

Und wie ich sagte, Latenz kann sich durchaus positiv auswirken. Aber dananch sieht es bisher nicht aus.

Jo, weil jeder mit "Kinderprogrammen" bencht, die keine richtige RAM Last erzeugen.

Um die Unterschiede mit ganged und unganged bei AMD zu sehen, brauchst du auch kein BOINC.

Jo gut mit dem multithreaded Rightmark Memory Benchmark gings auch, aber das ist wieder ein Synth (wenn auch einer der Besten)

Triple Channel ist hauptsächlich der Plattform respektive der QPI Architektur geschuldet, nicht einem einzelnen Prozessor.

Du verwechselst da wirklich was ... siehe unten

Übrigens, ich habe mich noch nie wirklich mit BOINC beschäftigt. Aber werden da nicht vor allem wissenschaftliche Berechnungen durchgeführt? Dort wirken sich idR gute Caches positiv aus. Wirklich hohe Datenlast findest du eher bei Datenbankapplikationen oder ähnlichem.

Kommt aufs Projekt drauf an, ich hab extra QMC gewählt, da das extreme RAM-lasting ist

Nicht? Wie ist denn der Speicher an den Speichercontroller angebunden?

Über den DRAM Kontroller

QPI hat bei Intel nur die Funktion von AMDs Hypertransport:
I/O Verkehr vom/ zum Chipsatz bzw. Kommunikation mit Nachbar CPUs in Mehrprozessorsystemen.

Die kommenden LGA1160 CPUs kommen sogar ohne QPI aus, da die einen direkten "SB Anschlussbus" (DMI) bekommen.

Der QPI Kontroller auf dem DIE wird wohl als PCIe x16 Anschluss verwertet, QPI ist ja eigentlich nix andres als "coherent PCIe", falls Dir das was sagt.
Aber mal abwarten, bis da wirklich was rauskommt.

ciao

Alex

[HOT] · 04.11.2008

Da der IMC des Nehalem ganged ist, zieht das QPI-Argument nicht mehr, da er so nurnoch auf die Bandbreite reagiert, das ist korrekt. Will heißen, es gibt keine unabhängigen über-NUMA-Zugriffe auf den RAM-Controller - die müssen warten, wenn die eigenen Kerne grad auf dem MC zugreifen. Bei AMD verteilt sich die Last besser, dafür dauern bei bandbreitenabhängigen Apps die Zugriffe länger bei 64Bit DDR2 800.

mr.dude · 04.11.2008

Opteron schrieb:
Was zu beweisen wäre ... AMD hat beim K10 eben 2 vollwertige Speicherkontroller, im unganged Mode sind die auch aktiv.

Davon ist mir nichts bekannt. Auch in den Dokumentationen von Intel wird immer nur von einem Speichercontroller als separate Komponente gesprochen. Für ganged und unganged brauchst du auch nicht mehrere Speichercontroller. Im Gegenteil, das wäre sogar recht ineffizient. Dann müsstest du nämlich Kohärenz zwischen zwei Controllern gewährleisten. Irgendwie wenig sinnvoll. Aber ich glaube, wir driften hier nur vom Thema ab. AMD und Intel bezeichnen die Logik zur Ansteuerung des Hauptspeichers als Speichercontroller. Und davon gibt es jeweils nur eine pro Prozessor. Und dabei sollten wir am besten auch bleiben. Alles andere ist nur unnötig verwirrend. Wie die Implementierung dieser Logik ausschaut, ist doch im Grunde egal und hier auch nicht weiter von Interesse. Uns geht es doch mehr ums Frontend.

Opteron schrieb:
Merkmal 2er unabhängier MCs ist, dass man unabhängig voneinander Lesen/schreiben kann, das wird wichtiger je mehr Kerne / Threads man hat, für Intel wäre das durch HT imo seehr wichtig, zumindest unter Vollast.

Das ist nicht ganz richtig. Unabhängige Speicherzugriffe sind für Prefetcher, dedizierte und shared Caches von Bedeutung. Ob SMT bei der Konstellation hier wirklich relevant ist, wage ich zu bezweifeln. Immerhin reichen auch 4 Kerne ohne SMT unganged ordentlich auszureizen. Da Nehalem aber wohl keinen unganged Modus beherrscht, ist alles weitere sowieso nur Spekulatius.

Opteron schrieb:
Jo, weil jeder mit "Kinderprogrammen" bencht, die keine richtige RAM Last erzeugen.

Das hat mit "Kinderprogrammen" nichts zu tun. Es reicht doch schon vollkommen, grössere Datensets als die vorhandenen Caches zu verwenden. Dazu braucht es nicht viel. Was sind schon 8 MB? Klar, mit typischen Desktop Anwendungen ist das gar nicht mal so einfach. Aber es gibt mehr als nur Pi auf 1M Stellen zu berechnen.

Opteron schrieb:
Du verwechselst da wirklich was

Überlege doch mal ganz logisch. Warum verwendet man Triple Channel anstatt Dual Channel? Ok, das ist nicht ganz so schwer. Klar, um die Bandbreite zum Speicher zu erhöhen. Aber warum erhöht man die Bandbreite? Weil die Caches und Pipelines so viel schneller geworden sind? Oder weil durch QPI eine grössere externe Datenlast vorhanden ist, welche ebenfalls den Druck auf Cache und RAM erhöht? Was ist wohl plausibler bzw relevanter?
Nimm es mir nicht übel, aber irgendwie habe ich das Gefühl, du suchst einen Prozessor für BOINC und versuchst dir nun Triple Channnel schönzureden. Von mir aus, geschenkt. Aber beschwere dich hinterher nicht. Gewarnt bist du.

Das mag für Bloomfield ein netter PR Gag sein. Aber ob du einen effektiven Nutzen davon haben wirst, darf mehr als bezweifelt werden. Und das bestätigen ja auch alle praxisbezogenen Tests bisher. Und wenn speicherintensive Anwendungen wie Packer oder Cipher keinen Unterschied zeigen, ist es äusserst unwahrscheinlich, dass sich BOINC da anders verhält.

Undertaker 1 · 04.11.2008

Also wenn er eine CPU für Folding@Home sucht, ist er da trotzdem nicht auf der falschen Spur

http://techreport.com/articles.x/15818/12

Auch der Phenom ist da besser als im Durchschnitt, aber die Vorteile von SMT sind einfach zu enorm.

mr.dude · 04.11.2008

Irgendwie geht es hier überhaupt nicht um SMT. Naja. :rolleyes:

Devil Ag · 04.11.2008

Ich denke das:

Undertaker 1 schrieb:
Also wenn er eine CPU für Folding@Home sucht, ist er da trotzdem nicht auf der falschen Spur

war die Antwort auf das:

mr.dude schrieb:
Und wenn speicherintensive Anwendungen wie Packer oder Cipher keinen Unterschied zeigen, ist es äusserst unwahrscheinlich, dass sich BOINC da anders verhält.

Aber macht es doch wie immer und redet aneinander vorbei..... :wall:

mr.dude · 04.11.2008

Ist mir schon klar, dass er an meinen Aussagen vorbei redet. Ich frage mich nur, warum er dann immer wieder Beiträge schreiben muss, die nichts mit dem Thema zu tun haben. Irgendwie nimmt das schon krankhafte Züge an. Zumal Opteron explizit QMC erwähnt hatte. Da wirkt die Grafik doppelt deplatziert.

Devil Ag · 04.11.2008

mr.dude schrieb:
Zumal Opteron explizit QMC erwähnt hatte. Da wirkt die Grafik doppelt deplatziert.

Korrigiert mich bitte fals ich falsch liege aber ist QMC nicht ein folding@home projekt....??
Kenn mich da nicht so aus.

mr.dude · 04.11.2008

Stimmt. Dann ist es dreifach deplatziert.

Opteron · 04.11.2008

mr.dude schrieb:
Davon ist mir nichts bekannt. Auch in den Dokumentationen von Intel wird immer nur von einem Speichercontroller als separate Komponente gesprochen. Für ganged und unganged brauchst du auch nicht mehrere Speichercontroller. Im Gegenteil, das wäre sogar recht ineffizient. Dann müsstest du nämlich Kohärenz zwischen zwei Controllern gewährleisten. Irgendwie wenig sinnvoll. Aber ich glaube, wir driften hier nur vom Thema ab. AMD und Intel bezeichnen die Logik zur Ansteuerung des Hauptspeichers als Speichercontroller. Und davon gibt es jeweils nur eine pro Prozessor. Und dabei sollten wir am besten auch bleiben. Alles andere ist nur unnötig verwirrend. Wie die Implementierung dieser Logik ausschaut, ist doch im Grunde egal und hier auch nicht weiter von Interesse. Uns geht es doch mehr ums Frontend.

Hmm ... kennste die AMD Folie hier:

http://www.hardwaresecrets.com/printpage/480/3

Memory Controllers Plural -> Mehr als einer

Aber das ist bei AMD ... wenn Du sagst Du hast irgendwo gelesen, dass Intel wirklich nur ganged hat, dann glaub ich Dir das auch, bisher hab ich halt 0 zu dem Intel IMC gelesen bzw. was mit wenig Info. Wenns also kein unganged ist, ist meine Zuversicht erstmal etwas gedämpft. Aber ich finde das wäre ziemlicher Müll, da bei nem 64bit read, dann gleich 128bit umsonst gelesen werden ... also analog zur obigen Folie gleich 2/3 Waste ...

Immerhin reichen auch 4 Kerne ohne SMT unganged ordentlich auszureizen.

Jo, und der unganged Vorteil wird mit SMT noch größer.

Da Nehalem aber wohl keinen unganged Modus beherrscht, ist alles weitere sowieso nur Spekulatius.

Jo natürlich, wenn Deine Aussage stimmt

Aber ich glaubs mal, wenn Du allerdings das PDF noch hast, freue ich mich über nen Link

Das hat mit "Kinderprogrammen" nichts zu tun. Es reicht doch schon vollkommen, grössere Datensets als die vorhandenen Caches zu verwenden. Dazu braucht es nicht viel. Was sind schon 8 MB? Klar, mit typischen Desktop Anwendungen ist das gar nicht mal so einfach. Aber es gibt mehr als nur Pi auf 1M Stellen zu berechnen.

Jo QMC z.B: wer redet von Pi ? Ich nicht

Überlege doch mal ganz logisch. Warum verwendet man Triple Channel anstatt Dual Channel? Ok, das ist nicht ganz so schwer. Klar, um die Bandbreite zum Speicher zu erhöhen. Aber warum erhöht man die Bandbreite? Weil die Caches und Pipelines so viel schneller geworden sind? Oder weil durch QPI eine grössere externe Datenlast vorhanden ist, welche ebenfalls den Druck auf Cache und RAM erhöht?

Ich kapier Deinen Gedankengang nicht, auf der einen Seite sagst Du, dass die 3 Kanäle viel zuviel für die CPU sind, und der 3te Kanal für QPI da ist, um andre CPUs zu versorgen. Aber alle andren CPUs haben ebenfalls 3 Kanäle ... also viel zuviel Deiner Meinung nach. Klar, kann mal vorkommen, dass mal was aus einem RAM Bereich einer andren CPU geladen wird, aber normalerweise wird sowas durch gute NUMA Programmierung unterbunden.

Nimm es mir nicht übel, aber irgendwie habe ich das Gefühl, du suchst einen Prozessor für BOINC und versuchst dir nun Triple Channnel schönzureden. Von mir aus, geschenkt. Aber beschwere dich hinterher nicht. Gewarnt bist du.

Hmm ... ne wieso soll ichs Dir übel nehmen

100% sicher bin ich mir auch nicht, am Besten wärs, wenn dbode, das auch noch testen könnte, aber da wird er wohl kaum Zeit / Interesse dazu haben.

Und wenn speicherintensive Anwendungen wie Packer oder Cipher keinen Unterschied zeigen, ist es äusserst unwahrscheinlich, dass sich BOINC da anders verhält.

Das sind Kinderprogramme .. ein einziges großes Datenset, an dem alle Threads dran arbeiten, da schlägt der gemeinsame L3 ein ... bei boinc hat man 8 komplett andre Datensets, nur der Algorithmus/Code ist gleich

Korrigiert mich bitte fals ich falsch liege aber ist QMC nicht ein folding@home projekt....??

Ne das ganze läuft unter dem Schlagwort distribute computing, f@h ist ein Projekt, QMC ist ein Projekt und nützt dabei die sogenannte boinc Plattform.

Prinzipiell ist das so als ob ich nach MS Office gefragt hätte und Undertaker würde einen Openoffice Bench posten.

Ist zwar ähnlich, aber mit F@H kenn ich mich nicht wirklich aus, wenn das auch speicherlastig wäre, könnte mans grob mit QMC vergleichen.

ciao

Alex

mr.dude · 04.11.2008

Opteron schrieb:
Hmm ... kennste die AMD Folie hier:

http://www.hardwaresecrets.com/printpage/480/3

Memory Controllers Plural -> Mehr als einer

Das ist Tech Jargon. Physisch bleibt es ein Controller bzw eine Logik, wo lediglich zwei Modi genutzt werden können, 1x 128 Bit oder 2x 64 Bit Kanäle. Oder wie willst du 2 Controller physisch wieder zu einem machen, wenn du von unganged auf ganged umschaltest?

Opteron schrieb:
Jo, und der unganged Vorteil wird mit SMT noch größer.

Aber maximal absolut, nicht relativ. Und dass der Unterschied zwischen ganged und unganged keine Berge versetzt, kann man beim K10 sehen.
Aber ging es nicht ursprünglich um Triple Channel? Also um die Bandbreite und nicht um die Latenz?
Übrigens, dass Nehalem nur ganged beherrscht, ist nicht von mir. Ich verlasse mich da einfach mal auf die Aussage von HOT. Vermutlich wäre darüber auch schon mehr geschrieben worden, wenn es anders wäre.

Opteron schrieb:
wer redet von Pi ? Ich nicht

Ich auch nicht.

Opteron schrieb:
Ich kapier Deinen Gedankengang nicht, auf der einen Seite sagst Du, dass die 3 Kanäle viel zuviel für die CPU sind, und der 3te Kanal für QPI da ist, um andre CPUs zu versorgen.

Nein, etwas derartiges habe ich nie gesagt. Ich sagte nicht, dass 3 Kanäle für einen Prozessor zu viel sind, sondern dass ich mir nicht vorstellen kann, dass ganz konkret die Bandbreite durch DDR3 Triple Channel für einen Nahelam Prozessor etwas erwähnenswertes bringt. Und wo habe ich gesagt, dass ein dritter Kanal, welcher auch immer, für QPI da ist? Die 2 QPI Links (1x CPU, 1x Chipsatz) und die 3 Kanäle für die Speicheranbindung sind physisch verschieden.
Stelle dir doch einfach mal die Arbeitsweise dieser Anbindungen grob vor. Mit einem Prozessor, nennen wir ihn A, kommunizierst du mit Chipsatz und RAM. Mit einem angebundenen Prozessoren B kommt weitere Datenlast über den zweiten QPI Link für A hinzu. Und woher kommen bzw landen diese Daten? Entweder Cache oder RAM. Prozessor A muss also die eigenen Daten und die Daten von Prozessor B vom und zum RAM schaufeln können. DESHALB wird die Bandbreite vergrössert. Nicht weil Prozessor A jetzt plötzlich so viel mehr verarbeiten kann, SMT hin oder her.

Opteron schrieb:
Das sind Kinderprogramme

Oha, da täuschst du dich aber gewaltig. Ich schreibe momentan eine Anwendung mit einem Feistel Algo. Falls dir das was sagt. Diese Routinen sind idR so klein und wenig anspruchsvoll (MOV, ADD, Shifts), dass Daten gar nicht schnell genug nachgeschoben werden können. Wissenschaftliche Algorithmen, und zu denen scheint QMC wohl zu gehören, sind dagegen deutlich anspruchsvoller, weil sie auf Multiplikationen, Divisionen, FP oder gar auf trigonometrische Funktionen oder Exponentialfunktionen zurückgreifen. Du scheinst mir BOINC nur auf konkrete Datensets zu reduzieren. Das ist im Grunde aber nicht der entscheidende Teil, wenn man ermitteln möchte, was Bandbreite bringen kann.

Opteron · 04.11.2008

mr.dude schrieb:
Das ist Tech Jargon.

Äh ja, das is hier doch ein Tech Forum, oder bin ich bei den Anonymen Rosamunde Pilcher Liebhabern ?

Physisch bleibt es ein Controller bzw eine Logik, wo lediglich zwei Modi genutzt werden können, 1x 128 Bit oder 2x 64 Bit Kanäle. Oder wie willst du 2 Controller physisch wieder zu einem machen, wenn du von unganged auf ganged umschaltest?

Genauso wie Du aus nem Festplatten RAID 0 Set wieder 2 einzelne Festplatten machst

Der eine MC ist für DIMM 1, der zweite MC für DIMM2, da brauchst Du keinen Coherent Krams, der eine MC sieht den Speicher des andren überhaupt nicht, der ist ausserhalb seines "Regierungsbezirks" ^^
Wenn Du jetzt 128bit hast, dann lesen und schreiben beide MCs gleichzeitig in Ihre jeweiligen RAMs.
Physisch sind die MCs sicherlich auf dem gleichen Siliziumträger ja .. aber kein monolitischer Block ;-)

Aber maximal absolut, nicht relativ. Und dass der Unterschied zwischen ganged und unganged keine Berge versetzt, kann man beim K10 sehen.

Lol, also wie nun, oben schreibst Du, dass schon 4 Threads reichen, um Vorteile bei unganged zu haben, jetzt gibts auf einmal keine mehr ... sieht so aus als wüsstest Du selbst nicht, welche Meinung Du jetzt hast

Aber ging es nicht ursprünglich um Triple Channel? Also um die Bandbreite und nicht um die Latenz?

Ich schreib von Anfang an, dass ich der Meinung bin, dass durch über Triple Channel nicht nur die BW, sondern auch die Latenz besser wird, Grund siehe u.a. auf der AMD Folie.

Übrigens, dass Nehalem nur ganged beherrscht, ist nicht von mir. Ich verlasse mich da einfach mal auf die Aussage von HOT. Vermutlich wäre darüber auch schon mehr geschrieben worden, wenn es anders wäre.

Bei der aktuellen review Qualität:
- Bunte Intel Folien
- Paar Sandra / game benches

wage ich das ehrlich zu bezweifeln. Sogar xbitlabs verzapft Käse ... jetzt hoffe ich noch auf realworldtech.com ...
Ein ganged Betrieb wäre eigentlich totaler Käse ... es gibt doch noch nichtmal 192bit Lese/Schreib Befehle .. wie soll man da einen ganged Triple Channel mit 192 bit nutzen ?

Das wäre ja Blödsinn³ der 3te Kanal wäre absolut unnütz ...

Nein, etwas derartiges habe ich nie gesagt. Ich sagte nicht, dass 3 Kanäle für einen Prozessor zu viel sind, sondern dass ich mir nicht vorstellen kann, dass ganz konkret die Bandbreite durch DDR3 Triple Channel für einen Nahelam Prozessor etwas erwähnenswertes bringt. Und wo habe ich gesagt, dass ein dritter Kanal, welcher auch immer, für QPI da ist?

Na hier:

Überlege doch mal ganz logisch. Warum verwendet man Triple Channel anstatt Dual Channel? Ok, das ist nicht ganz so schwer. Klar, um die Bandbreite zum Speicher zu erhöhen. Aber warum erhöht man die Bandbreite? Weil die Caches und Pipelines so viel schneller geworden sind? Oder weil durch QPI eine grössere externe Datenlast vorhanden ist, welche ebenfalls den Druck auf Cache und RAM erhöht? Was ist wohl plausibler bzw relevanter?

Das versteh ich als rhetorische Fragem mit der Du klarmachen willst, dass alles nur wg. QPI kommt, oder war das anders gemeint ?

und im nächsten Absatz gleich wieder:

Stelle dir doch einfach mal die Arbeitsweise dieser Anbindungen grob vor. Mit einem Prozessor, nennen wir ihn A, kommunizierst du mit Chipsatz und RAM. Mit einem angebundenen Prozessoren B kommt weitere Datenlast über den zweiten QPI Link für A hinzu. Und woher kommen bzw landen diese Daten? Entweder Cache oder RAM. Prozessor A muss also die eigenen Daten und die Daten von Prozessor B vom und zum RAM schaufeln können. DESHALB[Anmerkung: Also QPI ...] wird die Bandbreite vergrössert. Nicht weil Prozessor A jetzt plötzlich so viel mehr verarbeiten kann, SMT hin oder her.

Zum Inhalt: Der Fall dürfte meiner Meinung eher die Ausnahme als die Regel sein, wie schon oben geschrieben: NUMA verhindert sowas, nur für die nicht optimierten Fälle nen 3ten Kanal einzuführen halte ich für ne gewagte These, aber ganz ausschließen möchte ich das auch nicht.

Oha, da täuschst du dich aber gewaltig. Ich schreibe momentan eine Anwendung mit einem Feistel Algo. Falls dir das was sagt. Diese Routinen sind idR so klein und wenig anspruchsvoll (MOV, ADD, Shifts), dass Daten gar nicht schnell genug nachgeschoben werden können. Wissenschaftliche Algorithmen, und zu denen scheint QMC wohl zu gehören, sind dagegen deutlich anspruchsvoller, weil sie auf Multiplikationen, Divisionen, FP oder gar auf trigonometrische Funktionen oder Exponentialfunktionen zurückgreifen. Du scheinst mir BOINC nur auf konkrete Datensets zu reduzieren. Das ist im Grunde aber nicht der entscheidende Teil, wenn man ermitteln möchte, was Bandbreite bringen kann.

Ist ja schön und gut, aber Du hast da doch auch wieder nur 1 Daten Set, dass ganz / teilweise duch den gemeinsamen L3 gepuffert wird, oder ? boinc hat halt 8 unabhängige Instanzen á ~80-100 MB, da wird wird der L2/L3 schon gefordert. Ob das jetzt mehr oder weniger als bei Dir ist ... gute Frage .. müßte man wohl messen

Wie auch immer, was QMC da genau berechnet wissen nur die vom Projekt Team, ich weiss nur, dass es eins der speicherlastigsten Boinc Projekte ist, allzuviel Trigonometrie steck da also nicht drin

ciao

Alex

Opteron · 05.11.2008

Toll .. Thema hat sich erledigt:

Each channel of memory can operate independently and the controller services requests out-of-order to minimize latency. To take advantage of this 4x increase in memory bandwidth, each core supports up to 10 data cache misses and 16 total outstanding misses. In comparison, the Core 2 could have 8 data cache misses and 14 total misses in-flight.

http://www.realworldtech.com/page.cfm?ArticleID=RWT040208182719&p=3

In nem RWT Artikel von April .. hätte ich lieber gleich mal nachlesen sollen, dann hätten wir uns das hier sparen hönnen

Naja immerhin gibts also noch eine belastbare Seite, wenn man genau tech. Infos haben will .. wenigstens was

ciao

Alex

mr.dude · 05.11.2008

Opteron schrieb:
Äh ja, das is hier doch ein Tech Forum

Ich sprach nicht von Foren, sondern Docs.

Opteron schrieb:
Genauso wie Du aus nem Festplatten RAID 0 Set wieder 2 einzelne Festplatten machst

Bitte bleib sachlich. Der Unterschied zwischen logisch und physisch ist dir schon bewusst? Es bleibt jedenfalls physisch eine Logik.

EOD.

Opteron schrieb:
Lol, also wie nun, oben schreibst Du, dass schon 4 Threads reichen, um Vorteile bei unganged zu haben, jetzt gibts auf einmal keine mehr ...

So langsam wirst du wirklich ziemlich unsachlich. Lies die Beiträge und nur das, was auch wirklich dort steht. Ich habe nichts von Vor- oder Nachteilen geschrieben, sondern Unterschieden.

Opteron schrieb:
Ich schreib von Anfang an, dass ich der Meinung bin, dass durch über Triple Channel nicht nur die BW, sondern auch die Latenz besser wird

Uninteressant für mich. Ich habe dir nur meine Einschätzung zur Bandbreite gesagt. Latenz kann man noch nicht so richtig abschätzen. Aber selbst, wenn es dort Verbesserungen geben sollte, müsste dir klar sein, dass wir hier nicht über gravierende Unterschiede sprechen, siehe K10.

Opteron schrieb:
Das versteh ich als rhetorische Fragem mit der Du klarmachen willst, dass alles nur wg. QPI kommt, oder war das anders gemeint ?

Ja, war es. Ich habe es doch auch noch mal etwas ausführlicher erklärt. Es war jedenfalls nicht gemeint, dass QPI die Ursache ist. Das ist nur Mittel zum Zweck.

Opteron schrieb:
NUMA verhindert sowas

NUMA regelt doch nur die Prozessorkommunikation. Aber nicht das, was der Prozessor mit den Daten anschliessend macht. NUMA verhindert jedenfalls nicht, dass durch einen angebundenen Prozessor der Druck auf die Bandbreite erhöht wird.
Aber um das Thema meinerseits zu beenden, frage am besten Intel, was sie sich bei Triple Channel gedacht haben und was es bringen soll. Bis auf irgendwelches synthetische Geplänkel zeigen praxisnahe Tests bisher jedenfalls keine wirklichen Vorteile. Und das ist plausibel und wird sich bei Single Sockel Systemen auch nicht ändern, imo.

Opteron schrieb:
Ist ja schön und gut, aber Du hast da doch auch wieder nur 1 Daten Set, dass ganz / teilweise duch den gemeinsamen L3 gepuffert wird, oder ?

Das ist nicht der springende Punkt. Die Anzahl und Grösse der Datensets kannst du doch wählen, wie du lustig bist. Vielleicht mag da aber auch mein Denkradius als Programmierer etwas grösser sein.

Letztendlich ist entscheidend, wie schnell Daten verarbeitet werden und wieder neu angefordert werden müssen. Ein Datenset ist doch nur für ein konkretes Szenario bedeutsam.
Aber abgesehen davon, ein Datenset kann theoretisch erstmal schneller verarbeitet werden als mehrere. Ohne ins Detail zu gehen, das hat was mit sequentiellem und random Speicherzugriff zu tun. Insofern erhöht sich dann auch der Druck auf die Bandbreite, je weniger Datensets. Du gehst davon aus, dass die Grösse eines Datensets immer viel kleiner ist als das von mehreren und sogar in den L3 passt. Aber wie schon erwähnt, das ist doch nur ein konkretes Szenario. Du sprichst von 8 Instanzen mit jeweils 100 MB. Was hindert dich daran, eine Instanz mit 2 GB zu füttern? Alles eine Frage des Algorithmus und der Parameter. Und gerade die eingebauten Benchmark Tools diverser Packer oder Cipher nähern sich dieser extremen Datenlast recht gut an, ohne dass Flaschenhälse wie Festplatten ausbremsen. Und das bringt mich wieder zu meiner ursprünglichen Aussage diesbezüglich zurück. Wenn solche Tools keine wirklichen Unterschiede zeigen, ist das bei anderen Anwendungen wie BOINC sehr wahrscheinlich auch nicht anders.

Opteron · 05.11.2008

mr.dude schrieb:
So langsam wirst du wirklich ziemlich unsachlich. Lies die Beiträge und nur das, was auch wirklich dort steht. Ich habe nichts von Vor- oder Nachteilen geschrieben, sondern Unterschieden.

Ist ja auch kein Wunder, Du machst nen verwirrten Eindruck:
Das hier hast Du gestern um 16:59 geschrieben:

Immerhin reichen auch 4 Kerne ohne SMT [um] unganged ordentlich auszureizen.

Also dort wo ich herkomme versteht man "ordentlich ausreizen" als vorteilhaft ... entweder das ist bei Dir anders, oder Du kannst Dich nicht mehr dran erinnern. Gut, ist schon spät ... könnte ich noch verstehn, aber dann wärs besser, wenn Du ne ordentliche Mütze schlaf nimmst, und erst morgen wieder schreibst. Bringt ansonsten nichts

Uninteressant für mich. Ich habe dir nur meine Einschätzung zur Bandbreite gesagt.

Jo und deswegen hab ich Dir schon ganz zu Anfang gesagt, dass Du die Latzen nicht vergessen solltest

Latenz kann man noch nicht so richtig abschätzen.

Richtig, warten wir deshalb mal die Messungen ab

Aber selbst, wenn es dort Verbesserungen geben sollte, müsste dir klar sein, dass wir hier nicht über gravierende Unterschiede sprechen, siehe K10.

Tja .. K10 hat aber halt nur 4 Threads .. da ist da Gedränge am MC nur halb so groß wie beim i7.

NUMA regelt doch nur die Prozessorkommunikation.

Numa hat nix mit der Kommunikation zu tun, das macht alleine QPI bzw. das MESIF Protokoll. NUMA regelt, in welchem Teil des RAM Speichers die Daten stehen: Kurz wo. Daten die häufig von einer CPU benutz werden, werden auch in dessen RAM-Teil gespeichert. Interprozzessorkommunikation wird damit auf ein Mindestmaß begrenzt. Ausser Du hast ein Riesen Datenset ohne bestimmte CPU Affinität.

NUMA verhindert jedenfalls nicht, dass durch einen angebundenen Prozessor der Druck auf die Bandbreite erhöht wird.

Eben schon

Siehe oben ...

Aber um das Thema meinerseits zu beenden, frage am besten Intel, was sie sich bei Triple Channel gedacht haben und was es bringen soll. Bis auf irgendwelches synthetische Geplänkel zeigen praxisnahe Tests bisher jedenfalls keine wirklichen Vorteile. Und das ist plausibel und wird sich bei Single Sockel Systemen auch nicht ändern, imo.

Passt schon, RWT ist da eine Bank, der i7 Controller ist ungangend, Schluss, aus, fertig

Dem Kollegen da glaub ich alles, Anfrage an Intel ist von meiner Seite deshalb unnötig

Du gehst davon aus, dass die Grösse eines Datensets immer viel kleiner ist als das von mehreren und sogar in den L3 passt.

Nicht ganz, ich gehe davon aus, dass ein beliebig großes Datenset in kleine Teile zerlegt wird und das dann häppchenweise an die Kerne verteilt & abgearbeitet wird. Programmierer sind bekanntermaßen ja nicht doof

Ist natürlich der absolute Best Case, aber dieser Best Case kann Dir mit 8 unabhänigen Datensetzt gar nicht erst passieren, deswegen trau ich den bisher getesteten Sachen nicht

Aber wie schon erwähnt, das ist doch nur ein konkretes Szenario. Du sprichst von 8 Instanzen mit jeweils 100 MB. Was hindert dich daran, eine Instanz mit 2 GB zu füttern? Alles eine Frage des Algorithmus und der Parameter.

Klar, aber QMC ist halt nunmal im Moment so, wenns nur 2 MB wären, würde mich die Leistung auf Nehalem & Triple IMC nicht interessiern

Wenn solche Tools keine wirklichen Unterschiede zeigen, ist das bei anderen Anwendungen wie BOINC sehr wahrscheinlich auch nicht anders.

Siehste, bist Dir auch nicht 100% sicher

Ich bin mir ebenfalls nicht 100% sicher, dass es was bringt, also warten wir mal beide die Tests ab

Vielleicht haben wir ja Glück und dbode hat schon die Muse für nen Dual Channel Bench

Falls nicht müssen wir halt noch n bisschen länger warten. In jedem Fall wärm ich den Thread hier wieder auf, wenn ich was höre

ciao & gute Nacht

Alex

CyLord · 05.11.2008

Der Nehalem ist ganged und setzt auf Tripple-Channel. (sieht man doch an der Bandbreite) Der Deneb wird dann ein 2x128-Bit-Speicherinterface zulassen. Das mit Realworld - das kaufe ich denen nicht ab. Dann müsste der Speichercontroller zwischenzeitlich zwischen ganged und unganged, hin- und herschalten können.

hydrotoxin · 05.11.2008

Huh? Was sagst du?? 2x128bit das wäre ja doppelt soviel wie bisher

Dann müsste der Speichercontroller zwischenzeitlich zwischen ganged und unganged, hin- und herschalten können.

Was meinst du?

CyLord · 05.11.2008

Der Nehalem hat ja bisher gezeigt, was er für eine große Speicherbandbreite er besitzt. Von meiner Logik kann das bloß auf ein Ganged-Speicherinterface hindeuten. Wenn er unabhängige Speicherkanäle besitzen soll, dann wäre ja bloß ein automatisches Umschalten von "ganged" auf "unganged" möglich und das würde sicher nicht sehr stabil funktionieren. Oder sind die Everest-Benchmarks Mist?

Opteron · 05.11.2008

CyLord schrieb:
Der Nehalem hat ja bisher gezeigt, was er für eine große Speicherbandbreite er besitzt. Von meiner Logik kann das bloß auf ein Ganged-Speicherinterface hindeuten.

Wie besagt, es gibt keine 192bit Speicheroperator-Befehle, nen ganged Triple Channel könnte man gar nicht ansprechen ... sowas wäre genauso sinnvoll wie ein Ferrari mit ner festen Drossel auf 30 km/h. Abgesehen davon sollte klarsein, dass ne 3x64bit Bandbreite keine schlechten Bandbreite liefert

Oder sind die Everest-Benchmarks Mist?

Jo das sowieso, sogar Sandra ist besser, kurz: aktullen Synths können Nehalem nicht auslasten. Optimal wäre ein Testlauf mit dem Multithreaded Rightmark Memory Analyzer:
http://www.digit-life.com/articles2/cpu/rmma-general-3-add7.html

ciao

Alex

mr.dude · 05.11.2008

Opteron schrieb:
Also dort wo ich herkomme versteht man "ordentlich ausreizen" als vorteilhaft ...

Dort wo ich herkomme, versteht man darunter aber keine solche Bewertung. "Ausreizen" heisst für mich immer noch, dass etwas entsprechend seiner Funktionalität maximal genutzt wird. Ob das jetzt schneller, langsamer, besser, schlechter oder was auch immer ist, wird da jedenfalls nicht impliziert.

Opteron schrieb:
Tja .. K10 hat aber halt nur 4 Threads .. da ist da Gedränge am MC nur halb so groß wie beim i7.

Beim K10 kommen theoretisch 2 Threads auf einen Kanal. Bei Nehalem kommen theoretisch 2,66... Threads auf einen Kanal. Deshalb, wie ich schon sagte, sind die Vorteile maximal relativ, aber nicht absolut. Oder anderes formuliert, die Vorteile, die K10 durch unganged haben kann, nehmen bei Nehalem ab, nicht zu. Oder um bei deinen Worten zu bleiben, das Gedränge am MC ist grösser. Irgendwie habe ich das Gefühl, du willst nicht verstehen, was nicht ins Bild passt.

Opteron schrieb:
Numa hat nix mit der Kommunikation zu tun, das macht alleine QPI bzw. das MESIF Protokoll. NUMA regelt, in welchem Teil des RAM Speichers die Daten stehen

Und das gehört zur Kommunikation auf Protokollebene. Jetzt werde mal nicht so überspitzt. Es sollte doch wohl klar geworden sein, was gemeint ist.

Opteron schrieb:
Eben schon Siehe oben ...

Nein. Du solltest schon beim Kontext bleiben. Es ging, um nochmal beim obigen Beispiel zu bleiben, um (1.) Prozessor A ohne irgendwas und (2.) Prozessor A mit angebundenem Prozessor B. NUMA sorgt lediglich dafür, dass für den 2. Fall die Kommunikation verringert wird.

Opteron schrieb:
Nicht ganz, ich gehe davon aus, dass ein beliebig großes Datenset in kleine Teile zerlegt wird und das dann häppchenweise an die Kerne verteilt & abgearbeitet wird.

Das spielt hier aber keine Rolle. Diese Partitionierung ist doch nur die Konsequenz von Multithreading. Das hat mit der Bandbreite erstmal nichts zu tun. Was glaubst du, machen Streaming Algorithmen wie Packer oder Cipher? Die nehmen auch nur ein grosses Datenset und splitten das in mehrere kleine auf. Oder nehmen halt gleich mehrere kleinere. Je nach Szenario.

CyLord schrieb:
Der Nehalem hat ja bisher gezeigt, was er für eine große Speicherbandbreite er besitzt. Von meiner Logik kann das bloß auf ein Ganged-Speicherinterface hindeuten.

Ich weiss nicht, gibt es Single- und Multi-Threaded Bandbreitentests? Daran müsste man ja eigentlich recht gut sehen, ob ganged oder unganged. So wie ich die Quelle von Opteron interpretiere, hat Nehalem lediglich einen Betriebsmodus, unganged (3x 64 Bit).

hydrotoxin · 05.11.2008

Müsst ihr so lange posts machen? :fresse:

Ich weiss nicht, gibt es Single und Multi-Threaded Bandbreitentests? Daran müsste man ja eigentlich recht gut sehen, ob ganged oder unganged. So wie ich die Quelle von Opteron interpretiere, hat Nehalem lediglich einen Betriebsmodus, unganged (3x 64 Bit).

Ich weiß Everest-Benchmark ist ziemlicher mist, aber eben dort werden dem Nehalem gute werte eingeräumt, wobei Everest doch Singlethreaded ist.... Lässt eher auf ganged schließen

Opteron · 05.11.2008

mr.dude schrieb:
Dort wo ich herkomme, versteht man darunter aber keine solche Bewertung. "Ausreizen" heisst für mich immer noch, dass etwas entsprechend seiner Funktionalität maximal genutzt wird. Ob das jetzt schneller, langsamer, besser, schlechter oder was auch immer ist, wird da jedenfalls nicht impliziert.

Ok, angekommen, was sagst Du dann unter andrem im Hintergrund der AMD Folie und deren "Waste" zu so einer Aussage:
"4 Threads können einen ganged Speicherkontroller des K10 nicht ausreizen"
Laut AMD gibts da ja "Waste", d.h. die Speicherkontroller können nicht am Maximum operieren. [Dass das speicherintensive threads sind, versteht sich von selbst

]

Beim K10 kommen theoretisch 2 Threads auf einen Kanal. Bei Nehalem kommen theoretisch 2,66... Threads auf einen Kanal. Deshalb, wie ich schon sagte, sind die Vorteile maximal relativ, aber nicht absolut. Oder anderes formuliert, die Vorteile, die K10 durch unganged haben kann, nehmen bei Nehalem ab, nicht zu. Oder um bei deinen Worten zu bleiben, das Gedränge am MC ist grösser. Irgendwie habe ich das Gefühl, du willst nicht verstehen, was nicht ins Bild passt.

Jaaa, absolut richtig, darauf will ich doch die ganze Zeit raus ... mit Triple Channel ist das Thread:IMC Verhältnis 8:3 oder eben 1:2,66; richtig. Wenn der letzte, 3te Kanal aber wie von Dir angenommen überflüssig wäre, dann wären wir bei 8:2, oder 4:1.

Sehr unwahrscheinlich, dass sich alle Schreib/Lesewünsche der 4 Threads mit einer einzigen Speicheroperation unter einem Hut bringen lassen -> die Latenz steigt, da die einen Schreiboperation warten müssen, bis die andren übrig sind. Worst Case wären 4 einzelne Ramzugriffe.

Um die Latenz in den Griff zu bekommen, hat Intel jetzt den 3ten Kanal mit aufgenommen, um die Rate wieder auf erträgliche 1:2,66 senken zu können.
Behaupte ich zumindest

Messen kann man das natürlich nur unter heavy load, dass die ganzen Desktop - Testprogramme keinen Vorteil davon haben, wundert mich nicht.

Und das gehört zur Kommunikation auf Protokollebene. Jetzt werde mal nicht so überspitzt. Es sollte doch wohl klar geworden sein, was gemeint ist.

Nach obigen Semantikproblem, bin ich mit dem "sollte klar sein was gemeint ist" eher noch vorsichtiger geworden

Nein. Du solltest schon beim Kontext bleiben. Es ging, um nochmal beim obigen Beispiel zu bleiben, um (1.) Prozessor A ohne irgendwas und (2.) Prozessor A mit angebundenem Prozessor B. NUMA sorgt lediglich dafür, dass für den 2. Fall die Kommunikation verringert wird.

Mit andren Worten:
"NUMA verhindert, dass durch einen angebundenen Prozessor der Druck auf die Bandbreite erhöht wird, da die Kommunikation verringert wird."

Das stünde dann im Gegensatz zu Deiner Aussage:

NUMA verhindert jedenfalls nicht, dass durch einen angebundenen Prozessor der Druck auf die Bandbreite erhöht wird.

Ich sehe schon, da ist sicher wieder ein Definitionsproblem

Vielleicht sollte man das Beispiel enger definieren, ich mache mal ein AMD 2P Beispiel. Wenn was nicht zu Deinem Fall passt, bitte bescheid geben

CPU0:
Opteron 2350, mit lokalen 4 GB RAM
CPU1:
Opteron 2350, mit lokalen 4 GB RAM

System RAM Total: 8 GB, Festplatten, I/O et. sind an CPU0 über den zweiten HTr Anschluss angebunden.

So jetzt der NUMA Fall a):
Jede CPU hat die Datensets, an denen gearbeitet wird im eigenen, lokalen RAM, Fremd-RAM Zugriffe belaufen sich auf ein Minimum, CPU1 belastet den I/O Hypertransportanschluss etwas für I/O / Festplattenaktivitäten.

NUMA ist deaktiviert, NODE interleave ist an Fall; b)
Node interleave bedeutet, dass der homogene, gesamte RAM Speicher, ähnlich wie bei Festplatten RAID 0 in Schnipsel (heißt bei RAID 0: stripes) aufgeteilt wird. Nehmen wir mal ne Stripegröße von 1MB an, dann bedeutet, dass, dass die ersten 1 MB des Hauptspeichers im lokalen RAM von CPU0 sind, die zweiten sind bei CPU1, das 3MB wieder bei CPU0 usw. usf.

In so ner Betriebsart kann könnte man annehmen, dass Intel den 3ten Kanal für den Mehrkernbetrieb vorgesehen hat, da Fremd-RAM Zugriffe die Regel sind. Aber das ist dann kein NUMA mehr, über das wir eigentlich sprachen ...

Das spielt hier aber keine Rolle. Diese Partitionierung ist doch nur die Konsequenz von Multithreading. Das hat mit der Bandbreite erstmal nichts zu tun.

Mit der Bandbreite nicht, aber mit der Cache-fähigkeit.

Ich weiss nicht, gibt es Single- und Multi-Threaded Bandbreitentests? Daran müsste man ja eigentlich recht gut sehen, ob ganged oder unganged. So wie ich die Quelle von Opteron interpretiere, hat Nehalem lediglich einen Betriebsmodus, unganged (3x 64 Bit).

Gibts bei RMMT, Link siehe oben, bei evererst & Sandra kann man nur spekulieren, was die machen, ich schätze stark, dass Sandra mth. ist, everrest nur single th.
Blöd nur, dass noch kein mit RMMT gemessen hat

@hydroxin:

Ich weiß Everest-Benchmark ist ziemlicher mist, aber eben dort werden dem Nehalem gute werte eingeräumt, wobei Everest doch Singlethreaded ist.... Lässt eher auf ganged schließen

Everest ist single thread genau, da kann gar nicht mehr als 128bit gelesen werden -> Der 3te Kanal ist messtechnisch überflüssig. Die Werte sind nicht schlecht .. ja, v.a. verglichen mit den alten Intel FSB CPUs, aber wirklich gute Werte für nen Triple IMC unter Vollast sähen anders aus, die sehe ich z.Zt. eher bei Sandra .. das scheint immerhin schon multithreaded zu sein:
http://www.forumdeluxx.de/forum/showpost.php?p=10503382&postcount=59

ciao

Alex

mr.dude · 05.11.2008

Opteron schrieb:
"4 Threads können einen ganged Speicherkontroller des K10 nicht ausreizen"
Laut AMD gibts da ja "Waste", d.h. die Speicherkontroller können nicht am Maximum operieren.

Ist doch auch richtig, dass man mit dem unganged Modus in Multithreaded Szenarien mehr herausholen kann als mit ganged aufgrund der Asynchronität. Und mehr steht da im Grunde nicht. Worauf willst du denn hinaus?

Opteron schrieb:
Jaaa, absolut richtig, darauf will ich doch die ganze Zeit raus ... mit Triple Channel ist das Thread:IMC Verhältnis 8:3 oder eben 1:2,66; richtig. Wenn der letzte, 3te Kanal aber wie von Dir angenommen überflüssig wäre, dann wären wir bei 8:2, oder 4:1.

Ok, wenn du dich nur auf Nehalem selbst bezieht, ist das richtig und sollte auch klar sein. Ich habe es allgemein betrachtet, zB in Kontrast zum K10. Das Verhältnis dort ist immer noch besser. Aber wie schon gesagt, was eventuelle Latenzvorteile bei Triple Channel bringen, muss man abwarten. Mehr als zwischen K10 ganged und unganged sind jedenfalls unrealistisch, eher weniger. Und dann wären wir praktisch schon im Bereich der Messtoleranz.

Opteron schrieb:
Mit andren Worten:
"NUMA verhindert, dass durch einen angebundenen Prozessor der Druck auf die Bandbreite erhöht wird, da die Kommunikation verringert wird."

Das stünde dann im Gegensatz zu Deiner Aussage:

NUMA verhindert jedenfalls nicht, dass durch einen angebundenen Prozessor der Druck auf die Bandbreite erhöht wird.

Zum Vergrößern anklicken....

IM VERGLEICH ZU EINEM SYSTEM OHNE ANGEBUNDENEN PROZESSOR B! (wie Bloomfield) Bist du wirklich so schwer von Begriff?

Da gibt es kein Definitionsproblem oder ähnliches. Es wurde alles unmissverständlich erläutert. Oder um es dir noch mal etwas zu veranschaulichen:

Code:

a = System mit einem Prozessor
b = System mit zwei Prozessoren w/ NUMA
c = System mit zwei Prozessoren w/o NUMA

Kommunikationsaufwand bzw Anforderungen an die Bandbreite: a < b < c

Es geht nicht darum, wie b und c konkret ausschauen und sich zueinander verhalten, sondern dass beide grösser als a sind. Den Rest hättest du dir damit auch sparen können.

[HOT] · 05.11.2008

Alle bisherigen Benchmarks, egal ob Anand, HT4U u.A. lassen definitiv auf ganged schließen. Wobei natürlich unganged nicht ausgeschlossen werden kann, ist wahrscheinlich dann auf den Xeons auch aktiv. Dass ein unganged-Controller auch ganged kann, sollte auf der Hand liegen.

Opteron · 05.11.2008

mr.dude schrieb:
Ist doch auch richtig, dass man mit dem unganged Modus in Multithreaded Szenarien mehr herausholen kann als mit ganged aufgrund der Asynchronität. Und mehr steht da im Grunde nicht. Worauf willst du denn hinaus?

Dass Du somit zugibts, dass unganged einen Vorteil gegenüber ganged hat ["Zitat: Mehr herausholen kann"], was Du weiter oben aber noch abgestritten hast:

Ob das jetzt schneller, langsamer, besser, schlechter oder was auch immer ist, wird da jedenfalls nicht impliziert.

So wies ausschaut hast Du das aber nun doch (unbewusst) impliziert, dass es einen Vorteil mit unganged gibt. Entweder warst Du Dir darüber also anscheinend nicht im Klaren, oder Du hast es einfach abgestritten.
Sehr interessante Situation auf alle Fälle.

Der Sachverhalt ist klar, unganged hat nen Vorteil vor ganged (im angesprochenen Szernario), was andres behaupt ich gar nicht und Du eigentlich auch nicht, zumindest unbewusst

Mehr als zwischen K10 ganged und unganged sind jedenfalls unrealistisch, eher weniger. Und dann wären wir praktisch schon im Bereich der Messtoleranz.

Jo das ist wohl unser Hauptreibepunkt, Du sagst weniger, ich sag mehr, warten wir die Messungen ab.

IM VERGLEICH ZU EINEM SYSTEM OHNE ANGEBUNDENEN PROZESSOR B! (wie Bloomfield) Bist du wirklich so schwer von Begriff?

Wenns so krude, wie zuvor, erklärt wird, ja

Es wurde alles unmissverständlich erläutert.

Äh .. nein:

Stelle dir doch einfach mal die Arbeitsweise dieser Anbindungen grob vor. Mit einem Prozessor, nennen wir ihn A, kommunizierst du mit Chipsatz und RAM. Mit einem angebundenen Prozessoren B kommt weitere Datenlast über den zweiten QPI Link für A hinzu. Und woher kommen bzw landen diese Daten? Entweder Cache oder RAM. Prozessor A muss also die eigenen Daten und die Daten von Prozessor B vom und zum RAM schaufeln können. DESHALB wird die Bandbreite vergrössert. Nicht weil Prozessor A jetzt plötzlich so viel mehr verarbeiten kann, SMT hin oder her.

Da steht nur was von ner CPU A, die mit ner CPU B verbunden ist .. dass Du nem single CPU Betrieb von A ausgehst, hast Du Dir vielleicht gedacht, aber nicht geschrieben.
Später hast Dus dann nochmal probiert:

(1.) Prozessor A ohne irgendwas und (2.) Prozessor A mit angebundenem Prozessor B

Aber da ist nicht klar, was Du mit "irgendwas" meinst. RAM, I/O, Prozessor B, alles zusammen ? Prozessor B liegt nahe, ja, aber ich glaub es versteht jeder, dass ich sehr vorsichtig bei dem bin, was Du schreibst, meinst, oder glaubst zu schreiben und deshalb lieber doppelt nachfrage.

Die letzte Aufstellen ist jetzt topp (wieso nicht gleich so

):

Code:

a = System mit einem Prozessor
b = System mit zwei Prozessoren w/ NUMA
c = System mit zwei Prozessoren w/o NUMA

Kommunikationsaufwand bzw Anforderungen an die Bandbreite: a < b < c

Alles klar, kurz prägnant, unzweideutig, und zustimmen tue ich auch

Um zum Thema zurückzukommen, und es zusammenzufassen:

Du behauptest, dass der 3te IMC/Kanal bei a) nichts bringt, und nur bei b) und c) Vorteile bietet;
ich behaupte, dass der unter (sehr) starker Last auch bei a) was bringt, richtig ?

Wissen tut keiner wirklich was -> Messungen abwarten.

@[HOT]

Alle bisherigen Benchmarks, egal ob Anand, HT4U u.A. lassen definitiv auf ganged schließen.

Blöde Frage: Wieso ?

Bitte etwas mehr als Überzeugungsarbeit

"Definitiven" Aussagen ohne Beweis / Begründung glaube ich spätestens seit der AMD Barcelona Launch nicht mehr :xmas:

Falls Du es bereits früher begründet hast, dann bitte Link zum Thread / Beitrag, hab ich noch nicht gesehen / gelesen.

ciao

Alex

mr.dude · 05.11.2008

Opteron schrieb:
Dass Du somit zugibts, dass unganged einen Vorteil gegenüber ganged hat ["Zitat: Mehr herausholen kann"], was Du weiter oben aber noch abgestritten hast:

So wies ausschaut hast Du das aber nun doch (unbewusst) impliziert, dass es einen Vorteil mit unganged gibt. Entweder warst Du Dir darüber also anscheinend nicht im Klaren, oder Du hast es einfach abgestritten.

Sry, aber du scheinst echte Verständnisprobleme zu haben. Was du hier implizierst, interpretierst, vermutest oder was auch immer, steht nirgendwo und habe ich auch nicht gesagt. Lies bitte nur das, was auch geschrieben wurde. Um es nochmal unmissverständlich zu sagen, ich habe nirgendwo behauptet, dass unganged gegenüber ganged keine Vorteile bei Multithreading hat.

Opteron schrieb:
Da steht nur was von ner CPU A, die mit ner CPU B verbunden ist .. dass Du nem single CPU Betrieb von A ausgehst, hast Du Dir vielleicht gedacht, aber nicht geschrieben.

Das war doch aber die Grundvoraussetzung, von der wir seit zwei Threads ausgehen -> Bloomfield. Worüber redest du denn dann die ganze Zeit?

Opteron schrieb:
Aber da ist nicht klar, was Du mit "irgendwas" meinst. RAM, I/O, Prozessor B, alles zusammen ?

Ohne Prozessor B? Stell dich bitte nicht dümmer als notwendig. Wir reden immer noch von funktionstüchtigen Systemen. Das dürfte ohne RAM oder I/O Hub kaum möglich sein. Oder was meinst du?

Opteron schrieb:
Du behauptest, dass der 3te IMC/Kanal bei a) nichts bringt, und nur bei b) und c) Vorteile bietet;
ich behaupte, dass der unter (sehr) starker Last auch bei a) was bringt, richtig ?

Nichts nur. "bei a) nichts bringt" und Punkt. Ansonsten ist das wohl der Stand der Dinge. Solange wir über Bandbreite sprechen.

[HOT] · 05.11.2008

Opteron schrieb:
[...]
@[HOT]
Blöde Frage: Wieso ? Bitte etwas mehr als Überzeugungsarbeit
"Definitiven" Aussagen ohne Beweis / Begründung glaube ich spätestens seit der AMD Barcelona Launch nicht mehr

Falls Du es bereits früher begründet hast, dann bitte Link zum Thread / Beitrag, hab ich noch nicht gesehen / gelesen.

ciao

Alex

Ganz einfach: Beide ermittelten keinen Latenzvorteile für 2 oder 3 Kanäle, auch bei MT nicht. Ht4U ermittelte sogar Latenznachteile bei 2 und 3 Kanälen. Bei den C0 auf 1366 reagiert der MC nur auf Bandbreite.

Opteron · 05.11.2008

mr.dude schrieb:
Sry, aber du scheinst echte Verständnisprobleme zu haben.

Mit Dir definitiv

Wenn ich ne ruhige Stunde habe, les ich mal nochmal drüber, vielleicht versteh ich Deine Gedankengänge dann besser

Das war doch aber die Grundvoraussetzung, von der wir seit zwei Threads ausgehen -> Bloomfield. Worüber redest du denn dann die ganze Zeit?

Wir reden über nen LGA1366 Prozessor. Zuerst also mal Bloomfield, die 1P CPU für "Enthusiasten". In Deinem Beispiel war aber nicht klar, dass Du 2 unterschiedliche Systeme meinst. Nachdem ich "verbunden" gelesen habe, ist klar, dass Du nicht mehr auf der 1P sondern auf der 2P Schiene (also kein Bloomfield mehr) unterwegs bist.
Hättest das gleich so schön mit Sys a), Sys b) ... hingeschrieben hätte es gepasst

Ohne Prozessor B? Stell dich bitte nicht dümmer als notwendig. Wir reden immer noch von funktionstüchtigen Systemen. Das dürfte ohne RAM oder I/O Hub kaum möglich sein. Oder was meinst du?

Ich war mir nicht sicher, ob Du aus irgendwelchen Gründe auf ein Nehalem 2P UMA System raus willst, also eine CPU komplett ohne eigenen, lokalen Speicher, die andauernd über QPI aufs RAMs der zweiten CPU zugreift. Das ist funktionstüchtig, in den ersten Opteron Jahre gabs sogar ziemlich viele Opteron 2P boards damit. Für single Cores macht das auch noch nicht viel aus.

Nichts nur. "bei a) nichts bringt" und Punkt.

Ok, also der 3te IMC bringt bei a) nichts,

bei Systemen b) und c) läßt Dus offen.

Warten wir auf die Messungen

@Hot:
Welche "MT Programme" ? Soviel Unterschied gibts bei den 08/15 Desktopprogrammen nicht. Die mögen MT sein, aber (random) Speicherzugriffe haben selbst da Seltenheitswert.

Serveranwendungen bzw. Tests hab ich keine, Spec wäre wohl interessant, das ist auch nurmehr ein besserer Speicherbench, aber da gäbs mit nur 2 statt 3 Kanälen wohl wieder RAM Ausbauprobleme. Deswegen zum quick & dirty Test 8x boinc, da gibts zumindest mal sicher 8 Querbeet Anfragen und davon ne Menge

Wobei die ein MC / Prefetch Logic) wohl teilweise auch Bündlen kann. Naja abwarten.

Die Latenztests von Everest sind single threaded. Da ist die gemessenen, höhere Latenz imo eher ein Zeichen des unganged Betriebs, da der Verwaltungsaufwand ansteigt. Irgendeine Logik muss die Schreib/LeseOperationen ja auf-/verteilen, des entfällt bei ganged natürlich, da gibts nur ne Warteschlange. Beim K10 steigt die Everestlatenz im unganged Betrieb z.B. auch an:

Erstbester google Treffer:

MODE_____READ_____WRITE_____COPY_____NS

Ganged:___8126______5735_____8562______55.3
Unganged:_7612______5815_____8526______57.2

http://www.xtremesystems.org/forums/showpost.php?p=2929338&postcount=157

Man könnte spekulieren, dass der IMC bei den Testsys. mit Dual Channel Bestückung im ganged Modus arbeitet, mit 3 dann aber unganged. Wäre imo im Moment die plausibelste Erklärung, aber das ist nur mein persönlicher Spekulatius beweisen kann ichs nicht

ciao

Alex

Speicherkontroller des Nehalem: unganged, oder ganged ?

Semiprofi

Enthusiast

Urgestein

Enthusiast

Urgestein

Semiprofi

Urgestein

Semiprofi

Urgestein

Semiprofi

Urgestein

Semiprofi

Semiprofi

Urgestein

Semiprofi

Enthusiast

Enthusiast

Enthusiast

Semiprofi

Urgestein

Enthusiast

Semiprofi

Urgestein

Enthusiast

Semiprofi

Urgestein

Enthusiast

Semiprofi