Blockdiagramm vergleicht "Excavator"- und "Zen"-Kerne (2. Update: Neue Roadmaps)

Fdsonne es ist doch garnicht so kompliziert.

Mr.dude und ich sprechen die ganze zeit von FX4300 & Kaveri. Das sind beides 2 Moduler mit gleichem Turbo takt und bis auf 100mhz auch gleichen Normal Takt.
Ergo der Perfekte vergleich für die leistungsfähigkeit. Und in der Praxis ist ein FX4300 einfach schneller.
Daher bin ich der meinung, der Theoretische IPC Vorteil von Kaveri relativiert sich durch den fehlenden L3. Das ist doch nicht so kompliziert.
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Mr.dude und ich sprechen die ganze zeit von FX4300 & Kaveri. Das sind beides 2 Moduler mit gleichem Turbo takt und bis auf 100mhz auch gleichen Normal Takt.
Ergo der Perfekte vergleich für die leistungsfähigkeit. Und in der Praxis ist ein FX4300 einfach schneller.

Ich meinte damit eher die Vergleiche ggü. Intel, die du mehrfach oben auch gezogen hast ;)
 
Naja, 5% mehr IPC(ycle) bei 40% weniger Energieverbrauch und 23% kleiner als Kaveri klingt jetzt nicht so schlecht:



Im Mobil Bereich will man wohl 25x (mal) effizienter sein... :cool:
 
Ich meinte damit eher die Vergleiche ggü. Intel, die du mehrfach oben auch gezogen hast ;)

okay :)

Ja CMT mit SMT CPU,s zu vergleichen ist nicht so sinnig.

Der Wunsch von uns AMD usern war ja immer, das der Bulldozer die Nehalem Single Thread IPC erreicht, weil die Modulbauweise nur das als Nachteil hatte.
 
Fdsonne es ist doch garnicht so kompliziert.

Mr.dude und ich sprechen die ganze zeit von FX4300 & Kaveri. Das sind beides 2 Moduler mit gleichem Turbo takt und bis auf 100mhz auch gleichen Normal Takt.


Blätter mal eine Seite zurück, DU sprichst von FX4300 vs. Kaveri, mr.dude macht dir eigentlich sofort klar, dass das sinnlos ist, denn der L3 Cache das Ergebnis verfälscht.

Ergo der Perfekte vergleich für die leistungsfähigkeit. Und in der Praxis ist ein FX4300 einfach schneller.

Ja richtig Leistungsfähigkeit, aber nicht IPC.
Aber für die Leistungsfähigkeit kommen halt noch ein paar mehr Faktoren hinzu ;)

Daher bin ich der meinung, der Theoretische IPC Vorteil von Kaveri relativiert sich durch den fehlenden L3. Das ist doch nicht so kompliziert.

Jain, es ist ja nicht nur der L3 Cache unterschiedlich, es sind zwei völlig verschiedene Plattformen:
- unterschiedliche TDP, bzw keine GPU in der gleichen TDP
- unterschiedliche uncore Taktraten
- unterschiedliche Chipsätze mit unterschiedlichen Anbindungen
- usw.

Deswegen wurde dir auch nahegelegt, das ganze auf der gleichen Plattform (FM2+) zu betrachten ;) Man kann nicht einfach über die Kernarchitektur sprechen (was mr.dude klar getan hat) und dann das komplette System austauschen...

Die IPC lässt sich laut meinem Wissen bei gleichem Takt der CPU Kerne vergleichen.
ZB ein Single Core bei 1000 mhz vs einen Single Core bei 1000 mhz oder halt 2 Module vs 2 Module. Ergo mache ich doch nichts falsch.

So weit stimmt das, aber du verwendest die falschen Anwendungen um die IPC zu bestimmen, bzw. gibst dem Ergebnis den falschen Namen.
Zur IPC Bestimmung nutzt man mikrobenchmarks, die idr. nur im L1-L2 Cache laufen um eben störende Faktoren auszuschließen. Nutze ich dafür Spiele, dann messe ich die Spieleleistung der gesammten Plattform und eben nicht die IPC der Kernarchitektur.

Ergo habe ich nichts falsches geschrieben und war im Kontext, denn der FX4300 und Kaveri laufen bei ca gleichem Takt, und der FX4300 ist schneller.
Wenn man jetzt die 100mhz mehr die der FX4300 hat abzieht, wird sich am ergebniss nicht groß was ändern, dann ist der FX4300 höchstens nicht mehr schneller, sondern genau so schnell.

Doch, denn du hast die Spiele/Anwendungsleistung als IPC verkaufen wollen.

okay :)

Ja CMT mit SMT CPU,s zu vergleichen ist nicht so sinnig.

Der Wunsch von uns AMD usern war ja immer, das der Bulldozer die Nehalem Single Thread IPC erreicht, weil die Modulbauweise nur das als Nachteil hatte.

Du musst wirklich lernen, zu differenzieren und mit den Begrifflichkeiten umzugehen.
Die "Modulbauweise" (=CMT?) hat theoretisch keine singlethreaded-IPC Nachteile gegenüber SMT oder CMP. Ausnahmen sind die shared Medien, die im multithreaded Betrieb geteilt werden.

Die Nachteile die du ansprichst sind der Implementierung in Bulldozer geschuldet und haben CMT eigentlich nichts zu tun.
 
Legt doch nicht alles auf die Goldwaage.

Es mag sein das es eine IPC Steigerung von 20% gab, jedoch im Endeffekt (ausserhalb von Microbenchmarks) rein theoretischer Natur ist das sie in der Praxis beim Endanwender nicht zur Geltung kommt.
Nighteye meint das dies eventuell auf den fehlenden L3 Cache zurückzuführen ist was nunmal eine Berechtige Vermutung sein könnte.

Auch finde ich es albern L3 Cache plötzlich aus den Design rauszurechnen. Der Cache alleine benötigt Platz. Platz der die gesamte Anordnung der Kerne und Anbindungen beeinflusst.
Das gleiche mit den igpu Teil welcher die Prozessorleistung beeinflusst, wird der auch bald rausgerechnet um den Geschwindigkeit theoeretisch zu bestimmen?
Man muss das gesamte Paket betrachten und kann sich nicht die Rosinen raussuchen.

Auch darf man nicht den Fehler machen Intel mit AMD IPC Sprünge zu vergleichen wenn deren Grundwert gänzlich verschieden ist, ohne einen Ausgangswert sind %te nix Wert.
 
Es mag sein das es eine IPC Steigerung von 20% gab, jedoch im Endeffekt (ausserhalb von Microbenchmarks) rein theoretischer Natur ist das sie in der Praxis beim Endanwender nicht zur Geltung kommt.
Nighteye meint das dies eventuell auf den fehlenden L3 Cache zurückzuführen ist was nunmal eine Berechtige Vermutung sein könnte.

Wenn man sich CPU Leistungsmessungen zwischen Richland und Kaveri ansieht, dann erkennt man aber schon, dass der Sprung relativ groß ausfällt... ;)
Kaveri hat, wenn auch teils nur knapp, die Nase oftmals vorn. Und das trotz der geringeren Taktrate... Wenn der Takt also runter geht, beide keinen L3 Cache haben -> was den Vergleich möglich macht, warum dieses Ereignis nicht auch so hinnehmen?
Natürlich benötigt der L3 Cache Platz, wird möglicherweise die Anordnung der Cores/Module beeinflussen usw. usf. Aber unterm Strich lässt sich doch nur das vergleichen, was wir auch wirklich sehen? Fiktiv zusammengerechnete Werte aka Steamroller + L3 Cache gibts nunmal nicht zu kaufen. Macht also wenig Sinn, sowas ranzuziehen.

Und wenn am Ende der alte Piledriver mit L3 Cache ggü. einem Steamroller/Excavator ohne eben jenen L3 Cache im Schnitt die Nase vorn hat, dann ist das halt einfach so... Weswegen es den internen Fortschritt durch Überarbeitung der Architektur allerdings in keinstem Maße negativ beeinflusst... Wer mehr will, kann ja immernoch zu Intel greifen. Die Broadwell CPUs stehen doch direkt vor der Tür. Und in Sachen IGP Leistung sollte die Lücke zum Kaveri wenn überhaupt nur gering ausfallen ;) -> die CPU Power legt allerdings in Größenordnungen Faktor 1,5x und mehr zu...
 
Wenn man sich CPU Leistungsmessungen zwischen Richland und Kaveri ansieht, dann erkennt man aber schon, dass der Sprung relativ groß ausfällt... ;)
Kaveri hat, wenn auch teils nur knapp, die Nase oftmals vorn. Und das trotz der geringeren Taktrate... Wenn der Takt also runter geht, beide keinen L3 Cache haben -> was den Vergleich möglich macht, warum dieses Ereignis nicht auch so hinnehmen?

Keiner hat geleugnet das kaveri mehr IPC hat, und keiner hat geleugnet das kaveri schneller als richland ist.
Das was ich von anfang an Kritisiert habe, ist das der Bulldozer generell, nur wegen einer zu Schwachen Taktleistung in Games usw gegenüber Intel und Phenom II so in verruf geraten ist, und das war hauptsächlich der schwachen IPC geschuldet.

Und wenn AMD sich dann schon daran macht die IPC zu erhöhen damit der Bulldozer mehr Taktleistung in Spielen bekommt, sollte AMD ihn nach einer IPC Update Kur nicht wieder woanders verkrüppeln so das er wieder langsamer ist als vorher was ja mit dem Kaveri vs FX4300 klar wurde.

Und die Gründe von Unleashed finde ich albern. Das klingt so, als wäre der FX nur wegen der AM3+ Plattform schneller, aber de fakto ist die Plattform nicht schneller, und sogar stark veraltet.
AMD hätte einfach einen Steamroller mit L3 für AM3+ bringen sollen, ohne den scheiß iGPU schnick schnack. Dann hätten wir wohl wirklich 20% mehr Reale Leistung, und wären glücklich gewesen.

- - - Updated - - -

achja und ohne den scheiß iGPU schnickschnack wäre die Taktbarkeit höchstwarscheinlich auch noch besser geworden.
 
Zuletzt bearbeitet:
Es ist vollkommen sinnlos Kaveri mit dem FX4xxx von der IPC her zu vergleichen, da dort nicht nur der L3 hineingrätscht, sondern auch der NB-Takt, die generell abweichenden Taktraten, die integrierte GPU (im TDP-Büdget) und evtl. die Plattform (125W vs. 95W).
Wenn man Trinity mit Kaveri vergleicht (was ja auch nur bedingt geht) kommen die 5% mehr IPC schon hin, jedoch läuft auch Kaveri auf hohen Taktraten mit angezogener Handbremse bei 1,8GHz NB und der geteilten TDP. Wenn man das auf 2,5GHz miteinander vergleicht, könnte das schon wieder ganz anders zugunsten von Kaveri ausgehen.

Und noch was: Wenn AMD mehrere Dies zusammenbaut, sagen wir 4 8-Kern-Dies auf einen Interposer ist das absolut nicht zu vergleichen mit Intels Trägerlösungen bei Core2 oder so.

Nighteye
Wenn es einen 4-Module SR mit mehr NB-Takt gegeben hätte, wär der sicherlich auch deutlich schneller gewesen, aber was nützt das, wenn man die Spieleproblematik aufgrund des langsamen L2 und des viel zu kleinen L1 immer noch nicht gelöst hat. Bei Spielen spielt IPC gar nicht so die Rolle, aber die Flaschenhälse sind ja bei SR immer noch da. Man entschied sich halt das alles zu lassen und sich auf Zen zu konzentrieren, recht so. Ne entsprechende Plattform gabs ja auch nicht dafür.

Wirklich interessant dürfte der Vergleich von Carrizo zu Trinity sein, jedoch hat Carrizo ja die GPU-Transistoren, die verhindern, dass das Teil hoch getaktet werden kann. Carrizo hat aber offenbar doppelte L1D-Caches, was grade in Spielen einen deutlichen Boost bringen wird.
 
Zuletzt bearbeitet:
Bedenke halt aber auch dabei, dass die FM2+ Modelle nun nicht unbedingt auf maximal mögliche Performance abziehlen... Wäre dies so, dann hätten wir dort lange schon acht Thread CPUs (mit oder ohne GPU) im Programm... Man könnte meinen, die APU Geschichte zielt auf einen ganz anderen Markt ab, als die AM3+ Platform ;) Und bei AMD scheint es wohl eher so zu sein, dass man diesen Kompromis aktuell einfach eingehen muss. Denn AM3+ ist lange schon tot. Und FM2+ ist eben keine Performance Platform, was man an der Modellauswahl sieht...

Mit Zen sollte sich das zumindest dahingehend aber wieder ein Stück ändern. Schon allein, weil man (scheinbar) die gleiche Platform für die APU und CPU Reihe nutzen will.

Und noch was: Wenn AMD mehrere Dies zusammenbaut, sagen wir 4 8-Kern-Dies auf einen Interposer ist das absolut nicht zu vergleichen mit Intels Trägerlösungen bei Core2 oder so.

Neja, alles eine Frage der Anbindung... Das ein Core2/Pentium D, am FSB hängendes System nicht mit einer aktuellen Lösung 1:1 vergleichbar ist, ist logisch...

Das AMD sich im Opteron Umfeld aber schon heute mehrerer NUMA Nodes bedient um auf die Threads zu kommen, wissen wir ja nicht erst seit gestern... -> die Nachteile sind ggü. den anderen Modellen, wo dies nicht der Fall ist, allerdings eklatant. -> die Lösung ist ungünstig und aus meiner Sicht eigentlich ein Kompromis, wenn es darum geht, das maximal mögliche irgendwie rauszukitzeln. Aus meiner Sicht sollte man dies aber NICHT im unteren Bereich bringen, wenn es andere Ansätze gibt, die es besser machen. -> und die gibts zweifelsfrei.

Wenn die Umsetzung allerdings keine greifbaren Nachteile bringt, dann soll es mir hingegen aber auch recht sein ;) Bis das allerdings feststeht, warten wir es einfach mal ab...
Denn an eine Dual NUMA Node Implementierung für den Desktop Bereich glaube ich ehrlich gesagt nicht wirklich... Das wird Lizenztechnisch ggf. schon ein Problem bei einiger Software.
 
Zuletzt bearbeitet:
In Spielen ist der Kaveri A10-7850K so schnell wie ein Phenom II X4 965. Und das obwohl der Phenom wesentlich weniger Takt hat.

Beweis.

Prozessor-Rangliste: Empfehlungen für jeden Geldbeutel - ComputerBase

Der FX4300 hat den gleichen Turbo Core Takt wie der erwähnte Kaveri, und ohne Turbo 100mhz unterschied.
Aber der FX4300 ist schneller als der Phenom II X4 965, und daher Logischerweise auch schneller als der Kaveri.
Ich sehe in der Übersicht nichts von einem FX4. Daher ist das auch kein Beweis. Ausserdem funktionieren Analysen so nicht. Erstmal vergleichen wir Spiele schon mal grundsätzlich nicht. Wenn du IPC nachweisen willst, dann nimm normale Anwendungen. Gerade Spiele können von Cache bekanntlich überdurchschnittlich profitieren. Und zweitens gehört zu einer Analyse auch, dass du die Taktraten zweifelsfrei nachweist. Davon sehe ich ebenso wenig was. Auf die nominellen Taktraten zu schauen, bringt gar nichts. Ich hatte hier schon mal gesagt, dass Kaveri ein seltsames Turbo Verhalten hat. Teilweise fällt der Takt dann auf 3 GHz zurück. Hier wird das auch nochmal näher beschrieben.

Also entweder der L3 bringt bis zu 20% mehr IPC, oder der Kaveri hat keine 20% mehr IPC
Wie schon gesagt, bis zu 20% kann der L3 durchaus bringen. Nur halt bei weitem nicht im Schnitt.

mir wird grad klar wie wenig IPC Kaveri hat
Nö. Deine Analyse ist einfach nur komplett falsch und verleitet dich zu falschen Schlüssen. :fresse:
 
aber laut AMD wird Carrizo schon ausgeliefert und AMD gibt HSA 1.0 an, also glaube ich ihnen das mit HSA 1.0 auch so lange, bis jemand das gegenteil beweisen kann!

und ich finde wer solche artikel schreibt, der sollte schon sehr sehr gut informiert sein!
Tja schön daß er (angeblich) schon ausgeliefert wird, aber am Markt ist er deswegen immer noch nicht, ich kann aktuell kein Produkt mit Carrizo kaufen und ich habe noch nicht einmal eines zum vorbestellen gesehen. Ich glaube schon auch AMD daß HSA 1.0 mit Carrizo kommt, aber solange der nicht da ist bzw. unabhängige Quellen diesen getestet haben bzw. HSA in irgendeiner Form getestet/nachgewiesen haben muß man halt noch vorsichtig sein mit so Annahmen daß Carrizo die erste CPU ist die das vollständig kann.

Ja ich finde auch daß man gut informiert sein sollte, aber wie schon erwähnt sind wir alles Menschen und man kann halt nicht alles wissen ;)

...
Neja, ihr müsst euch halt mal entscheiden, wie ihr die Vergleiche anstellen wollt ;)
IPC kann sich auf die ganze CPU oder auch auf ein Modul/Core beziehen...
So Vergleiche sind generell sehr schwer denn wie Du sagst kann man Single Threaded oder Multi Threaded schwer vergleichen da die unterschiedlichen Architekturen hier unterschiedlich skalieren. Und da ist AMDs CMT auch sehr schlecht mit Intels SMT zu vergleichen. Zu Phenom II und Core2 Zeiten war das einfacher da man hier vollwertige Kerne vergleichen konnte.
Für reine IPC Vergleiche bieten sich wohl nur theoretische Benchmarks an die wie Ihr sagt kaum Abhängig vom Rest des Systems sind und (sofern überhaupt möglich) auch von (zumindest L3 und L2) Caches weitgehend unbeeinflußt bleiben. Das ist aber kaum bzw. sehr schwer möglich da ja immer Daten in irgendeiner Form berechnet werden und somit runter bis zum RAM alles mitspielt.
Ebenfalls wie angesprochen sollte oder will man Befehlserweiterungen miteinbeziehen? Da gibt es dann schon gerne mal gigantische Unterschiede wie z.b. mit AVX und geeigneter Verschlüsselungstechnik.
Ist halt blöd wenn man dann z.B. eine CPU hat die mit aktuellen Features 40% mehr Leistung (bzw. IPC) in einem Benchmark bzw. Anwendung bringt aufgrund von Features die aber in anderen überhaupt nichts bringen. (AVX ist da z.B. ein gutes Beispiel)
Also ich würde sagen IPC sollte man single Threaded, mit gleichem Befehlssatzsupport und gleichen Takt sowie sonst möglichst gleiche Bedingungen ermitteln. Wenn hier z.B. ein Haswell 15% mehr leistet als ein Sandy Bridge dann denke ich kann man sagen er hat 15% mehr IPC.
In anderen realen Anwendungen kann das natürlich ganz anders sein.

Nighteyes IPC % Jonglierereien und Vergleiche sind halt sehr allgemein und können teils zutreffen, teils gar nicht.

Vieles können wir halt einfach nicht vergleichen weil eben die passenden Produkte fehlen, somit werden wir nie wissen ob ein FX mit Steamroller Architektur / Excavator Kernen und eben L3 Cache tatsächlich 20% schneller als ein Vishera wäre. Ich glaube fast nicht, bzw. wie halt auch bei den APUs mal mehr mal weniger, je nachdem wie die Architektur genutzt wird.
Bei Spielen machen sich Datencaches durchaus bemerkbar (wobei auch hier unterschiedlich) und da könnte ich mir schon vorstellen daß dieser schneller wäre. Aber mehr als 10-15% vielleicht auch nicht.

Also @Nighteye - verwende halt weniger den Begriff IPC sondern vielleicht eher "Gesamtleistung" bzw. "Spiele- oder Anwendungsleistung" dann sind die Herren hier vielleicht auch glücklicher.
Generell bin ich auch eher einer der allgemeine Anwendungen und Spiele vergleicht, da das in den meisten Fällen zählt. Hilft ja nichts wenn eine CPU super aktuelle Kerne mit theoretisch mehr IPC Leistung als eine andere CPU hat, diese aber aufgrund von fehlenden Cache, fehlender Befehlserweiterungen oder sonstigen Plattformabhängigkeiten (TDP, RAM Anbindung etc.) sich unterm Strich nicht auswirkt.
In speziellen Fällen wo z.B. eine CPU Ihre Vorteile ausspielen kann und man genau diese Fälle benötigt/nutzt macht es natürlich wieder Sinn sich diese anzusehen.
Hier im Forum werden aber wohl die meisten Leute vorrangig spielen bzw. universelle Anwendungen nutzen. Ein paar wenige werden solche Vorteile nutzen bei z.B. Videokonvertierung/encodierung etc. oder noch weniger vielleicht bei Verschlüsselungen etc.

Naja, 5% mehr IPC(ycle) bei 40% weniger Energieverbrauch und 23% kleiner als Kaveri klingt jetzt nicht so schlecht:

http://abload.de/image.php?img=iccss_2015_57yl29.jpg
http://abload.de/image.php?img=iccss_2015_perf-watt95y8r.jpg

Im Mobil Bereich will man wohl 25x (mal) effizienter sein... :cool:
Die Folien sehen gut aus, aber es gibt weitere Folien, soviel ich mich erinnere, die zeigen daß der Energieverbrauch z.B. nur bei wenig Last erreicht werden kann. Also müssen wir erst mal reale Tests abwarten ob sich das wirklich so stark auswirkt.
Nichts desto trotz, mehr IPC (auch wenn es nur wenige % sind), bei weniger Energieverbrauch und geringerer Größe ist immer gut.

@Topic
Weiß man nun schon genaueres ob die Folien tatsächlich fake waren? Oder ob AMD die nur noch nicht geleaked haben wollte?
 
Zuletzt bearbeitet:
Danke für den Rat und die mühe an unl34shed, Bucho, fdsonne, Hot, Mr.Dude.
Macht echt spaß mit euch zu schreiben hier. Ihr seit sehr freundlich und konstruktiv. Vorallem Mr.Dude ist sehr viel angenehmer im vergleich zu früher mal :)

Lob an alle, macht weiter so.
 
Was bringt denn 5% mehr Leistung im Desktopbereich? Der geringere Energieverbrauch ist eher bei mobilen Plattformen wichtig und meiner Meinung nach Zweitrangig bei Desktopsystemen.
 
Neja, würde ich jetzt klugscheißen wollen, dann würde ich dir sagen, das es eben NICHT IPC ist ;) Weil der L3 nicht bestandteil einer IPC Messung sein soll... Der L3 macht die CPU im allgemeinen nicht schneller, viel eher ist es so, dass ohne den L3 die CPU langsamer wird, als sie sein sollte. Kleiner aber feiner Unterschied :wink:

Das mag zwar in der Theorie so sein, aber das Cache-Design und die Entscheidung für eine bestimmte Größe ist sehr wohl ausschlaggebend für die Leistung pro Takt und somit für die IPC. Auch wenn mit einem immer größer werdenden Cache die IPC-Steigerung immer kleiner wird, so ist dies eine bewußte Entscheidung und Teil der IPC.

Man muss eben den Chip immer als Ganzes betrachten und wenn AMD sich dafür entschieden hat den L3 wegzulassen zugunsten von mehr Die-Fläche für andere Features, dann ist das halt so. Denn dein Argument gegen Cache kannst du genauso auf andere Bereiche übertragen die mit z.B. Haswell verbessert wurden. Du wirst immer Benchmarks finden welche auf die Verbesserungen mehr oder eben mal weniger ansprechen. Am Ende geht es eben immer auch daraum alle Flaschenhälse wozu auch die Cachegröße gehört ausgewogen zu gestalten. (...um keine unnötige Chipfläche zuverschwenden).
http://pics.computerbase.de/4/3/9/9/2/8-630.157729521.png

Und fürs Kleingeld: Intel 8893v3, 4 Kerne 45MB Cache.
http://www.cpu-world.com/CPUs/Xeon/Intel-Xeon E7-8893 v3.html
 
Zuletzt bearbeitet:
Nein, der Cache ist irrelevant für die IPC, weil IPC eben nur ein theoretischer Wert ist.

Einfach um mal weg von CPUs zu kommen, nimm eine GPU X. Die wird mit 1TFLOP beworben bei 1000 Ausführungseinheiten und 1GHz Takt.
Das heißt eine Einheit hat 1GFLOP, bzw. 1GFLOP/1GHz = eine IPC von 1

Hast du in Anwendung X am Ende nur 700GFLOPs, dann hat sich an der IPC nichts geändert, die ist theoretisch immer noch 1, nur deine Software schaft es nicht diese Leistung abzurufen, weil zB. auch Daten nachgeladen werden müssen, oder oder oder

Und genau so verhält es sich mit der IPC bei einer CPU auch.
 
Nein, der Cache ist irrelevant für die IPC, weil IPC eben nur ein theoretischer Wert ist.
Kommt auf den Cache an. L1 und L2 sind normalerweise schon relevant, da diese zum Kern gehören. Alles andere, was nicht zum Kern gehört, wie L3 oder RAM, ist normalerweise auch nicht relevant für IPC. Das C (Clock) in IPC steht nun mal nicht für irgendeinen Takt, sondern für den Kerntakt.
 
ich finde den begriff IPC durch diese detalierten differenzierungen immer wertloser. mich interessiert nur die reine leistung pro takt.
daher werde ich in zukunft nur noch leistung pro takt schreiben. und besonders im bezug aufs gaming dann, weil das halt auch mein größtes interesse ist.
 
Ganz exakt würde ich vielleicht noch von Leistung pro Takt und Thread sprechen, da eine hohe MT-Performance mit einer entsprechenden Masse an simplen Kernen nun nicht gerade das große Kunststück ist. Und dann gilt es natürlich noch, Taktbarkeit und Leistungsaufnahme im Blick zu behalten. Würden sich 2-3 Bulldozer-Module bei <80 Watt auf 8-10 GHz takten lassen, wäre das ein durchaus brauchbarer Chip. Bei den praktisch möglichen 4-5 GHz ist's dann halt doch nur eine Luftpumpe...

Oder andersherum: Die Core-Architektur ist deshalb so gut, weil sie überlegene IPC mit sehr guter Taktbarkeit vereint. Erst das Produkt ist schließlich interessant.
 
Würden sich 2-3 Bulldozer-Module bei <80 Watt auf 8-10 GHz takten lassen, wäre das ein durchaus brauchbarer Chip. Bei den praktisch möglichen 4-5 GHz ist's dann halt doch nur eine Luftpumpe...

8-10 ghz :fresse: Ja ne ist Klar

Redest du von Bulldozer 1 oder Piledriver oder Steamroller oder Excavator ?
 
Die genannte Taktrate war logischerweise ein rein theoretischer Wert, der aber nötig wäre, damit die Architektur eine konkurrenzfähige Pro-Thread-Leistung erreichen würde. Ob jetzt Steamroller oder Excavator sei erstmal dahin gestellt, ich glaube so riesige IPC-Unterschiede soll es da eh nicht geben? Bzw. ist der Maßstab für die nächste Generation dann auch Skylake.
 
Die genannte Taktrate war logischerweise ein rein theoretischer Wert, der aber nötig wäre, damit die Architektur eine konkurrenzfähige Pro-Thread-Leistung erreichen würde. Ob jetzt Steamroller oder Excavator sei erstmal dahin gestellt, ich glaube so riesige IPC-Unterschiede soll es da eh nicht geben? Bzw. ist der Maßstab für die nächste Generation dann auch Skylake.

Also ein 2 Modul Excavator mit L3 kommt mit sicherheit an die Taktleistung eines Nehalem i5 Quad Core ohne SMT.

Gehen wir einfach mal davon aus.

Ein 4 Modul Excavator mit L3 bei 4 ghz für 200€ wäre auch für den Skylake i7 eine gefahr, weil im MT Schneller.
 
Also ein 2 Modul Excavator mit L3 kommt mit sicherheit an die Taktleistung eines Nehalem i5 Quad Core ohne SMT.

Gehen wir einfach mal davon aus.

Das halte ich wie oben schonmal erwähnt, für eine Wunschvorstellung ;)
Denn es müsste die pro Thread und Takt Leistung > Sandy sein, damit das überhaupt rechnerisch funktionieren würde. Bedenke, dass der Nehalem i5 aka Lynnfield i5 als Quadcore eben vier "echte" Cores hat, wärend der zwei Modul Excavator immernoch "nur" zwei Cores + CMT wäre. CMT ist zwar im Ansatz gut, an einer Leistungsskalierung wie native bei nativen Recheneinheiten in der gleichen Threadanzahl sind wir aber noch nicht...
Damit also bei geringerer Skalierung aufgrund von CMT anstatt nativen Cores im Multithreaded fiktiv gleiche Leistung bei gleichem Takt rum kommt, muss also die ST Performance größer sein um die Skalierung auszugleichen.

Steamroller based fehlen pro Takt im ST immernoch ganz paar Prozent, entsprechend stark müsste also Excavator based zulegen, damit das was wird... -> für Zen vielleicht, wenn sie es nicht verhauen oder einen anderen Fokus setzen. Für Excavator, wo in den angeblichen Folien was von ~5% steht? Neee...
Oder rechne auch gern mal andersrum -> Nehalem -> Haswell = ca. ~30% mehr pro Thread/Takt. Erreichst du nun mit dem Excavator Nehalem Taktleistung, dann wären das zzgl. dem Taktvorteil (Nehalem/Lynnfield bei max. ~3GHz) -> zu ~4GHz spekuliert schon alleine ~33%. Das würde den pro Thread/Takt Vorteil von Haswell ausgehend von Nehalem aufheben. Ergo, Excavator hätte damit Haswell Niveau bzw. wäre fast dran bis auf ~10-15% und das auch nur, weil der Haswell eben diese paar Prozent im Takt zugelegt hat, ausgehend von Nehalem/Lynnfield.

Klingt zwar alles sehr schön, allerdings glaubst du ernsthaft an Haswell i5 Performance für Excavator? Und dann noch als zwei Moduler? Damit würde sich auf einen Schlag die seit Jahren klaffende Lücke schließen... -> das Teil als FX8 Modell und der i7 Quadcore hätte keine Chance, da "nur" den popligen SMT Leistungsvorteil von ~25% und etwas mehr Takt (und das auch nur beim "K"-Topmodell) :wink:
 
Zuletzt bearbeitet:
ich finde den begriff IPC durch diese detalierten differenzierungen immer wertloser. mich interessiert nur die reine leistung pro takt.
daher werde ich in zukunft nur noch leistung pro takt schreiben. und besonders im bezug aufs gaming dann, weil das halt auch mein größtes interesse ist.
Dann nimm Begriffe wie IOPS bzw FLOPS oder IOPs/Takt bzw FLOPs/Takt. Die sagen mehr aus als IPC. IPC ist sowieso ein sehr theoretischer Begriff, den viele gar nicht richtig verstehen oder einordnen können. Und wenn unterschiedliche Befehlssätze bzw unterschiedlich Codepfade zum Einsatz kommen, dann wird das ganze erst recht ad absurdum geführt. Dann kann eine CPU mit mehr IPC letztendlich auch langsamer sein und umgekehrt. ;)
 
Nein, der Cache ist irrelevant für die IPC, weil IPC eben nur ein theoretischer Wert ist.

Einfach um mal weg von CPUs zu kommen, nimm eine GPU X. Die wird mit 1TFLOP beworben bei 1000 Ausführungseinheiten und 1GHz Takt.
Das heißt eine Einheit hat 1GFLOP, bzw. 1GFLOP/1GHz = eine IPC von 1

Hast du in Anwendung X am Ende nur 700GFLOPs, dann hat sich an der IPC nichts geändert, die ist theoretisch immer noch 1, nur deine Software schaft es nicht diese Leistung abzurufen, weil zB. auch Daten nachgeladen werden müssen, oder oder oder

Und genau so verhält es sich mit der IPC bei einer CPU auch.
GFLOPS sind Floating, also keine Integer und somit nicht IPC abhängig.
Du meinst MIPS, die hängen an der IPC und dem drumherum. :)

Bitte korrigieren falls ich falsch liege. :fresse:
 
GFLOPS sind Floating, also keine Integer und somit nicht IPC abhängig.
Alles was von der CPU berechnet wird, hängt irgendwie an der IPC!
Die Berechnung eines Floats wird eben in Instructions zerlegt.
Bin mir aber nicht sicher ob man diese Angabe wirklich verwenden sollte, bzw. dass sie besser/greifbarer als IPC ist. Schließlich arbeiten Programme ja nicht nur mit Floats...

So richtig passt alles nicht :fresse2:
 
Leistung eines Threads in Mainstreamanwendungen. Kurz LeTiM oder Tim :d AMD muss wirklich mal am Tim arbeiten.
 
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh