+ Antworten
Seite 55 von 350 ErsteErste ... 5 45 51 52 53 54 55 56 57 58 59 65 105 155 ... LetzteLetzte
Ergebnis 1.351 bis 1.375 von 8734
  1. #1351
    Admiral Avatar von Powerplay
    Registriert seit
    19.08.2005
    Ort
    Gifhorn
    Beiträge
    8.216


    • Systeminfo
      • Motherboard:
      • ASRock Z77 OC Formula
      • CPU:
      • i7 2700k@5Ghz@1.37v
      • Systemname:
      • Wer gibt denn da einen Namen??
      • Kühlung:
      • 480er Radi
      • Gehäuse:
      • Silverston TJ07
      • RAM:
      • 32GB DDR2220CL9
      • Grafik:
      • 2xHD7970@1200/1850@WAKÜ
      • Storage:
      • 1x Intel SSD V2 40GB 2xSamsung F3 500GB@raid 0
      • Monitor:
      • Yamakasi 2560x1440@120Hz
      • Sound:
      • ASUS Xonar D2X2 + Beyerdynamic 770 Pro
      • Netzteil:
      • Silverstone 1000Watt
      • Betriebssystem:
      • Win 7 64 Ultimate
      • Sonstiges:
      • Warte auf GTX780 für SLI
      • Handy:
      • Iphone 4S

    Standard

    ja bei xs hat der eine ja ausgerechnet das SuperPi normal 14sec brauchen sollte ohne turbo und mit turbo 11sec
    S-IPS Monitore 27" 2560x1440@120Hz --->Tempest o. Yamakasi

    P0werp1ay's SweetFx 1.4 für BF3, Metro Last Light,Bioshock Infinite

  2. Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.

  3. #1352
    Flottillenadmiral
    Registriert seit
    23.08.2004
    Beiträge
    5.515


    Standard

    Wo hat das jemand ausgerechnet?
    PC: X6 1055T | 8GB | GTX460
    NB: i5 540M | 8GB | HD5650

    Diese Nachricht wird nicht angezeigt, da sich mr.dude auf deiner Ignorier-Liste befindet.

  4. #1353
    Vizeadmiral Avatar von Mick_Foley
    Registriert seit
    10.02.2008
    Beiträge
    8.016


    Standard

    Hmmm wenn das alles nichts aussagt könnte man sich das Diskutieren generell sparen, bis es eine erste echte Review mit der Launch-Revision gibt.

  5. #1354
    Oberleutnant zur See Avatar von Reaper2004
    Registriert seit
    10.11.2005
    Ort
    Paderborn
    Beiträge
    1.498


    Standard

    @Mick_Foley

    Also was die Superpibenches angeht, muss ich dem zustimmen. Das führt zu nichts, erst recht nich mit so einer frühen Revision.

  6. #1355
    Admiral Avatar von Mondrial
    Registriert seit
    20.12.2005
    Ort
    Großenhain/Jena
    Beiträge
    8.624


    • Systeminfo
      • CPU:
      • Pentium SU4100
      • Gehäuse:
      • Acer Aspire Timeline 1825PTZ
      • Betriebssystem:
      • Win7 64bit

    Standard

    Zitat Zitat von Powerplay Beitrag anzeigen
    ja bei xs hat der eine ja ausgerechnet das SuperPi normal 14sec brauchen sollte ohne turbo und mit turbo 11sec
    Von was ist der da ausgegangen? Einfach nur die Leistung des Phenom 2 auf den Takt bei 3.8GHz hochgerechnet?
    Gamestation AMD FX-8320 || ASUS M5A99X Evo || 16GB Gskill Ripjaws || Xigmatek Midgard || Sapphire HD7870 || LG M2380D-PZ
    Mediastation Intel Core i3-2120T || Intel DQ77KB || 4GB Hynix || HFX Micro M2 || anysee DVB-C || Win7 MC || Philips 32PFL5605H

    Bis heute begreife ich einfach nicht, worin die menschliche Zivilisation begründet liegt,
    wenn wir es immer wieder darauf anlegen, uns gegenseitig umzubringen.
    -Carlo Pedersoli aka Bud Spencer-

  7. #1356
    Oberleutnant zur See Avatar von Reaper2004
    Registriert seit
    10.11.2005
    Ort
    Paderborn
    Beiträge
    1.498


    Standard

    Kann ja nur ne Hochrechnung sein, und selbst den Sinn verstehe ich nicht.
    Das einzige was das bringen würde ist, dass man sagen kann das der Superpi Bench keine Aussagekraft hat.

  8. #1357
    Flottillenadmiral
    Registriert seit
    23.08.2004
    Beiträge
    5.515


    Standard

    Zitat Zitat von Mondrial Beitrag anzeigen
    Von was ist der da ausgegangen? Einfach nur die Leistung des Phenom 2 auf den Takt bei 3.8GHz hochgerechnet?
    Das kommt bei weitem nicht hin. Ein 4GHz(!) Phenom II liegt bei etwa 17s.
    PC: X6 1055T | 8GB | GTX460
    NB: i5 540M | 8GB | HD5650

    Diese Nachricht wird nicht angezeigt, da sich mr.dude auf deiner Ignorier-Liste befindet.

  9. #1358
    Admiral Avatar von Mondrial
    Registriert seit
    20.12.2005
    Ort
    Großenhain/Jena
    Beiträge
    8.624


    • Systeminfo
      • CPU:
      • Pentium SU4100
      • Gehäuse:
      • Acer Aspire Timeline 1825PTZ
      • Betriebssystem:
      • Win7 64bit

    Standard

    Zitat Zitat von Reaper2004 Beitrag anzeigen
    Kann ja nur ne Hochrechnung sein, und selbst den Sinn verstehe ich nicht.
    Das einzige was das bringen würde ist, dass man sagen kann das der Superpi Bench keine Aussagekraft hat.
    Deswegen frag ich ja. Hab die Tabelle die Powerplay meint auch kurz bei xs gesehen, ich glaub da stand nicht dabei, wie er auf die Werte gekommen ist. Aber bei xs gibts wohl grad Updates...
    Gamestation AMD FX-8320 || ASUS M5A99X Evo || 16GB Gskill Ripjaws || Xigmatek Midgard || Sapphire HD7870 || LG M2380D-PZ
    Mediastation Intel Core i3-2120T || Intel DQ77KB || 4GB Hynix || HFX Micro M2 || anysee DVB-C || Win7 MC || Philips 32PFL5605H

    Bis heute begreife ich einfach nicht, worin die menschliche Zivilisation begründet liegt,
    wenn wir es immer wieder darauf anlegen, uns gegenseitig umzubringen.
    -Carlo Pedersoli aka Bud Spencer-

  10. #1359
    Admiral Avatar von Powerplay
    Registriert seit
    19.08.2005
    Ort
    Gifhorn
    Beiträge
    8.216


    • Systeminfo
      • Motherboard:
      • ASRock Z77 OC Formula
      • CPU:
      • i7 2700k@5Ghz@1.37v
      • Systemname:
      • Wer gibt denn da einen Namen??
      • Kühlung:
      • 480er Radi
      • Gehäuse:
      • Silverston TJ07
      • RAM:
      • 32GB DDR2220CL9
      • Grafik:
      • 2xHD7970@1200/1850@WAKÜ
      • Storage:
      • 1x Intel SSD V2 40GB 2xSamsung F3 500GB@raid 0
      • Monitor:
      • Yamakasi 2560x1440@120Hz
      • Sound:
      • ASUS Xonar D2X2 + Beyerdynamic 770 Pro
      • Netzteil:
      • Silverstone 1000Watt
      • Betriebssystem:
      • Win 7 64 Ultimate
      • Sonstiges:
      • Warte auf GTX780 für SLI
      • Handy:
      • Iphone 4S

    Standard

    Er meinte das die Cpu bei dem test nur mit 1,8Ghz gelaufen ist auf grund eines bugs!
    anhand dieser werte hat er das dann so ausgerechnet das die cpu dann ca 11-14sec brauchen sollte wenn sie ohne den bug rechnen würde was ja auch ein guter wert wäre!
    Geändert von Powerplay (10.06.11 um 13:24 Uhr)
    S-IPS Monitore 27" 2560x1440@120Hz --->Tempest o. Yamakasi

    P0werp1ay's SweetFx 1.4 für BF3, Metro Last Light,Bioshock Infinite

  11. #1360
    Admiral Avatar von Mondrial
    Registriert seit
    20.12.2005
    Ort
    Großenhain/Jena
    Beiträge
    8.624


    • Systeminfo
      • CPU:
      • Pentium SU4100
      • Gehäuse:
      • Acer Aspire Timeline 1825PTZ
      • Betriebssystem:
      • Win7 64bit

    Standard

    Klingt nach Turboproblemen.

    Galt das nur für SuperPi? Für 1.8GHz wäre z.B. der Cinebench Wert ziemlich hoch.
    Gamestation AMD FX-8320 || ASUS M5A99X Evo || 16GB Gskill Ripjaws || Xigmatek Midgard || Sapphire HD7870 || LG M2380D-PZ
    Mediastation Intel Core i3-2120T || Intel DQ77KB || 4GB Hynix || HFX Micro M2 || anysee DVB-C || Win7 MC || Philips 32PFL5605H

    Bis heute begreife ich einfach nicht, worin die menschliche Zivilisation begründet liegt,
    wenn wir es immer wieder darauf anlegen, uns gegenseitig umzubringen.
    -Carlo Pedersoli aka Bud Spencer-

  12. #1361
    Stabsgefreiter
    Registriert seit
    30.11.2006
    Beiträge
    375


    • Systeminfo
      • Motherboard:
      • Gigabyte GA-890GPA-UD3H
      • CPU:
      • 1090T@3,6|NB@2,4
      • Kühlung:
      • Noctua NH-D14
      • Gehäuse:
      • Lancool PC-K62
      • RAM:
      • ADATA Value 4x4GB @1333CL9
      • Grafik:
      • 7870
      • Storage:
      • 1x Seagate 7200.12 1TB
      • Monitor:
      • HP w2408h
      • Sound:
      • Tascam US-144
      • Netzteil:
      • Enermax MODU87+ 500W
      • Betriebssystem:
      • Ubuntu 12.04 / Windows 7
      • Notebook:
      • lenovo 3000 n200

    Standard

    Sooo hoch fänd ich die 4.6 im Cinebench jetzt auch wieder nicht...
    Ein X6 auf 3,3 GHz kommt ungefähr auf 5,9, also etwa 0,98 pro Kern.
    Ein BD X8 auf 1,8 GHz käme auf 4,60, also etwa 0,575 pro Kern.
    Wenn man mal annimmt dass das linear mit Kernen und Takt skaliert
    (was es nicht tut), wäre ein BD auf 3,3 GHZ bei 0,575 * 3,3 / 1,8 = 1,05 pro Kern. Demnach wäre der BD pro Kern etwa 7% schneller als ein X6.

  13. #1362
    Admiral Avatar von Techtrancer
    Registriert seit
    21.08.2007
    Ort
    WIEN
    Beiträge
    13.902


    Standard

    wenn meine mutter eier hätte wär sie mein vater^^

  14. #1363
    Admiral Avatar von Mondrial
    Registriert seit
    20.12.2005
    Ort
    Großenhain/Jena
    Beiträge
    8.624


    • Systeminfo
      • CPU:
      • Pentium SU4100
      • Gehäuse:
      • Acer Aspire Timeline 1825PTZ
      • Betriebssystem:
      • Win7 64bit

    Standard

    Nur das der BD halt keine 8 physischen Kerne hat, wenn man die gemutmaßte maximale Effizienz von CMT mit einrechnet, entspricht es wohl 6.4 oder 7.2 "Kernen".

    6,4 Kerne: 1,32 pro Kern bei 3,3GHz(35%)
    7,2 Kerne: 1,17 pro Kern bei 3,3GHz(20%)
    Gamestation AMD FX-8320 || ASUS M5A99X Evo || 16GB Gskill Ripjaws || Xigmatek Midgard || Sapphire HD7870 || LG M2380D-PZ
    Mediastation Intel Core i3-2120T || Intel DQ77KB || 4GB Hynix || HFX Micro M2 || anysee DVB-C || Win7 MC || Philips 32PFL5605H

    Bis heute begreife ich einfach nicht, worin die menschliche Zivilisation begründet liegt,
    wenn wir es immer wieder darauf anlegen, uns gegenseitig umzubringen.
    -Carlo Pedersoli aka Bud Spencer-

  15. #1364
    Flottillenadmiral
    Registriert seit
    23.08.2004
    Beiträge
    5.515


    Standard

    Laut JF-AMD sollen das Durchschnittswerte, keine Maximalangaben sein. Warten wir es ab.
    PC: X6 1055T | 8GB | GTX460
    NB: i5 540M | 8GB | HD5650

    Diese Nachricht wird nicht angezeigt, da sich mr.dude auf deiner Ignorier-Liste befindet.

  16. #1365
    Flottillenadmiral Avatar von mr.dude
    Registriert seit
    12.04.2006
    Beiträge
    5.120


    Standard

    Zitat Zitat von Opteron Beitrag anzeigen
    Glaub ich eher weniger, das war damals auf Pentium1 optimiert. Das Intel da jetzt noch Vorteile von hätte, schließe ich eher aus. Wenns schon PentiumPro gewesen wäre ok, aber so- ne. Der P1 war ja auch noch in-ordern.
    1995 war aber bereits der Pentium Pro aktuell. Und die Super Pi Executable stammt ja von 1995. Eine Optimierung auf den P5 macht das Problem für AMD übrigens nicht besser, eher noch schlimmer. Oder anders gesagt, eine Optimierung auf In-Order kommt dem Unified Scheduler von Intel eher zugute. Bei AMDs K8/K10 muss mehr parallel optimiert werden (Loop Unrolling und dergleichen).

    Zitat Zitat von Opteron Beitrag anzeigen
    Ich denke eher, dass da bei aktuellen Intels der kleine µOp LoopCache zuschlägt, bzw. seit Sandy der dicke µOp Brummer
    Sehe ich eher weniger als Ursache. Meist ist Fetch/Prefetch bzw Cache der ausschlaggebende Faktor. Der Pentium-M war hier pro Takt auch schon schneller als K8. Oder schau dir mal Yonah und Merom an, da gibt es nur wenig Unterschied. Und der Loop Detector kam meines Wissens erst mit Merom.

    Zitat Zitat von Opteron Beitrag anzeigen
    Der Code ist so kompakt und in Schleifen, das dürfte der springende Punkt sein.
    Ich habe den Code vor geraumer Zeit mal ein bisschen debugged. So kompakt und in Schleifgen ist der gar nicht. Bzw, wenn ich mich richtig erinnere, wird öfters hin und her gesprungen. Ob das wirklich so gut für einen Loop Detector ist, auch bezüglich Codegrösse, ist fraglich. Neben den bereits von mir genannten Punkten dürfte eine gute Sprungvorhersage eher noch etwas bringen.


    Zitat Zitat von Mondrial Beitrag anzeigen
    SuperPi mit 3.2GHz 3s langsamer als mit 2.8GHz...sagt alles oder?
    Der Punkt ist wohl, dass wie schon Bobcat auch Llano und Bulldozer nunmehr einen Referenztakt von 100 MHz besitzen. Zumindest mehren sich die Anzeichen. Die angezeigten 3,2 GHz mit einem Multi von 16 könnten also tatsächlich lediglich 1,6 GHz gewesen sein. Dafür wären knapp 27 Sekunden ziemlich gut.
    Geändert von mr.dude (10.06.11 um 15:26 Uhr)
    blogs: Dresdenboy, abinstein
    The IPC Myths
    die richtige Metrik entscheidet: Performance/Watt/Preis

    Diese Nachricht wird nicht angezeigt, da sich Undertaker 1 auf deiner Ignorier-Liste befindet.

  17. #1366
    Stabsgefreiter
    Registriert seit
    30.11.2006
    Beiträge
    375


    • Systeminfo
      • Motherboard:
      • Gigabyte GA-890GPA-UD3H
      • CPU:
      • 1090T@3,6|NB@2,4
      • Kühlung:
      • Noctua NH-D14
      • Gehäuse:
      • Lancool PC-K62
      • RAM:
      • ADATA Value 4x4GB @1333CL9
      • Grafik:
      • 7870
      • Storage:
      • 1x Seagate 7200.12 1TB
      • Monitor:
      • HP w2408h
      • Sound:
      • Tascam US-144
      • Netzteil:
      • Enermax MODU87+ 500W
      • Betriebssystem:
      • Ubuntu 12.04 / Windows 7
      • Notebook:
      • lenovo 3000 n200

    Standard

    Zitat Zitat von Mondrial Beitrag anzeigen
    Nur das der BD halt keine 8 physischen Kerne hat, wenn man die gemutmaßte maximale Effizienz von CMT mit einrechnet, entspricht es wohl 6.4 oder 7.2 "Kernen".

    6,4 Kerne: 1,32 pro Kern bei 3,3GHz(35%)
    7,2 Kerne: 1,17 pro Kern bei 3,3GHz(20%)
    Falscher Ansatz. Wenn AMD mir das Teil als 8-Kerner verkaufen will,
    und mir das OS auch 8 Kerne anzeigt, dann rechne ich auch mit
    8 Kernen um es mit nem X6 zu vergleichen.
    Dass ein "Kern" eben nicht mehr ganz so schnell ist, ist dann einfach
    in den 7% bereits mit eingerechnet.

  18. #1367
    Flottillenadmiral
    Registriert seit
    23.08.2004
    Beiträge
    5.515


    Standard

    Mal noch ein paar alte Zahlen zu obigem Posting meinerseits:

    P3: Hardware news, Overclocking Competitions, Reviews

    Thunderbird: Bild: superpitb9pc9.png - abload.de

    Wie man sieht, ist der taktbereinigte Unterschied vergleichsweise klein. Die nachfolgenden AMD-Modelle sind in SuperPi einfach nur wenig schneller geworden. Auf 4GHz hochgerechnet liegt der alte Thunderbird auch schon bei ~25s - der Phenom II ist bei gleichem Takt nur etwa 8s schneller.
    PC: X6 1055T | 8GB | GTX460
    NB: i5 540M | 8GB | HD5650

    Diese Nachricht wird nicht angezeigt, da sich mr.dude auf deiner Ignorier-Liste befindet.

  19. #1368
    Flottillenadmiral Avatar von mr.dude
    Registriert seit
    12.04.2006
    Beiträge
    5.120


    Standard

    Gut 102 Sekunden bei 1,33 GHz für Thunderbird gegenüber 28 Sekunden bei 2,8 GHz für Regor. Das ist taktbereinigt über 70% mehr Performance. Das soll nur "wenig schneller" sein?
    blogs: Dresdenboy, abinstein
    The IPC Myths
    die richtige Metrik entscheidet: Performance/Watt/Preis

    Diese Nachricht wird nicht angezeigt, da sich Undertaker 1 auf deiner Ignorier-Liste befindet.

  20. #1369
    Vizeadmiral
    Registriert seit
    10.02.2005
    Beiträge
    6.568


    Standard

    Zitat Zitat von mr.dude Beitrag anzeigen
    1995 war aber bereits der Pentium Pro aktuell. Und die Super Pi Executable stammt ja von 1995.
    Wir haben jetzt 2011 und AVX ist aktuell, wieviel AVX Programme gibts ?
    Abgesehen davon hab ich mich vor ein paar Jahren mal kundig gemacht, es ist P1 optimiert. Was anderes hab ich nie gefunden.

    Eine Optimierung auf den P5 macht das Problem für AMD übrigens nicht besser, eher noch schlimmer. Oder anders gesagt, eine Optimierung auf In-Order kommt dem Unified Scheduler von Intel eher zugute. Bei AMDs K8/K10 muss mehr parallel optimiert werden (Loop Unrolling und dergleichen).
    Interessant, kannst Du das näher erklären? Dachte das wäre nach dem Dekoder egal, ob jetzt INT Ops in einem Scheduler sind und FP in nem anderen ... da sehe ich auf den ersten Blick eher den Vorteil, dass mit 2 Puffern tieferes OoO möglich ist. Aber erklär mal, im Moment sehe ich keinen Zusammenhang.


    Sehe ich eher weniger als Ursache. Meist ist Fetch/Prefetch bzw Cache der ausschlaggebende Faktor.
    Hmm kann auch sein, dann müßte der K10 aber stark besser als der K8 sein, da sind ja Fetch/Prefetch und auch Sprungvorhersage deutlich aufpoliert.
    Der Pentium-M war hier pro Takt auch schon schneller als K8. Oder schau dir mal Yonah und Merom an, da gibt es nur wenig Unterschied. Und der Loop Detector kam meines Wissens erst mit Merom.
    Jein, der Loop Stream Detector gabs erst mit Merom, aber den Loop Detector (Bestandteil der Sprungvorhersage) schon viel länger, seit Dothan / Banias Zeiten. Eventuell macht das am Meisten in dem Fall aus. Ich glaub im realworldtech Artikel vermutete D.Kanter, dass so ein LDetector (nicht der Loop Stream Detecor) auch im BD sein könnte.

    Ich habe den Code vor geraumer Zeit mal ein bisschen debugged. So kompakt und in Schleifgen ist der gar nicht. Bzw, wenn ich mich richtig erinnere, wird öfters hin und her gesprungen. Ob das wirklich so gut für einen Loop Detector ist, auch bezüglich Codegrösse, ist fraglich. Neben den bereits von mir genannten Punkten dürfte eine gute Sprungvorhersage eher noch etwas bringen.
    Ok einigen wir uns auf den Loop Detecor (nicht den µOp Buffer) mit positiven Auswirkungen auf die Sprungvorhersage ^^

    Vielleicht ist auch Memory Disabiguity nicht schlecht, bzw. nur schnelle und/oder große Caches. Wenn ich mich recht erinnere, dann hat doch auch der K10-> K10.5 gut zugelegt. Außer Cache und geringe Zugriffszeit kanns bei dem Schritt ja nicht viel gewesen sein.

    Hier ist ne erstbeste Liste:
    http://www.radeon3d.org/forum/thread-45.html
    Da sieht man, dass die Phenom1 mit 2MB L3 besser sind, als die Ph2 ohne L3, der 940er mit 6MB L3 ist aber deutlich schneller, als der 100Mhz langsamer taktende 7750.

    Leider sind keine Prä Conroe Intel Chips in der Liste.
    Diese Nachricht wird nicht angezeigt, da sich Undertaker 1 auf deiner Ignorier-Liste befindet.

  21. #1370
    Flottillenadmiral
    Registriert seit
    23.08.2004
    Beiträge
    5.515


    Standard

    Für 10 Jahre Entwicklung: Ja. Deswegen doch der Vergleich mit dem Pentum 3, der damals noch auf einem sehr ähnlichen Level lag. Der Leistungssprung späterer Architekturen kam also rein durch deren technische Verbesserungen.

    Zitat Zitat von Opteron Beitrag anzeigen
    Ok einigen wir uns auf den Loop Detecor (nicht den µOp Buffer) mit positiven Auswirkungen auf die Sprungvorhersage
    Genau wie ich oben schrieb.
    Geändert von Undertaker 1 (10.06.11 um 17:03 Uhr)
    PC: X6 1055T | 8GB | GTX460
    NB: i5 540M | 8GB | HD5650

    Diese Nachricht wird nicht angezeigt, da sich mr.dude auf deiner Ignorier-Liste befindet.

  22. #1371
    Bootsmann Avatar von classic437
    Registriert seit
    28.08.2009
    Beiträge
    511


    Standard

    Also nochmal ganz kurz: 1 Modul hat 2 threads. Wenn nur ein thread gebraucht wird, wie z.b es in Spielen der Fall ist, benutzt der eine thread die kompletten Resourcen des Moduls und dürfte so in der Singlethread Leistung deutlich schneller sein, als wenn sich 2 Threads die Resourcen des einen Moduls teilen müssten, richtig ?
    Es geht also nicht nur darum, daß sich im Singlethreadbetrieb nur die Mhz erhöhen, das Modul also hochtaktet, sondern daß der eine Thread nun vollen Zugriff auf die Resourcen des gesamten Moduls hat, oder ?
    Das wäre natürlich eine sehr elegante Lösung, nur müssen die Resourcen dann so groß sein, daß es für fast 2 richtige cores reicht, ansonsten würde man ja die Singlethreadleistung eines normalen cores haben und eine halbierte Multithreadleistung, da sich 2 Threads die Resourcen teilen müssten, die eigentlich nur für einen core reichen, wenn man es denn wirklich als 8 Kerner verkaufen will.

    Richtig, oder alles falsch ?

    Hatte das vorhin bereits in einem anderen Thread gepostet. Hier ist es, glaube ich, besser aufgehoben.

  23. #1372
    Flottillenadmiral Avatar von mr.dude
    Registriert seit
    12.04.2006
    Beiträge
    5.120


    Standard

    Zitat Zitat von Opteron Beitrag anzeigen
    Wir haben jetzt 2011 und AVX ist aktuell, wieviel AVX Programme gibts ?
    Abgesehen davon hab ich mich vor ein paar Jahren mal kundig gemacht, es ist P1 optimiert. Was anderes hab ich nie gefunden.
    Befehlssatzerweiterungen sind ja wieder eine andere Geschichte. Übrigens, AVX wird auch heute schon unterstützt, zB vom GCC. Und wo hast du her, dass Super Pi für den P5 optimiert wäre? Soweit mir bekannt ist, ist der Code des Windows Ports nie veröffentlicht worden. Genauso sind mir Compiler bzw die entsprechenden Build-Flags unbekannt.

    Zitat Zitat von Opteron Beitrag anzeigen
    Interessant, kannst Du das näher erklären? Dachte das wäre nach dem Dekoder egal, ob jetzt INT Ops in einem Scheduler sind und FP in nem anderen ... da sehe ich auf den ersten Blick eher den Vorteil, dass mit 2 Puffern tieferes OoO möglich ist. Aber erklär mal, im Moment sehe ich keinen Zusammenhang.
    Wenn du auf In-Order optimierst, ist es wichtig, die Instruktionen vom Compiler möglichst so ordnen zu lassen, dass sie optimal nacheinander von der jeweiligen Mikroarchitektur abgearbeitet werden können. Neuordnung der Instruktionen im Prozessor selbst fällt ja weg. Dh, die Mikroarchitektur, für die optimiert wurde, steht noch mehr im Fokus als bei OoO. Umso ungünstiger kann der Code für eine komplett andere Mikroarchitektur sein. Mit einem Unified Scheduler hast du nun den Vorteil, die MicroOps kompromisslos so zu verteilen, wie sie gerade kommen. Bei dedizierten Schedulern muss hingegen das Verhältnis stimmen, damit alle Einheiten möglichst gleichmässig ausgelastet werden. Und bei ungünstigem Code kann das ein Nachteil sein, wenn das Verhältnis nicht mehr passt.

    Zitat Zitat von Opteron Beitrag anzeigen
    Hmm kann auch sein, dann müßte der K10 aber stark besser als der K8 sein, da sind ja Fetch/Prefetch und auch Sprungvorhersage deutlich aufpoliert.
    Deutlich ist relativ. Von K8 zu K10.5 waren es aber zumindest 20-25%, IIRC. So wenig ist das nicht.

    Zitat Zitat von Opteron Beitrag anzeigen
    Jein, der Loop Stream Detector gabs erst mit Merom, aber den Loop Detector (Bestandteil der Sprungvorhersage) schon viel länger, seit Dothan / Banias Zeiten. Eventuell macht das am Meisten in dem Fall aus. Ich glaub im realworldtech Artikel vermutete D.Kanter, dass so ein LDetector (nicht der Loop Stream Detecor) auch im BD sein könnte.
    Und was macht der Loop Detector dann konkret, also nicht Loop Stream Detector?


    Zitat Zitat von classic437 Beitrag anzeigen
    Also nochmal ganz kurz: 1 Modul hat 2 threads. Wenn nur ein thread gebraucht wird, wie z.b es in Spielen der Fall ist, benutzt der eine thread die kompletten Resourcen des Moduls und dürfte so in der Singlethread Leistung deutlich schneller sein, als wenn sich 2 Threads die Resourcen des einen Moduls teilen müssten, richtig ?
    Es geht also nicht nur darum, daß sich im Singlethreadbetrieb nur die Mhz erhöhen, das Modul also hochtaktet, sondern daß der eine Thread nun vollen Zugriff auf die Resourcen des gesamten Moduls hat, oder ?
    Korrekt. Zumindest auf die Ressourcen, die sich zwei Threads ansonsten teilen müssen, wie L1I, L2, Frontend oder FPU. Ob ein Thread nun deutlich schneller ist, wird sich noch zeigen müssen. Er sollte aber auf jeden Fall schneller sein.
    blogs: Dresdenboy, abinstein
    The IPC Myths
    die richtige Metrik entscheidet: Performance/Watt/Preis

    Diese Nachricht wird nicht angezeigt, da sich Undertaker 1 auf deiner Ignorier-Liste befindet.

  24. #1373
    Fregattenkapitän Avatar von Schaffe89
    Registriert seit
    12.12.2010
    Beiträge
    3.057


    Standard

    Zitat Zitat von Mr. Dude
    Korrekt.
    Dass das funktioniert ist überhaupt nicht gesichert.
    Sonst müssten ja bei 4 Threads auch 4 Module arbeiten und je Thread nur eine Integer Ausführungseinheit.

  25. #1374
    Flottillenadmiral
    Registriert seit
    23.08.2004
    Beiträge
    5.515


    Standard

    Da gibts doch gar nicht viel zu überlegen. Wenn ein Modul 180/160% Leistung bei zwei Threads liefern soll (100% bei einem Thread), ist die pro-Thread Leistung bei nur einem Thread 11/25% höher. Das ist allerdings eine komische Rechnung, wenn man selbige für SMT mit 20% Speedup durchführt, steigt dort die Leistung bei nur einem Thread um ganze 67%...

    Ich würde mich sinnvollerweise auf die Angabe des Speedups durch den zweiten Thread beschränken.
    PC: X6 1055T | 8GB | GTX460
    NB: i5 540M | 8GB | HD5650

    Diese Nachricht wird nicht angezeigt, da sich mr.dude auf deiner Ignorier-Liste befindet.

  26. #1375
    Vizeadmiral
    Registriert seit
    10.02.2005
    Beiträge
    6.568


    Standard

    Zitat Zitat von mr.dude Beitrag anzeigen
    Befehlssatzerweiterungen sind ja wieder eine andere Geschichte.
    Sehe ich jetzt nicht so, unten erklärst Du ja selbst, was schief geht, wenn InO Code auf OoO läuft. Der Schritt von InO- >OoO ist ja noch komplexer als ne kleine Befehlssatzerweiterung.

    Übrigens, AVX wird auch heute schon unterstützt, zB vom GCC.
    Ja, Compiler sind immer die ersten, aber SuperPi ist ne Applikation, kein Compiler. Und Applikationen gibts meines Wissens nur den Sandra Bench.

    Und wo hast du her, dass Super Pi für den P5 optimiert wäre? Soweit mir bekannt ist, ist der Code des Windows Ports nie veröffentlicht worden. Genauso sind mir Compiler bzw die entsprechenden Build-Flags unbekannt.
    Hatte ich vor Jahr und Tag gesucht und gefunden, Compiler war irgendein alter Fortran / Watcom oder wie die Firma hieß. Machen wirs doch mal anders herum, such mal nen Compiler, den es Anno 1995 gab, der mit PentiumPro Optimierung warb. Ich hab nichts gefunden, aber vielleicht hast Du mehr Glück ;-)
    Wenn du auf In-Order optimierst, ist es wichtig, die Instruktionen vom Compiler möglichst so ordnen zu lassen, dass sie optimal nacheinander von der jeweiligen Mikroarchitektur abgearbeitet werden können.
    Glasklar.
    Neuordnung der Instruktionen im Prozessor selbst fällt ja weg. Dh, die Mikroarchitektur, für die optimiert wurde, steht noch mehr im Fokus als bei OoO.
    Auch ok.
    Umso ungünstiger kann der Code für eine komplett andere Mikroarchitektur sein.
    Hmm wieso ? Mit OoO kann die doch die Befehle schön so orden wie es der Architektur dann passt. Oder meinst Du, dass die OoO Fenster dazu zu klein sind ?

    Mit einem Unified Scheduler hast du nun den Vorteil, die MicroOps kompromisslos so zu verteilen, wie sie gerade kommen. Bei dedizierten Schedulern muss hingegen das Verhältnis stimmen, damit alle Einheiten möglichst gleichmässig ausgelastet werden.
    Ist das nicht das gleiche? Zwischen AMD und Intel gibts doch nur den Unterschied, dass bei AMD die Ops halt vorher in einen INT und FP Scheduler aufgesplittet werden. Danach werden die genauso "kompromisslos" verteilt. Eine FP Op im unified decoder hat ja nichts davon, wenn ein INT Port frei ist.
    Ich sehe einen getrennten FP/INT scheduler eher als VOrteil, da können sich die FP/INT Ops nicht die Warteplätze wegnehmen. Insgesamt sollte damit dann doch besseres/tiefers OoO möglich sein. Wie siehst Du das ?


    Deutlich ist relativ. Von K8 zu K10.5 waren es aber zumindest 20-25%, IIRC. So wenig ist das nicht.
    Aufpassen, ich fragte von K8-> K10, nicht auf K10.5. Den K10-> K10.5 Schritt hatte ich doch auch schon beschrieben, da scheint ne Menge auf das Konto des L3 Caches zu gehen. Eventuell ist das wirklich das Wichtigeste bei SuperPi.

    Und was macht der Loop Detector dann konkret, also nicht Loop Stream Detector?
    Das:
    The Loop Detector (Figure 2) analyzes branches to see if
    they have loop behavior. Loop behavior is defined as
    moving in one direction (taken or not-taken) a fixed
    number of times interspersed with a single movement in
    the opposite direction. When such a branch is detected,
    a set of counters are allocated in the predictor such that
    the behavior of the program can be predicted completely
    accurately for larger iteration counts than typically
    captured by global or local history predictors.
    http://www.intel.com/technology/itj/...iss2_art03.pdf

    Grund:
    A predictor that always branches in a loop will always incorrectly branch on the last iteration
    http://www.cs.virginia.edu/~skadron/cs451/PentiumM/IntelPentiumM_r4.ppt (S. 40/41)


    Aaaber:
    So toll waren die Pentium M auch nicht, hab ein paar alte Screens ausgegraben:
    24,5s für nen 3GHz Dothan:
    http://www.abload.de/img/attachmentf8iv.jpg

    27s für nen 3,05 Ghz AMD 3700+:
    http://www.abload.de/img/attachmentu8a5.jpg

    Nur leicht besser als ein K8, ein K10 dürfte in etwa auf gleichem Niveau sein.

    Am Ende bleibt dann der dicke 4MB Cache und Memory Disambiguity des Conroe übrig.

    Cache hat BD ohne Ende und MDis. wahrscheinlich auch, wenns Bobcat schon hat...
    Apropos .. wie schlägt sich Bobcat bei SuperPi ... ?Mal googlen. Auf einer Seite MDis, auf der anderen Seite ne Spar-FPU, geht wohl trotzdem in die Hose.
    Edit:
    Ja, Zacate @1,6Ghz ~140s, ein Ph2@1,6Ghz nur ~41s. Lol.
    http://www.pureoverclock.com/review.php?id=895&page=5

    Und um wieder den Bogen zurück zu schaffen:
    Laut AIDA gibts irngedwelche L2/L3 Probleme mit den BD-B0 Teilen, dafür wären dann die SuperPi Werte eher gut, da Spi anscheinend ja recht Cache-lastig ist. Von daher würde ich im Moment da nicht viel drauf geben ;-)
    Geändert von Opteron (11.06.11 um 13:57 Uhr)
    Diese Nachricht wird nicht angezeigt, da sich Undertaker 1 auf deiner Ignorier-Liste befindet.

LinkBacks (?)

  1. 02.05.12, 10:46
  2. 06.04.12, 19:37
  3. 04.03.12, 10:02
  4. 09.02.12, 10:09
  5. 04.02.12, 21:04
  6. 22.12.11, 19:15
  7. 16.11.11, 12:19
  8. 12.11.11, 23:22
  9. 07.11.11, 21:22
  10. 04.11.11, 22:19
  11. 01.11.11, 18:00
  12. 31.10.11, 11:09
  13. 15.10.11, 22:03
  14. 15.10.11, 21:08
  15. 15.10.11, 21:02
  16. 15.10.11, 20:53
  17. 12.10.11, 12:52
  18. 09.10.11, 05:28
  19. 07.10.11, 10:11
  20. 10.09.11, 20:59
  21. 08.09.11, 13:36
  22. 04.09.11, 09:14
  23. 29.07.11, 21:34
  24. 18.07.11, 14:14
  25. 13.05.11, 20:55
  26. 13.05.11, 20:48

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein