Lenovo P720 - Dual Xeon Silver 4114 oder Gold 5118

fideliovienna · 09.07.2018

Hallo,

ich bin gerade dabei in der Arbeit einen neuen Rechenknecht für unsere Masse anzuschaffen und stehe dabei vor der Entscheidung welche CPU ich nehmen soll.
Wird ein Dual Xeon, eben Silver 4114 oder Gold 5118.
Fix ist dass es ein Lenovo P720 wird weil die Firma mit Lenovo einen Vertrag hat und wir da auch die besten Preise bekommen.

Sonstige Ausstattung: 6 x 8 GB ECC-RAM 2666 MHz
Kleine Quadro-Karte (Programme unterstützen keine GPU-Unterstützung)
256 (oder 512) GB SSD fürs System
4 TB HDD (RAID 5)

Wieviel Mehrleistung kann ich vom Gold 5118 zirka erwarten?
Preislich liegen zwischen den beiden Varianten ~1300€ Listenpreis, wie das nach firmenspezifischen Angebot ist kann ich erst in 1-2 Tagen sagen.
Programme sind bis auf 32 Cores ausgelegt und lasten unseren derzeitigen 8 Kerner auch voll aus. OS wird Win 10 Pro Workstation

Eye-Q · 09.07.2018

Wenn die Programme maximal 32 Kerne nutzen können, hat schon ein Dual Xeon 4114 mit 40 Threads ganze 8 Threads mehr als benötigt, die den Betriebssystem-Funktionen zur Verfügung stehen. Ob da nun noch 8 Threads mehr verfügbar sind, sollte wenig Unterschied ergeben. Die 100 MHz Basis-/200 MHz Turbotakt, die der 5118 hat, machen den Kohl auch nicht fett - wenn ein Dual Xeon 4114 "langsam" ist, sollte auch ein Dual Xeon 5118 nicht merklich schneller sein, und wenn ein Dual Xeon 4114 "schnell genug" ist, wird IMHO der Dual Xeon 5118 nicht so viel schneller sein als dass das wirklich ~1300 Euro wert ist.

Ich würde also den Dual 4114 nehmen, auch der wird natürlich schon eine Rakete gegenüber den derzeitigen 8-Kernern sein.

fideliovienna · 09.07.2018

Danke für die schnelle Antwort, die Lizenz der SW ist auf 32 physische Cores beschränkt, also 64 Threads.
Und wir reden von Berechnungen die am 8 Kerner zT 4-5h pro Sample gelaufen sind, darum ja die Frage ob ich das wirklich halbwegs linear rechnen kann.

Die 1300€ sind natürlich nicht wenig Geld, aber der Kollege der die Auswertung macht arbeitet ja auch nicht für lau und desto mehr Durchsatz der Rechner packt, desto effizienter können wir arbeiten. Würde ich einem Kunden diese Arbeit 1:1 verrechnen wäre der Unterschied in der Investition nicht einmal 1 Tag Arbeit.

underclocker2k4 · 10.07.2018

1:1 kann man das nicht rechnen, bzw. kommt es auch die Software an.
Es gibt sehr wenige Softwares, die wirklich 1:1 skalieren.

Im Regelfall reagieren die eher auf Takt als auch Cores.
Kann man ja mal ggf. testen auf nem Rechner wo man Cores deaktivieren kann und dort dann das Skalar ermitteln. Im Idealfall im Bereich 32Cores zu 16 Cores oder 16C zu 8 C oder sowas. 4C zu 2C ist in der Regel nicht so das Thema.

Evtl. gibt es auch Felderfahrungen mit der Software, ggf. auch vom Hersteller selber.

fideliovienna · 10.07.2018

underclocker2k4 schrieb:
Evtl. gibt es auch Felderfahrungen mit der Software, ggf. auch vom Hersteller selber.

Es sind 3 Softwarepakete die dort rechnen (nicht parallel) von 2 verschiedenen Herstellern.
Einer davon (leider der mit nur 1 SW) gibt klar an dass die SW bis 32 Kerne sehr gut skaliert, es gibt sogar noch eine Lizenzversion drüber für bis zu 64 physische Kerne (bis zu 128 Threads)
Dessen Aussage war dass alles was due CPU an Mehrleistung bietet auch von der SW genutzt wird solange nicht ein anderer Bottleneck auftritt. (zB RAM-Limitierung)

Der andere Hersteller ist da leider nicht so gesprächsfreudig, auch auf mehrmalige Nachfrage kamen da nur Minimum und empfohlene Konfig. Die empfohlene Konfig war ein 6-Kerner (guter alter Haswell), aber wir wissen aus eigener Erfahrung dass das System auch mit einem 8 Kerner sehr gut skaliert. Wie weit das noch oben geht konnten wir bisher nicht probieren aufgrund fehlender HW.

Morpheus2200 · 10.07.2018

Die von dir genannten CPUs unterstützen meine ich nur 2400er RAM.

20% mehr Kerne sind im idealfall 20% mehr Leistung, wie das bei der von euch eingesetzten Software aussieht kann ich dir nicht sagen. Dazu kommt der leichte Vorsprung bei den Taktraten.
Über die höhere TDP des Xeon Gold könnt ihr evtl. etwas mehr vom turbo haben. Wenn die Kiste im Büro stehen soll ist das aber auch evtl. mit einer etwas höheren Geräuschkulisse verbunden.

Fallen die leistungsfähigeren Xeons aufgrund des Preises aus der Auswahl? Die 6132 Gold gefallen mir ganz gut, da die recht ordentliche Taktraten bei 14Cores/Socket haben und 2666er RAM und beim Einsatz von AVX512 sind die halt auch etwas flotter.

Single Socket mit vielen Kernen ist nicht so interessant? So ein 32Core Threadripper 2990X z.B. kostet auch nicht die Welt.

fideliovienna · 10.07.2018

Fr@ddy schrieb:
Die von dir genannten CPUs unterstützen meine ich nur 2400er RAM.

Lenovo bietet aber nur 2666er RAM an

Wenn die Kiste im Büro stehen soll ist das aber auch evtl. mit einer etwas höheren Geräuschkulisse verbunden.

Guter Punkt, ist aber ein Grossraumbüro wo immer was los ist

Fallen die leistungsfähigeren Xeons aufgrund des Preises aus der Auswahl? Die 6132 Gold gefallen mir ganz gut, da die recht ordentliche Taktraten bei 14Cores/Socket haben und 2666er RAM und beim Einsatz von AVX512 sind die halt auch etwas flotter.

AVX512 nutzen die Programme sicher nicht, beim P720 geht es nur rauf bis zum Gold 6128 und der kostet gleich nochmal 1300€ mehr als der 5118.
Darüber gehts nur beim P920, müsste ich mir im Detail einmal anschauen, aber das Teil ist dann sicher um einiges sperriger und teurer.

Single Socket mit vielen Kernen ist nicht so interessant? So ein 32Core Threadripper 2990X z.B. kostet auch nicht die Welt.

Finde mal einen Threadripper bei einem der großen Hersteller.
Genau das ist das Problem von AMD, sie sind am Eigenbaumarkt sicher ganz gut eingestiegen mit TR, aber bei den Herstellern eine Workstation mit TR zu finden ist kaum möglich
Und ich kann/darf keine Workstation selbst zusammenbauen und hinstellen, muss bei Lenovo bestellen, mit ganz viel Überredungskunst vllt noch Dell oder HP, aber das wäre schon unglaublicher Aufwand unsere IT davon zu überzeugen. (geht nur über den Preis)
Die wollen natürlich Ihren bevorzugten Lieferanten falls einmal ein Servicefall eintritt und unsere IT war schon so "nett" dass ich mir selbst eine Workstation konfigurieren kann und nicht auf unsere Standardmodelle (max. 8 CPU-Kerne, dafür Tesla GPU

) zurückgreifen muss.

Morpheus2200 · 10.07.2018

Ist halt auch schade, dass Intel bei den Xeon-W CPUs nur Modell mit wenig cores preislich attraktiv anbietet.
Die hälfte der Speicherkanäle nicht zu bestücken auf einem dual Socket System kommt mir irgendwie seltsam vor.

Der Max. turbo von 3GHz und die geringe TDP beim 4114 ist halt auch noch so eine Sache. Wenn du den aktuellen Xeons nicht gerade optimierten code vorsetzt takten die über den turbo teilweise sehr gut hoch. Wenn die AVX Einheiten heizen sieht das anders aus, aber hörte sich ja nicht so an als wäre eure Software optimiert.
Ich habe Systeme mit 6132 und die laufen wenn da kein AVX workload anliegt und ohne HT bei irgendwas zwischen ca. 3250-3300MHz all core turbo bei recht genau 140W/CPU. Die TDP limitiert da, aber das sind schon beeindruckende reale Taktraten bei 10W/core.
Der 4114 hat 85W TDP, wäre interessant zu wissen, ob der bei 8.5W/core nah an die 3GHz Max turbo bei einfacher last auf allen Kernen kommt.
Der 5118 darf immerhin 105W verbraten(das wären 8.75W/core) und bis 3.2GHz takten.

Ich würde mal beim Lieferanten anfragen ob die auch andere Ausstattungsoptionen haben. Ich bestelle Workstations öfter mal bei DELL, da kann man im Konfigurator auch oft nicht alle Optionen sehen.
CPUs mit 2666er RAM und hoher TDP und damit hohem turbo takt unter last könnten wirklich interessant sein. Da könnte dann auch nur ein bestückter Sockel evtl. die besser Wahl sien als die 2 Silver 4114. Natürlich nur wenn man das auch gekühlt bekommt.

fideliovienna · 10.07.2018

Ich red nochmal mit unserem Lieferanten, ich finde ja auch die Beschränkung auf 8GB RAM-Module nicht wirklich sinnvoll und 12 Kanäle damit bestücken will ich nicht, weil ich einfach nicht soviel RAM brauche.
Die zu bearbeitenden Daten sind max. 10 GB gross, der alte 8 Kerner hatte 32 GB RAM und nicht mal die waren voll genutzt. (immer max 18 GB in Use)
Glaube aber ehrlich gesagt auch nicht dass ich die volle Speicherbandbreite eines Hexa-Channels für unsere Anwendung brauche

StormXP · 10.07.2018

fideliovienna schrieb:
Hallo,

ich bin gerade dabei in der Arbeit einen neuen Rechenknecht für unsere Masse anzuschaffen und stehe dabei vor der Entscheidung welche CPU ich nehmen soll.

Kleine Frage meinerseits, was meinst du mit Masse? Nicht zufällig einen Auswerterechner für Massenspektrometrie? Wenn ja, hätte ich da bestimmt noch 1-3 Fragen.

Morpheus2200 · 10.07.2018

Naja mehr Kerne freuen sich über mehr Speicherbandbreite, 10 oder 12 Kerne an 3 Kanälen ist nicht gerade üppig. Mit HT wären das 20/24 Threads pro Socket, 40/48 Threads gesamt die ihre Speicherzugriffe wenn keine Thread Affinität festgelegt werden kann auch noch teilweise über den benachbarten Sockel abwickeln.
Es gibt einige Anwendungen die unter solchen Bedingungen nicht besonders performen.

Hast du denn Informationen wie eure Anwendung parallelisiert ist? Gibt es da Refferenzbenchmarks?

fideliovienna · 10.07.2018

StormXP schrieb:
Kleine Frage meinerseits, was meinst du mit Masse? Nicht zufällig einen Auswerterechner für Massenspektrometrie? Wenn ja, hätte ich da bestimmt noch 1-3 Fragen.

Genau das, natürlich PepMaps (LC-MS/MS) und nicht Intakt

fdsonne · 10.07.2018

fideliovienna schrieb:
Lenovo bietet aber nur 2666er RAM an

Wenns der Prozessor nicht unterstüzt - bringt das halt keinen Mehrwert.

fideliovienna schrieb:
AVX512 nutzen die Programme sicher nicht, ...

Hast du geprüft oder denkst du?
-> vom Taktverhalten macht das einen eklatanten Unterschied - selbst wenn es "nur" AVX2 oder AVX zu non AVX Workload ist.

fideliovienna schrieb:
Ich red nochmal mit unserem Lieferanten, ich finde ja auch die Beschränkung auf 8GB RAM-Module nicht wirklich sinnvoll und 12 Kanäle damit bestücken will ich nicht, weil ich einfach nicht soviel RAM brauche.
Die zu bearbeitenden Daten sind max. 10 GB gross, der alte 8 Kerner hatte 32 GB RAM und nicht mal die waren voll genutzt. (immer max 18 GB in Use)
Glaube aber ehrlich gesagt auch nicht dass ich die volle Speicherbandbreite eines Hexa-Channels für unsere Anwendung brauche

MMn die falsche rangehensweise.
Die Frage ist nicht die RAM Größe (auch wenn RAM gerade teuer ist) - die Frage wäre, skaliert die Software über zwei NUMA Nodes/ist sie NUMA aware? Wenn nicht, dann benötigst du so viel RAM auf EINEM Node wie du für die Software selbst brauchst - der Rest liegt dann idR brach und man sollte eher drüber nachdenken, ob ne Dual CPU Maschine überhaupt Sinnvoll für so ein Konstrukt ist. Ganz wichtig bei der Thematik - nicht irgendwas annehmen, sondern entweder selbst Testen/Messen oder die Infos von Leuten einholen, die das entsprechend getestet haben/ggf. den Hersteller über die Zusammenhänge ausquetschen.

-> es ist reichlich sinnfrei bei Software, die nicht NUMA aware ist, ne Dual NUMA Node Maschine hinzuzimmern, wo du die hälfte vom RAM nicht effektiv gut ansprechen/nutzen kannst - weil der Spaß über den lahmen Interconnect angesprochen wird. Die Threadskalierung obenraus wird eher abnehmen.

Ich kann keine Aussagen zu Lenovo Produkten treffen - aber vom Prinzip her müssten eher erstmal die Basisfragen geklärt werden bevor man sich auf ein Modell einschießt. Weil ggf. wäre vllt sogar ne nur mit einer CPU bestückten großen Workstation die sinnigere Version, wenn du dann A) volle 6x RAM Channel belest, B) nur einen NUMA Node fährst und C) damit optimale Threadskalierung hast.

Auch die Turbotaktraten sind völlig unterbewertet hier in den Aussagen - die Max. Turbo Angabe ist idR völlig uninteressant - interessanter sind die einzelnen Bins unter Last bei entsprechender Threadanzahl. Nur mal als Beispiel (keine Ahnung ob die Angaben 100% korrekt sind)
Xeon Gold 5118 - Intel - WikiChip vs Xeon Silver 4114 - Intel - WikiChip
Der 10C/20T 4114 macht gerade mal 1,4GHz unter Volllast mit AVX512 - der 5118 12C/24T macht da noch 1,6GHz - nur für die Einschätzung des Mehrpreises. Das sind ~14% mehr Takt und 20% mehr Threads - idealerweise also ~36% mehr Performance unter Volllast. Klingt dann schon ein wenig anders als "nur 100MHz Base/200MHz Turbo Takt mehr"...

Ansonsten zur Hardware generell - hast du mal geschaut ob es bei Lenovo auch nen richtigen Konfigurator gibt? Nicht das public Ding von der Webpage - das kannste knicken. Ich hab hier quasi ausschließlich Fujitsu stehen - da gibts halt ein Tool und du kannst quasi konfigurieren wie du lustig bist. Große CPU in kleine Workstation usw. geht idR - ist halt unüblich und keine Stangenware - kostet möglicherweise bisschen Aufpreis und die Lieferzeit ist logisch etwas länger - die müssen das ja erst zusammen stecken. Aber es lässt sich dort halt völlig austoben...

PS: was war denn die alte Kiste?
Ne Dual 4C Maschine? Oder Single 8C?

Was AMD angeht - das Business Äquivalent dort wäre wohl die Epyc "P" Modellreihe. Bis 32C für ~2000€ das Stück. Das NUMA Problem ist dort aber noch ausgeprägter (4x Nodes).
Was TR angeht - TR ist Homeuse. Meines Wissens nach gibt es keine Threadripper "Pro" Modelle, es gibt nur Ryzen Pro und Eypc.

fideliovienna · 10.07.2018

fdsonne schrieb:
Wenns der Prozessor nicht unterstüzt - bringt das halt keinen Mehrwert.

Blunzn, wie man bei uns in Ö sagt, Preisunterschied lächerlich zwischen 2400er und 2666er.

Hast du geprüft oder denkst du?-> vom Taktverhalten macht das einen eklatanten Unterschied - selbst wenn es "nur" AVX2 oder AVX zu non AVX Workload ist.

Der Hersteller sagt nichts dazu, AVX512 gehe ich fix davon aus weil das auf der alten Kisten gar nicht unterstützt würde.
Hast du einen Tipp wie ich es auf der alten Kiste testen soll?

MMn die falsche rangehensweise.
Die Frage ist nicht die RAM Größe (auch wenn RAM gerade teuer ist) - die Frage wäre, skaliert die Software über zwei NUMA Nodes/ist sie NUMA aware? Wenn nicht, dann benötigst du so viel RAM auf EINEM Node wie du für die Software selbst brauchst - der Rest liegt dann idR brach und man sollte eher drüber nachdenken, ob ne Dual CPU Maschine überhaupt Sinnvoll für so ein Konstrukt ist. Ganz wichtig bei der Thematik - nicht irgendwas annehmen, sondern entweder selbst Testen/Messen oder die Infos von Leuten einholen, die das entsprechend getestet haben/ggf. den Hersteller über die Zusammenhänge ausquetschen.

Verrätst du mir woher ich das herausfinden soll?
In der Branche sind die Leute nicht übermäßig gesprächig mit Details und wenn haben die meisten Ahnung von der eigentlichen Anwendung und Know-how bezüglich Massenspektroskopie, aber sind keine IT-Nerds.
Der Hersteller für die eine SW sagt klar dass für unsere Lizenz (und eine darüber auch) Dual Xeon empfohlen wird und empfiehlt für die High-End Lizenz in Dual CPU-Variante 64 GB RAM.
Wir haben eben eine Lizenzversion darunter.

-> es ist reichlich sinnfrei bei Software, die nicht NUMA aware ist, ne Dual NUMA Node Maschine hinzuzimmern, wo du die hälfte vom RAM nicht effektiv gut ansprechen/nutzen kannst - weil der Spaß über den lahmen Interconnect angesprochen wird. Die Threadskalierung obenraus wird eher abnehmen.

Ehrlich, ich versteh nichts von NUMA, siehe oben, ich bin zwar HW interessiert was normale PCs angeht, aber in der Arbeit soll das Teil seinen Job machen.
Das wäre die Aufgabe einer IT, nur leider hat unsere kein Interesse mich bei der Auswahl des passenden Geräts zu unterstützen, ich hab schon einige Zeit gebraucht sie davon zu überzeugen dass ich nicht unsere beiden "Standard-Workstations" kaufen will, sondern komplett andere Anforderungen habe.

Ansonsten zur Hardware generell - hast du mal geschaut ob es bei Lenovo auch nen richtigen Konfigurator gibt? Nicht das public Ding von der Webpage - das kannste knicken.

Wie soll ich als Anwender etwas schauen das nicht public ist?
Da muss ich mich auf unseren Lieferanten verlassen, aber kann nochmal dort nachbohren.
Alte Maschine ist ein Dual 4C

Was AMD angeht - das Business Äquivalent dort wäre wohl die Epyc "P" Modellreihe. Bis 32C für ~2000€ das Stück. Das NUMA Problem ist dort aber noch ausgeprägter (4x Nodes).
Was TR angeht - TR ist Homeuse. Meines Wissens nach gibt es keine Threadripper "Pro" Modelle, es gibt nur Ryzen Pro und Eypc.

Vielleicht hab ich es nicht klar gesagt, ich brauch etwas lieferbares von Lenovo, zur Not und viel Zusatzaufwand noch Dell oder HP.
Hab beim schnellen durchsehen von keinem dieser Fertiger etwas mit AMD gefunden, ein paar Server ja, aber keine Workstation.

StormXP · 10.07.2018

fideliovienna schrieb:
Genau das, natürlich PepMaps (LC-MS/MS) und nicht Intakt

Das passt ja wie bestellt

. Genau vor diesem Problem stehe ich momentan auch (MS-core facility) und stehe ohne IT Support da.Wir machen alles, Elementaranalytik, Bioanalytik und Kleinstmoleküle. Nebenher auch noch HDX. Frage am Rande, arbeitet ihr nach DFG Leitlinien bezüglich Datenspeicherung? Und wenn dir das hier im Thread zu viel wird, gerne per PM oder Mail (offiziell von Institut zu Institut).

@fdsonne

Leider kann ich bestätigen das man so gut wie keine qualifizierten Aussagen bezüglich der Hardware/Software Anforderungen von den Herstellern bekommt. fideliovienna hat da vollkommen Recht, das sind Leute mit Biochem/Chemie Hintergrund, evtl. mal noch ein Bioinformatiker. Da machen sich die wenigsten nen Kopf um die IT Hintergründe. Auf meine Nachfragen ob eher IPC, Core Zahl oder gar IOPS wichtig sind, hab ich keinerlei sinnvolle Aussage bekommen. Ich setze noch Hoffnungen in nen Kontakt zum MPI in München (MaxQuant wird dort entwickelt). Mal sehen ob die eher was sagen können.

Wir haben hier 6 Massenspektrometer, ein weiteres ist in der Beantragung. Ergo, wir setzen hier momentan 5 verschiedene Softwareprodukte für die Auswertung ein.
Datensätze liegen zwischen 1Gb-300Gb pro Experiment.
Bei unserem Bioinfomatikworkflow (Proteome Discoverer/PEAKS/MaxQuant wem es was sagt), dauert die Prozessierung einer Probe normalerweise 2h (Workstation ist ein Dual 6C/12T Xeon X5xxx, 64Gb RAM, RAID 0 für Rohdaten, SATA-SSD für Sequenzen), eine komplizierte Probe (Phospho-Enrichment) dauert 9h in Etwa.

Dabei läuft die CPU meist bei 70-80%, RAM rund 32GB, wobei wir die Paralellisierung schon runtergeschraubt haben (ansonsten ist der RAM instant voll).
Um den Flaschenhals zu finden hatte ich Kontakt mit dem Hersteller, lapidare Aussage das müsste eigentlich schneller laufen, kauft doch nen PC mit den empfohlenen Eigenschaften (diese erfüllen wir).
Der Ressourcen Monitor zeigt das C:\ (das RAID) immer am Anschlag ist. Ich würde momentan sagen das die Datenbanksuche (wahrscheinlich MS-SQL basiert, danach bahe ich noch nicht gekuckt) IOPS limitiert ist. Versuch mit einem Austausch des RAID 0 gegen eine SATA SSD ist angedacht für nächste Woche (wenn alles klappt).

Hier mal ein paar Links zu den Softwarepaketen:
maxquant:common

ownload_and_installation [MaxQuant documentation]
https://tools.thermofisher.com/content/sfs/brochures/PS-Proteome-Discoverer-System-Requirements-EN.pdf
Loading Data - BSI

fdsonne · 10.07.2018

Ist das Windows oder Unix/Linux based? C:\ und MSSQL klingt klar nach Windows?

Weil wenn Windows könnte man doch für ne halbwegs brauchbare Aussage einfach mal A) ne Dual CPU Maschine nehmen (habt ihr ja offenbar beide so ein Teil) und dann B) die "Paralellisierung runterschrauben" - so dass die genutzte Threadanzahl maximal dem halben der gesamt verfügbaren Threads entspricht. Der Windows Taskmanager bspw. gibt dann auskunft, ob das verwendete Windows Betriebssystem die Software versucht auf einem NUMA Node zu halten (das zeigt sich dann dahingehend, dass die Auslastung sich auf eine CPU konzentriert (also die ersten 50% der Diagramme im CPU Reiter im Taskmanager Last haben, die anderen eher wenig bis nichts)
-> wenn das der Fall ist, dann scheint die Software recht wenig mit NUMA Nodes anfangen zu können. Das heist, versuchen ne Single Node Maschine zu bauen oder bei Dual CPU eben entsprechend so viel RAM reindrücken, dass eine CPU min. so viel Speicher zugesteckt bekommt, wie die Software selbst min. benötigt.

Auch gut für das Troubleshooting machen sich die alten Maschinen - weil deren QPI eben idR arschlahm ist. Du kannst also direkt messen, wenn die Kiste anstatt sagen wir 8-12 Threads auf einer CPU zu belegen, diese auf zwei verteilen muss, wie stark die Skalierung da nach oben abflacht. Hier wäre also ein Test zu fahren, wo du via Taskmanager die Software auf die ersten 8-12 Threads festpinst und dann im zweiten Run die Software zu 4-6 Threads auf CPU 1/NUMA Node 1 und 4-6 Threads auf CPU 2/NUMA Node 2. Auch spielt einem dort in die Karten, dass die alten CPUs meist keinen Turbo oder nur ne redimentäre Umsetzung haben (bei Teilllast also nicht deutlich mehr Takt anliegt als bei Volllast)
Beide Werte zusammen verglichen sagt einem dann, skaliert über die zweite CPU oder nicht... Wenn das paar Prozent hoch oder runter geht, geschenkt. Aber wenn da der Zwang auf die zweite CPU deutlich weniger Leistung bringt - weist du, der Spaß ist besser auf ner Single CPU Maschine aufgehoben.

Thema AVX - schwierig. Die alten CPUs können so oder so kein AVX. AVX gibts ab Sandy Bridge bei Intel. Das ist/war die erste E5-2600 Reihe bspw. Die 55/5600er Xeons sind die Vorgänger davon - die können das nicht. Entsprechend lässt sich da nix von ausmachen. Um rauszubekommen, ob die Software AVX kann und nutzt könnte man wahlweise ne aktuelle CPU (so neu wie möglich - wegen AVX512) testen und sich bspw. das Taktverhalten ansehen. Bei den aktuellen Reihen liegen jeweils andere Taktraten an zwischen non AVX, AVX2 und AVX512. Mit nem Disassembler könnte man da noch Infos rausbekommen, das dürfte aber hier reichlich übers Ziel hinaus schießen das hier jetzt zu erklären.

Thema IO/Storage - wenn das storage lastig ist, bringt viel RAM meist ne Menge Punkte - Stichwort Disk-Cache. Ein modernes OS kippt dir so viel wie möglich Daten in den RAM und nutzt den Spaß als lokalen Cache. Das macht übel viel Speed aus. SSDs (ggf. gleich ne PCIe oder M.2 NVMe Version) würden das dann nochmals weiter beschleunigen.

@fideliovienna
zum RAM - Fr@ddy meinte wohl eher, dass die CPU das nicht ansprechen kann, egal wie viel das nun kostet oder eben nicht mehr kostet. Du hast nicht die volle Ausbaustufe mit der möglichst höchsten Leistung in dem Fall. Für gewisse Szenarien will man aber genau das - ich hab hier bspw. Server, wo >100 VMs drauf laufen. Auf einem Blech. Es teilen sich also über 100 VMs die Speicherbandbreite von dem, was der/die CPU(s) da zusammen bekommen. Mit nem Hexachannel Interface wären das >100GB/s Bandbreite. Mit Quadchannel wären das nur noch um die 70 usw.

Zum Konfigurator bei Lenovo - frag mal dort ob da noch was existiert. Wie gesagt, ich nutze hier Fujitsu - da kannst du Online was zusammen klickern -> das taugt meist aber nix. Es gibt aber ein Tool, da hast du völlig freie Hand. Das ist auch "public" - nur findest du es eben nicht groß und fett auf der Webseite verlinkt - man muss wissen das es das gibt und gezielt danach suchen -> dann bekommt man das auch. Keine Ahnung ob das bei Lenovo sowas auch gibt. Denke aber schon... Bei HP(E) gibts das, bei Fujitsu, bei Cisco (wenn dort auch als Web-Version) usw. Schwer vorstellbar, dass es da nur diesen rudimentären Webmist gibt...

Was den letzten Punkt angeht - klar hab ich schon verstanden

Ich versuchte nur zu erklären, warum du da keine Threadripper siehst. -> weil es keine Pro Modelle des TR gibt.

StormXP · 10.07.2018

fdsonne schrieb:
Ist das Windows oder Unix/Linux based? C:\ und MSSQL klingt klar nach Windows?

Weil wenn Windows könnte man doch für ne halbwegs brauchbare Aussage einfach mal A) ne Dual CPU Maschine nehmen (habt ihr ja offenbar beide so ein Teil) und dann B) die "Paralellisierung runterschrauben" - so dass die genutzte Threadanzahl maximal dem halben der gesamt verfügbaren Threads entspricht. Der Windows Taskmanager bspw. gibt dann auskunft, ob das verwendete Windows Betriebssystem die Software versucht auf einem NUMA Node zu halten (das zeigt sich dann dahingehend, dass die Auslastung sich auf eine CPU konzentriert (also die ersten 50% der Diagramme im CPU Reiter im Taskmanager Last haben, die anderen eher wenig bis nichts)
-> wenn das der Fall ist, dann scheint die Software recht wenig mit NUMA Nodes anfangen zu können. Das heist, versuchen ne Single Node Maschine zu bauen oder bei Dual CPU eben entsprechend so viel RAM reindrücken, dass eine CPU min. so viel Speicher zugesteckt bekommt, wie die Software selbst min. benötigt.

Bei mir sind alles Windowsmaschinen (alles Win7 Prof x64), die Paralellisierung ist schon runtergeschraubt (von 6 Searches auf 2), weil uns sonst der RAM vollläuft und die Kiste abschmiert. In dem Fall liegt die CPU Last bei ca. 70-80%.
Ich würde gerne weiter testen, allerdings ist unser Dual Socket Teil das Arbeitstier, wenn ich da mal eben nen Tag für Troubleshooting brauche und den Routinebetrieb totlege, brennt die Hütte. Zudem gehört mein Chef zur Sorte, mehr Kerne sind immer gut... Die Details sind da eher unwichtig für ihn (auch wenn ich die als essentiell ansehe. Zudem müsste man immer die selbe Probe mit den selben Parametern berechnen, das will hier auch keiner

fdsonne schrieb:
Auch gut für das Troubleshooting machen sich die alten Maschinen - weil deren QPI eben idR arschlahm ist. Du kannst also direkt messen, wenn die Kiste anstatt sagen wir 8-12 Threads auf einer CPU zu belegen, diese auf zwei verteilen muss, wie stark die Skalierung da nach oben abflacht. Hier wäre also ein Test zu fahren, wo du via Taskmanager die Software auf die ersten 8-12 Threads festpinst und dann im zweiten Run die Software zu 4-6 Threads auf CPU 1/NUMA Node 1 und 4-6 Threads auf CPU 2/NUMA Node 2. Auch spielt einem dort in die Karten, dass die alten CPUs meist keinen Turbo oder nur ne redimentäre Umsetzung haben (bei Teilllast also nicht deutlich mehr Takt anliegt als bei Volllast)
Beide Werte zusammen verglichen sagt einem dann, skaliert über die zweite CPU oder nicht... Wenn das paar Prozent hoch oder runter geht, geschenkt. Aber wenn da der Zwang auf die zweite CPU deutlich weniger Leistung bringt - weist du, der Spaß ist besser auf ner Single CPU Maschine aufgehoben.

Ich habe testweise (Homeoffice einen Monat wegen Kind), eine Software bei mir laufen lassen. Also Sandy-E mit Quad RAM und NVMe SSD gegen einen Skylake 6700 auf SATA SSD und Dual Channel RAM. Meine Schüssel war bei 400Gb Daten circa 25% schneller beim prozessieren, gleiches Projekt, nur anders berechnet. In dem speziellen Fall gehe ich davon aus, dass das Quad Interface was bringt. Die NVMe sehe ich da eher als Gimmick an.

fdsonne schrieb:
Thema AVX - schwierig. Die alten CPUs können so oder so kein AVX. AVX gibts ab Sandy Bridge bei Intel. Das ist/war die erste E5-2600 Reihe bspw. Die 55/5600er Xeons sind die Vorgänger davon - die können das nicht. Entsprechend lässt sich da nix von ausmachen. Um rauszubekommen, ob die Software AVX kann und nutzt könnte man wahlweise ne aktuelle CPU (so neu wie möglich - wegen AVX512) testen und sich bspw. das Taktverhalten ansehen. Bei den aktuellen Reihen liegen jeweils andere Taktraten an zwischen non AVX, AVX2 und AVX512. Mit nem Disassembler könnte man da noch Infos rausbekommen, das dürfte aber hier reichlich übers Ziel hinaus schießen das hier jetzt zu erklären.

Ich hab an und an viel Zeit, wenn du mir das näher erläuterst, teste ich nach Möglichkeit gerne. Ich kenne genug Leute die davon profitieren würden, sodass sich der Auwand evtl. lohnt.

fdsonne schrieb:
Thema IO/Storage - wenn das storage lastig ist, bringt viel RAM meist ne Menge Punkte - Stichwort Disk-Cache. Ein modernes OS kippt dir so viel wie möglich Daten in den RAM und nutzt den Spaß als lokalen Cache. Das macht übel viel Speed aus. SSDs (ggf. gleich ne PCIe oder M.2 NVMe Version) würden das dann nochmals weiter beschleunigen.

Ich würde gerne eine Optane testen, oder erstmal, um den IOPS Einfluss zu sehen, eine performante NVMe (also scheidet meine 600p eigentlich fast aus). Mal sehen wie ich das hinbekomme. Evtl. muss ich mal mit Evaluierungssoftwarelizenzen und VM Ware hantieren. Ich hätte noch (leider zu bezahlenden) Zugriff auf ein ESX Cluster, wo man sich auch mal testweise was ordern könnte. Das würde aber Storage-seitig alles von RAID´s auf SAS Platten bis hin zu RZ SSD´s alles beinhalten. Ich glaube die schnellste Storagekonfig lag bei nem RAID aus SSD´s. Muss ich morgen (wenn die Leute keinen Urlaub haben) mal anfragen.

Morpheus2200 · 11.07.2018

fdsonne schrieb:
Auch die Turbotaktraten sind völlig unterbewertet hier in den Aussagen - die Max. Turbo Angabe ist idR völlig uninteressant - interessanter sind die einzelnen Bins unter Last bei entsprechender Threadanzahl. Nur mal als Beispiel (keine Ahnung ob die Angaben 100% korrekt sind)
Xeon Gold 5118 - Intel - WikiChip vs Xeon Silver 4114 - Intel - WikiChip
Der 10C/20T 4114 macht gerade mal 1,4GHz unter Volllast mit AVX512 - der 5118 12C/24T macht da noch 1,6GHz - nur für die Einschätzung des Mehrpreises. Das sind ~14% mehr Takt und 20% mehr Threads - idealerweise also ~36% mehr Performance unter Volllast. Klingt dann schon ein wenig anders als "nur 100MHz Base/200MHz Turbo Takt mehr"...

Kein AVX512 war die Aussage, solche Branchensoftware ist oft auch nicht perfekt optimiert. Da werden lieber ein paar neue Funktionen eingebaut für die man extra Geld verlangen kann als dass man an der Performance arbeitet. Ist die Software schneller kommen die Kunden evtl. auch mit den kleineren Lizenzen aus. Die Motivation da viel Arbeit in optimierung zu stecken gibt es erst wenn es
Wenn du von einem Workload ohne AVX ausgehst kommen die aktuellen Xeons schon in vielen Situationen nah an ihre maximalen turbo clocks. Zumindest ist das meine Erfahrung mit den Kisten die ordentlich gekühlt im Serverraum stehen.
Wenn die Software bei 80% CPU Last laut Taskmanager hängt gibt es auch immer mal wieder Threads die nix tun. Die turbo Taktraten bei den aktuellen Xeon CPUs sind TDP limitiert, zwischen 139.8 und 139.9W ziehen sich die 140W TDP CPUs die ich unter Last beobachtet habe unter last ohen AVX sind die damit auch bei 100% Last schon deutlich näher am max turbo als am base clock.

Wenn I/O ein Thema ist würde ich das erstmal optimieren. Die Entwicklung der SSDs der letzten Jahre hat wirklich performantes Storage erschwinglich gemacht. Die Storage Nutzung kann man übrigens auch unter Windows mit dem Taskmanager mal analysieren.

Wie viel schneller muss es denn werden?
Und wie viel teurer als die Hardware ist die Softwarelizenz?

Übrigens einmal nach einder der verlinkten Software Produkte gesucht und https://pubs.acs.org/doi/pdf/10.1021/pr400181q gefunden. Ist von 2013 und damit nicht ganz aktuell, aber den ein oder anderen Schluss kann man daraus schon ziehen.
Ich würde mich für die Software demnach erstmal um flottes Storage kümmern und danach um die CPUs.

Kleiner Nachtrag: Number of threads: each thread needs at least 2 GB of RAM, number of threads should be ≤ number of logical cores available (otherwise, MaxQuant can crash).
Da jeder Thread seinen eigenen Speicherbereich hat kann man bedenkenlos zu Dual Socket Systemen greifen. Aber zumindest wenn du dich für die 12-core Variante entscheidest würde ich über die Speicherbestückung nochmal nachdenken.

StormXP · 11.07.2018

Fr@ddy schrieb:
Wenn I/O ein Thema ist würde ich das erstmal optimieren. Die Entwicklung der SSDs der letzten Jahre hat wirklich performantes Storage erschwinglich gemacht. Die Storage Nutzung kann man übrigens auch unter Windows mit dem Taskmanager mal analysieren.

Wie viel schneller muss es denn werden?
Und wie viel teurer als die Hardware ist die Softwarelizenz?

Übrigens einmal nach einder der verlinkten Software Produkte gesucht und https://pubs.acs.org/doi/pdf/10.1021/pr400181q gefunden. Ist von 2013 und damit nicht ganz aktuell, aber den ein oder anderen Schluss kann man daraus schon ziehen.
Ich würde mich für die Software demnach erstmal um flottes Storage kümmern und danach um die CPUs.

Hey, Danke für das Paper, auf die Idee bin ich noch nicht gekommen, einfach mal ne Suche in der Hinsicht zu starten. Manchmal ist man einfach blind.
Das werde ich meinem Chef mal vorlegen.
Und mich bestätigt das in meiner Annahme, das hier das Storage ersteinmal das offensichtliche Bottleneck ist.

Morpheus2200 · 11.07.2018

Das Paper war von 2013, die SSDs damals waren schon deutlich besser als HDDs, aber gegenüber den Modellen die man heute kaufen kann sind die langsam.
Eine Optane (Consumer version) mit 480GB gibt es schon für unter 600 Euro, und bringt mehr I/O Leistung als vor ein Paar Jahren in ein ganzes Rack gepasst haben. Es gibt auch große NVME SSDs mit ordentlicher performance.
Sowas kann man auch mal nachträglich kaufen und in die Workstation mit support stöpseln ohne das die Garantie erlischt.
Bei den großen Herstellern sind die Storage Preise teilweise extrem.

StormXP · 11.07.2018

Das ist vollkommen klar, mein Chef wäre auch bereit die angesprochene 480er Optane zu kaufen (die existierende Tesla und Quadro fliegt dann halt), allerdings möchte ich erst sehen ob unsere Probleme wirklich daher kommen. Deshalb zuerst der Versuch mit einer SATA SSD.

fideliovienna · 11.07.2018

StormXP schrieb:
Das passt ja wie bestellt . Genau vor diesem Problem stehe ich momentan auch (MS-core facility) und stehe ohne IT Support da.Wir machen alles, Elementaranalytik, Bioanalytik und Kleinstmoleküle. Nebenher auch noch HDX. Frage am Rande, arbeitet ihr nach DFG Leitlinien bezüglich Datenspeicherung? Und wenn dir das hier im Thread zu viel wird, gerne per PM oder Mail (offiziell von Institut zu Institut).

Bin nicht in der Privatwirtschaft (Pharma, Entwicklung mit Fokus auf Proteine und pDNA), also betrifft mich DFG nicht, aber wie Daten sicher gespeichert und auch in 25 Jahren noch auffindbar sind ist natürlich auch für uns ein großes Thema. (sind ja verpflichtet Rohdaten mindestens 25 Jahre zu speichern)
Details können wir bissl über PM austauschen, hier im Forum nicht im Detail, sonst bräuchte ich gleich mit allen ein CDA

Wir haben hier 6 Massenspektrometer, ein weiteres ist in der Beantragung. Ergo, wir setzen hier momentan 5 verschiedene Softwareprodukte für die Auswertung ein.
Datensätze liegen zwischen 1Gb-300Gb pro Experiment.
Bei unserem Bioinfomatikworkflow (Proteome Discoverer/PEAKS/MaxQuant wem es was sagt), dauert die Prozessierung einer Probe normalerweise 2h (Workstation ist ein Dual 6C/12T Xeon X5xxx, 64Gb RAM, RAID 0 für Rohdaten, SATA-SSD für Sequenzen), eine komplizierte Probe (Phospho-Enrichment) dauert 9h in Etwa.

Dann teilen wir uns zumindest ein Programm, nämlich den Thermo Proteome Discoverer, wir nutzen sonst noch Thermo Biopharma Finder.
Zusätzlich, als dritte SW beachte ich noch die SW auf die wir in Zukunft switchen wollen (Protein metrics), da haben wir die Evaluierung abgeschlossen und sind nun in Lizenzverhandlungen. (wer diese Preise einmal gesehen hat, ärgert sich nie wieder über Adobe-Preise

)

Generell ist die Thematik ja etwas komplexer, weil man soviel berücksichtigen muss.
Alleine die verwendete MS-Plattform liefert schon völlig unterschiedliche Datenmengen (bei uns Orbitrap und eine Xevo TQ-XS), dann kommt noch dazu dass natürlich die Settings der "Datenaufnahme" die Dateigröße und die Komplexität der nachträglich ausgeführten Analyse extrem starken Einfluss haben. D.h., wenn jemand in einem Paper etwas beschreibt kann man das nicht direkt umsetzen.
Ich sehe zB bei uns überhaupt keine Limitierung durch die HDDs, muss ich mir trotzdem überlegen ob ich nicht doch ein zweite SSD dazu konfiguriere. Bei Protein Metrics hat damals bei der Evaluierung darauf natürlich niemand geschaut und die Testversion ist bereits abgelaufen, d.h. da kann ich nichts mehr machen.

fdsonne schrieb:
Ist das Windows oder Unix/Linux based? C:\ und MSSQL klingt klar nach Windows?

Bei mir auch nur Windows, mit der neuen Workstation Umstieg auf Windows 10 Pro Workstation

Weil wenn Windows könnte man doch für ne halbwegs brauchbare Aussage einfach mal A) ne Dual CPU Maschine nehmen (habt ihr ja offenbar beide so ein Teil) und dann B) die "Paralellisierung runterschrauben" - so dass die genutzte Threadanzahl maximal dem halben der gesamt verfügbaren Threads entspricht. Der Windows Taskmanager bspw. gibt dann auskunft, ....

Check ich, vielen Dank.
AVX lass ich mal links liegen, bei der Thermo-SW bin ich mir, sowie ich Thermo kenne, sicher dass die sich nie um optimierten Code gekümmert haben.
Bei Protein metrics habe ich nochmal angefragt, schauen wir mal was sie sagen.

Thema IO/Storage - wenn das storage lastig ist, bringt viel RAM meist ne Menge Punkte - Stichwort Disk-Cache. Ein modernes OS kippt dir so viel wie möglich Daten in den RAM und nutzt den Spaß als lokalen Cache. Das macht übel viel Speed aus. SSDs (ggf. gleich ne PCIe oder M.2 NVMe Version) würden das dann nochmals weiter beschleunigen.

Wie weiter oben geschrieben, ich sehe die IO-Lastigkeit bei unserem Workflow nicht so wie Storm, aber werd ich nochmal checken. Kommt halt eine SSD rein oder ähnliches noch zusätzlich rein für aktuelle Daten in Bearbeitung und das RAID 5 für Archivierung bis die Daten monatlich auf den Server gesichert werden.
Wir arbeiten auch nicht mit MASCOT oder ähnlichem, ich vermute mal stark dass die Datenbank bei Storm hier wirklich IO-lastig ist, wir sind nur sehr selten bei Identifizierungen mit Datenbanksuchen unterwegs.

Zum Konfigurator bei Lenovo - frag mal dort ob da noch was existiert. Wie gesagt, ich nutze hier Fujitsu - da kannst du Online was zusammen klickern -> das taugt meist aber nix. Es gibt aber ein Tool, da hast du völlig freie Hand. Das ist auch "public" - nur findest du es eben nicht groß und fett auf der Webseite verlinkt - man muss wissen das es das gibt und gezielt danach suchen -> dann bekommt man das auch. Keine Ahnung ob das bei Lenovo sowas auch gibt. Denke aber schon... Bei HP(E) gibts das, bei Fujitsu, bei Cisco (wenn dort auch als Web-Version) usw. Schwer vorstellbar, dass es da nur diesen rudimentären Webmist gibt...

Mach mich mal auf die Suche, derzeit ist Lenovo so lahm dass sie mir nach 3 Arbeitstagen noch nicht einmal ein Angebot für die 2 Konfigs geschickt haben, möchte nicht wissen wie lange dass dann bei denen dauert wenn man wirklich noch spezieller konfiguriert.

Fr@ddy schrieb:
Wie viel schneller muss es denn werden?
Und wie viel teurer als die Hardware ist die Softwarelizenz?

Einfach gesagt, die beiden aktuellen SW halten sich von den Preisen her in Grenzen, jene welche in Evaluierung ist kostet eine Lawine, bei weitem mehr pro Jahr als die Investition in die Workstation

Ich bin in diesem Fall ja sogar in dem Vorteil dass es das Budget meiner Laborgruppe ist, das heißt ich brauch (bis zu einem bestimmten Limit niemand wegen dem Geld fragen), mein Scientist für die Masse ist aber kein IT-Nerd, sondern MS-Nerd

Darum wollte ich die Konfig für Ihn erledigen, naja, lern ich was dazu.

Aber vielen Dank auf jeden Fall schon mal vorab für all die guten Hinweise bisher, ich werd mir auch mal anschauen wo ich mit einer Single-CPU Workstation mit einer 20-Core CPU preislich lande, vielleicht doch eine interessante Option.

Kullberg · 11.07.2018

@StormXP
Wenn bei Dir das lahme RAID array derzeit der Bottleneck ist, Du aber schon 70 - 80% CPU Auslastung hast, dann wird die SATA SSD schon völlig ausreichen, um auf 100% zu kommen.

Falls performance Werte unter W7 pro 64 Bit trotzdem interessant sind:
Intel Optane 900P 280 GB

Samsung 960 Pro 1 TB

Die laufen allerdings auf höchst unterschiedlichen Rechnern, die Optane auf nem 2x Xeon E5-2679v4, die 960 Pro auf nem Xeon E3-1245v5

StormXP · 11.07.2018

@fidelio OK, ich schick dir mal ne PM, das artet hier sonst aus und CDA´s will keiner.

@kullberg
Danke für die Werte, ich glaube deine Schachsimulationen (hab ich doch richtig im Gedächtnis, oder?) kann man gut mit Proteomicsanwendungen vergleichen. So vom Bauchgefühl her, würde ich sagen die Optane würde besser skalieren, gerade bei vielen kleinen Datenbankanfragen.
Unsere jetzige Workstaion ist eh bald altes Eisen, das neue Gerät stellt nebenher noch Anforderungen an das Storage (produziert 100Tb pro Jahr), sodass ich jetzt lieber einen dicken, IO optimierten Server zusammenstelle, um auch unsere jetzigen Bottlenecks zu beseitigen.
Wenn die jetzige Workstation dann letztlich als Storage und CPU Sklave für nicht kritische Anwendungen herhält, auch OK. So jedenfalls mein Plan.

Ich bin (bisher) relativ frei im Bestellvorgang. Habe eine Firma in Hamburg (DELTA Computer), von denen hab ich vor 5 Jahren nen Hexacore Server zusammengestellt bekommen für faires Geld. Diese bieten auch Epyc´s etc. an. Systemhäuser kommen so gut wie nicht in Frage, da wir als Uni kein Geld (außer evtl. Drittmittel) für Support haben. Unsere Förderungen sehen das einfach nicht vor. Bis sich das mal ändert, gehen noch 10 Jahre ins Land.
Mir schwebt ein Dual Epyc/Xeon mit 128-256 Gb RAM vor, dazu Optane im Bereich von 1-2Tb, und ca. 10Tb SAS RAID. Das ganze mit ESX Essential (wenn das alles kann was wir wollen, muss ich mich noch einlesen) und dann unsere bestehenden Auswerte Rechner virtualisiert. Das wenn möglich mit Anbindung bzw. Mirror ans Rechenzentrum der Uni. Sodass wenn der mal aussteigt, die VM´s nur woanders gehostet werden. Eventuell könnte man den dann auch in das vSphere Cluster mit integrieren. Muss ich die Verantwortlichen mal fragen nach der Urlaubszeit.
Und unsere allgemeine Auswerte Software dann geclustert auf allem was wir sonst so haben, bzw. zwei Cluster für die Redundanz. Da wir eh nur i7´s bzw. Xeon´s einsetzen (circa 8-10 Maschinen, Minimum Ivy Bridge) könnte man da was machen.
Mal sehen. Das Storage ist halt das was mir Kopfzerbrechen bereitet. Kerne etc. kann ich in gewissen Maße abschätzen, Storage nur sehr sehr vage.

Morpheus2200 · 12.07.2018

Bei I/O lastigen Workloads auf Virtualisierung zu setzen würde ich mir gut überlegen, ich habs bisher gemieden, war aber eher so ein Bauchgefühl als das ich da schlechte Erfahrungen gemacht hätte.
Die 128/256GB RAM und so performantes Storage haben die vermutlich im Fehlerfall auf der anderen Seite des ESX Clusters ja auch nicht als Reserve. Daher hast du keine volle Redundanz.
Aber warum kein zentrales Storage und redundante Rechner? Da kann man dann auch an zwei Datensätzen zeitgleich arbeiten und wenn einer streikt gibt es keine Probleme. Das ganze ist dann auch skalierbar wenn man mehr Nutzer hat.

Aber bei den Datenbanken würde ich mir mal ansehen, ob man das bei großen Datenmengen nicht auf einem ordentlichen Datenbankserver betreiben kann. Wenn die Aplikation sowas zulässt.
Ab einer gewissen größe und Last performen richtige Datenbanken einfach deutlich besser als gefrickeltes Zeug.
Hier gab es mal Software die zunächst mit SQLite entwickelt wurde (weils einfach geht...), in Produktiver Umgebung war das grausam.
Seitdem ich dafür eine Postgress Datenbank betreibe sind auch 10.000 offene Verbindungen kein Problem und die Performance ist kein Vergleich.

Ab und zu macht es auch Sinn sich mal anzusehen, was die Software da macht und nicht zu versuchen mit performanter Hardware gegenzusteuern.
Ich frage z.B. jeden Nutzer der hier jobs rechnet die über längere zeit mehr als 1000 OPS/s am Storage verursachen was er da macht. Meist ist das keine Effektive Nutzung der Ressourcen und lässt sich das irgendwie verhindern.

StormXP · 12.07.2018

Guter Einwurf, genau da bin ich mit unserer IT momentan am planen. Zentraler Storage ist eine andere Baustelle, da ist erstmal unser Rechenzentrum gefragt.
Virtualisierung nur wenn es auch wirklich einen Mehrwert bringt. Ansonsten direkt aufs Blech.
Zum Glück haben wir noch ein wenig Zeit.
Datenbankserver mit SQL steht hier schon rum, ob bzw. inwieweit ich da Datenbanken der Programme drauf legen kann, ist auf jeden Fall noch abzuklären.
Danke für den Tip, hätte ich so nicht dran gedacht.

fideliovienna · 12.07.2018

StormXP und ich haben uns auch etwas per PM ausgetauscht, unsere Anwendungen und somit auch Anforderungen sind etwas unterschiedlich, er hat weit mehr IO-lastige Jobs wie ich.

Ich hab parallel jetzt bei unserem Lieferanten noch eine Variante zur Angebotslegung in Auftrag gegeben, eben aufgrund eures Feedback noch eine Single-CPU Variante mit einem Xeon Gold 6148
zusätzlich noch eine 1 TB SSD für die aktuell zu bearbeitenden Daten für die paar Fälle wo wir auch mehr mit Datenbanksuche arbeiten.

@fdsonne:
Bei Lenovo bin ich bei den Workstations nicht auf einen besseren Konfigurator gestossen, für Server sehr wohl.
Laut unserem Lieferanten gibt es das auch nicht bei Lenovo, vielleicht will er aber auch nicht mit seinem Tool rausrücken.
Hab jetzt einfach mal meine Wünsche quer über die verschiedenen Varianten an den Lieferanten geschickt, und ihn darum gebeten das Teil so zu konfigurieren, mal schauen was retour kommt.

fideliovienna · 20.07.2018

Um das ganze abzuschließen hier die Entscheidung die ich getroffen habe.

Wir haben jetzt eine Single-CPU Maschine mit dem Xeon Gold 6142 genommen.
Um für zukünftige Workflows und mehr Datenbanksuchen auch gerüstet zu sein steckt jetzt eine zweite 512 GB SDD im Rechner für die aktuell zu bearbeitenden Daten und zusätzlich wird die CPU von 6 x 16GB RAM unterstützt.
RAM habe ich aufgestockt weil ich gerne etwas für eine RAM-Disk abzweigen möchte (mir schweben 32 GB vor), würde gerne testen ob wir damit bei Datenbank-Tasks noch etwas mehr Speed herausholen können.

Preislich war der Unterschied zwischen Listenpreis und Angebot mit Firmenrabatt sehr verlockend um die teurere Konfig zu nehmen.

StormXP · 20.07.2018

Das hört sich gut an, gib bitte mal Rückmeldung wenn eure Workflows laufen wie sich die Performance geändert hat. Der RAM Disk Gedanke hört sich auf jeden Fall sehr gut an, gerade mit dem Hexa-Channel Interface.

fideliovienna · 20.07.2018

Klaro, ich meld mich sobald wir mit der neuen HW die ersten Erfahrungen gesammelt haben

P.S: Mainboard ist Dual-CPU geeignet, Netzteil auch schon so ausgelegt, also wenn die Leistung nicht reicht könnten wir nachlegen

Lenovo P720 - Dual Xeon Silver 4114 oder Gold 5118

Enthusiast

Urgestein

Enthusiast

Mr. Alzheimer

Enthusiast

Semiprofi

Enthusiast

Semiprofi

Enthusiast

Enthusiast

Semiprofi

Enthusiast

Legende

Enthusiast

Enthusiast

Legende

Enthusiast

Semiprofi

Enthusiast

Semiprofi

Enthusiast

Enthusiast

Computer Schach Freak

Enthusiast

Semiprofi

Enthusiast

Enthusiast

Enthusiast

Enthusiast

Enthusiast