+ Antworten
Ergebnis 1 bis 7 von 7
  1. #1
    Flottillenadmiral
    Registriert seit
    29.10.2007
    Ort
    nähe München
    Beiträge
    4.202


    • Systeminfo
      • Motherboard:
      • Asus Rampage IV Formula
      • CPU:
      • Intel Core i7 3930k
      • Systemname:
      • Spe3dRay
      • Kühlung:
      • Wakü
      • Gehäuse:
      • Lian Li PC-A71FB
      • RAM:
      • 16 GB Corsair Dom. Plat. 1866
      • Grafik:
      • EVGA Geforce GTX 680 SC Sig.
      • Storage:
      • Samsung SSD830 512 GB + WD Caviar Blue 640 GB
      • Monitor:
      • Dell U2408WFP
      • Netzwerk:
      • HP ProCurve + IPFire
      • Sound:
      • Asus Xonar Essence One, Onkyo A-9377, KEF Q300
      • Netzteil:
      • Corsair AX750
      • Betriebssystem:
      • Windows 7 x64
      • Photoequipment:
      • Nikon D90
      • Handy:
      • HTC One X

    Post Server hängt sich auf - und das ganze Netzwerk gleich mit

    Hallo zusammen,

    ich hab ein ganz besonders interessantes Problem:
    Nachdem mein Backupserver letzte Woche die Krätsche gemacht hat (Absturz beim Backup auf Band mit Parity Error auf dem PCI-X Slot in dem der SCSI Controller steckt) und dann nimmer an ging hab ich den Wechsler an meinen Fileserver gesteckt (der hat SCSI Onboard) und dort die Software installiert (Symantec Backup Exec 2010).

    Config vom Fileserver sieht folgendermaßen aus:
    Asus TR-DLS
    2x Pentium III 1,4 GHz
    4 GB RAM (ECC Reg.)
    Intel Pro/1000 MT Server
    3Ware 9550SX-16ML
    2x SCSI Onboard (ein Kanal über Slotblech raus geführt)
    HP SureStore 1/8 LTO Autoloader
    Windows Server 2008
    Backup Exec 2010

    Beim Backup (Daten liegen lokal) hat sich der Server dann aufgehängt (kein Bluescreen, eher ein Freeze), das ganze später wieder.
    Das schieb ich jetzt mal aufs Backup Exec, ist mir heut Nacht nämlich wieder passiert und da hing kein Wechsler mehr dran. Vorher war nie was in der Art und ich betreibe das System schon sehr lange.
    Hab jetzt die Backup Exec Dienste mal alle gestoppt und feg das heut Abend von der Platte.

    Was mich aber gewundert hat:
    Solang der Server hing ging im Netzwerk gar nichts. Als würden die Switches hängen.
    Die Server hängen an nem HP ProCurve 1810G-24, meine beiden Clients an nem 1800-8G der an ersterem hängt.
    Meine Clients waren aber weder untereinander über den kleinen noch sonstwohin über den großen Switch dazu in der Lage zu kommunizieren.
    Der betroffene Server übernimmt aber keine fürs Netz lebenswichtigen Aufgaben wie DHCP, DNS oder WINS, das macht der DC der vom Ausfall selbst nicht betroffen war.

    Meine fast noch größere Sorge als die warum der Server hängt ist warum die Switches so anfällig reagieren.
    Wäre es evtl. denkbar dass der Server sie durch die Flow Control komplett ausbremst?

    Das ist mir ein Rätsel.
    Hauptsys: Core i7 3930k @4,5 GHz, 16 GB Corsair Dominator Platinum, Asus Rampage IV Formula, EVGA GTX 680 SC Signature, Samsung SSD830 512 GB, TEAC BD-W512S-A, Corsair AX750, Dell 2408WFP @Wakü -> Worklog
    HIFI: Asus Xonar Essence One, Onkyo A-9377, KEF Q300, KEF Q400b
    ZweitPC: Core2Quad Q9550 2,83 GHz, 8 GB Kingston HyperX DDR2-800 Black Edition, Asus P5Q PRO, EVGA GeForce GTX 285 SSC, Intel SSD320 160 GB, Pioneer DVR-216DBK, PC Power & Cooling Silencer 500 W, Lian Li PC-7 SE III, Fujitsu P24W-5 ECO

  2. Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.

  3. #2
    Korvettenkapitän Avatar von Kullberg
    Registriert seit
    18.02.2005
    Beiträge
    2.545


    Standard

    Ich hatte mal so ein Problem in meinem Cluster. Da sendete ein abgestürzter Rechner unkontrolliert Pakete ins Netzwerk und legte somit alles lahm. Kannst ja mal bzgl. "broadcast storm" googeln. Die meisten Switches (Deiner auch) haben für sowas Einstellungen wie "network storm control", wo man die Datenrate begrenzen kann.
    Nehalem EP / Westmere Cluster 300 Cores
    http://rybkachess.com/

  4. #3
    Flottillenadmiral
    Registriert seit
    29.10.2007
    Ort
    nähe München
    Beiträge
    4.202
    Themenstarter


    • Systeminfo
      • Motherboard:
      • Asus Rampage IV Formula
      • CPU:
      • Intel Core i7 3930k
      • Systemname:
      • Spe3dRay
      • Kühlung:
      • Wakü
      • Gehäuse:
      • Lian Li PC-A71FB
      • RAM:
      • 16 GB Corsair Dom. Plat. 1866
      • Grafik:
      • EVGA Geforce GTX 680 SC Sig.
      • Storage:
      • Samsung SSD830 512 GB + WD Caviar Blue 640 GB
      • Monitor:
      • Dell U2408WFP
      • Netzwerk:
      • HP ProCurve + IPFire
      • Sound:
      • Asus Xonar Essence One, Onkyo A-9377, KEF Q300
      • Netzteil:
      • Corsair AX750
      • Betriebssystem:
      • Windows 7 x64
      • Photoequipment:
      • Nikon D90
      • Handy:
      • HTC One X

    Standard

    Ja ich glaub das isses, hab auf den 1810ern mal die Storm Control angeworfen.
    Auf dem 1800er kann ich nur manuell Limits setzen, hab ich jetzt erstmal gelassen weil die potentielle Fehlerquelle eh am zentralen 1810G-24 hängt.

    Interessant ist dass der ProCurve 1810G und der 1800er unterschiedlich arbeiten:
    Die Storm Control beim 1810G filtert ab einem gewissen Grad verbrauchter Bandbreite des Ports, der 1800er dagegen filtert nach einer gewissen Anzahl Broadcasts oder Multicasts pro Sekunde.

    EDIT:
    Mein Server stürzt immer noch hin und wieder ab, kein Plan warum.
    Die Ereignisanzeige weist an der Stelle immer eine größere Lücke auf.

    Ggf. setz' ich ihn die Tage einfach mal mit Windows Server 2003 neu auf, seitdem 2008 drauf ist gefällt er mir eh nicht mehr so gut.
    Geändert von H_M_Murdock (05.06.12 um 17:40 Uhr)
    Hauptsys: Core i7 3930k @4,5 GHz, 16 GB Corsair Dominator Platinum, Asus Rampage IV Formula, EVGA GTX 680 SC Signature, Samsung SSD830 512 GB, TEAC BD-W512S-A, Corsair AX750, Dell 2408WFP @Wakü -> Worklog
    HIFI: Asus Xonar Essence One, Onkyo A-9377, KEF Q300, KEF Q400b
    ZweitPC: Core2Quad Q9550 2,83 GHz, 8 GB Kingston HyperX DDR2-800 Black Edition, Asus P5Q PRO, EVGA GeForce GTX 285 SSC, Intel SSD320 160 GB, Pioneer DVR-216DBK, PC Power & Cooling Silencer 500 W, Lian Li PC-7 SE III, Fujitsu P24W-5 ECO

  5. #4
    Moderator Avatar von fdsonne
    Registriert seit
    08.08.2006
    Ort
    Weinböhla (Sachsen)
    Beiträge
    25.499


    Standard

    interessant wäre das ganze mal zu monitoren... Sprich auf nem/dem Client mal ein Wireshark mitlaufen lassen. Ggf. gar auf zwei Clients, welche über den "Umweg" Coreswitch verbunden sind. Und dann mal versuchen wärend der Hängerphase den Traffic zu analysieren.

    Es kann an der Stelle so einiges an Anfälligkeiten geben, ohne zu wissen, wie die Konfig ausschaut, wäre es nur reinste Spekulation. Ich könnte mir beispielsweise auch vorstellen, das QoS dir die Datenpakete wegschmeißt, weil der hängende Server irgendwie das LAN mit höher priorisierten Paketen zuspamt.
    Genau so hast du ja beispielsweise bei Multicast das Problem, wenn der Switch das nicht "blocken" (IGMP Snooping) kann es dir eben zu Problemen kommen.

    Was mich aber wundert ist das Fehlerbild, rein von logischer Betrachtung sollte da nämlich kein Zusammenhang bestehen...
    Workstation: Intel Core i7 2600K@4500MHz@1,368V | Asus P6P67 Evo Rev. B2 | 4x4GB G.Skill DDR3-1333 CL9 | Zotac GeForce GTX 680 SLI + MSI Geforce GTX 470 | Audigy 2 ZS | HPT RocketRaid 2300 | 1x320GB WD SATA; 1x1TB Hitachi SATA; 1x160GB Samsung SATA; 4x1TB Samsung SATA@Raid5 | Corsair HX 850W | Windows 7 Prof. 64Bit
    ESX Server: Intel Pentium DualCore E5500@2,8GHz@1,05V | Asus P5Q-VM | 4x2GB Corsair DDR2-1066 CL4 | OnBoard IGP | 1x250GB WD SATA; 1x1TB Hitatchi SATA | BeQuiet 450W | ESXi 4.1.0
    Fileserver: 2x Intel Woodcrest Xeon 5160@3GHz | Intel S5000PSL SATA | 4x1GB + 4x4GB FB-Dimm DDR2-667 CL5 | AMD Radeon HD5870 1GB | 1x250GB Seagate IDE; 3x320GB WD SATA; 3x160GB Samsung IDE/SATA; 1x500GB Seagate SATA - je SW Raid 5 | PC Power & Cooling 500W | Windows Storage Server 2008 64Bit Enterprise
    Mobile: Sony Vaio VPCZ13V9E | Core i7 640M | 6GB DDR3-1333 CL9 | GeForce 330M | 4x64GB SSD | Win7 Prof.

  6. #5
    Flottillenadmiral
    Registriert seit
    29.10.2007
    Ort
    nähe München
    Beiträge
    4.202
    Themenstarter


    • Systeminfo
      • Motherboard:
      • Asus Rampage IV Formula
      • CPU:
      • Intel Core i7 3930k
      • Systemname:
      • Spe3dRay
      • Kühlung:
      • Wakü
      • Gehäuse:
      • Lian Li PC-A71FB
      • RAM:
      • 16 GB Corsair Dom. Plat. 1866
      • Grafik:
      • EVGA Geforce GTX 680 SC Sig.
      • Storage:
      • Samsung SSD830 512 GB + WD Caviar Blue 640 GB
      • Monitor:
      • Dell U2408WFP
      • Netzwerk:
      • HP ProCurve + IPFire
      • Sound:
      • Asus Xonar Essence One, Onkyo A-9377, KEF Q300
      • Netzteil:
      • Corsair AX750
      • Betriebssystem:
      • Windows 7 x64
      • Photoequipment:
      • Nikon D90
      • Handy:
      • HTC One X

    Standard

    Ja an nen Sniffer hatte ich auch schon gedacht.
    Mich wundert halt dass solche Probleme bevor der Autoloader dran hing und Backup Exec drauf war nie bestand, inzwischen ist beides weg und die Abstürze noch da.
    Denk ich reinstall die Kiste echt am WE mal aber evtl nehm ich mir vorher mal die Zeit und mach das mit dem Sniffer wenn das Problem wieder auftaucht.

    Gesendet von meinem HTC One X mit der Hardwareluxx App
    Hauptsys: Core i7 3930k @4,5 GHz, 16 GB Corsair Dominator Platinum, Asus Rampage IV Formula, EVGA GTX 680 SC Signature, Samsung SSD830 512 GB, TEAC BD-W512S-A, Corsair AX750, Dell 2408WFP @Wakü -> Worklog
    HIFI: Asus Xonar Essence One, Onkyo A-9377, KEF Q300, KEF Q400b
    ZweitPC: Core2Quad Q9550 2,83 GHz, 8 GB Kingston HyperX DDR2-800 Black Edition, Asus P5Q PRO, EVGA GeForce GTX 285 SSC, Intel SSD320 160 GB, Pioneer DVR-216DBK, PC Power & Cooling Silencer 500 W, Lian Li PC-7 SE III, Fujitsu P24W-5 ECO

  7. #6
    Moderator Avatar von fdsonne
    Registriert seit
    08.08.2006
    Ort
    Weinböhla (Sachsen)
    Beiträge
    25.499


    Standard

    Wäre zumindest gut. Gerade was die Clients an Paketen rausschicken (wenn Kommunikation zwischen diesen Stattfindet) und was am anderen Ende noch ankommt wäre interessant.
    Workstation: Intel Core i7 2600K@4500MHz@1,368V | Asus P6P67 Evo Rev. B2 | 4x4GB G.Skill DDR3-1333 CL9 | Zotac GeForce GTX 680 SLI + MSI Geforce GTX 470 | Audigy 2 ZS | HPT RocketRaid 2300 | 1x320GB WD SATA; 1x1TB Hitachi SATA; 1x160GB Samsung SATA; 4x1TB Samsung SATA@Raid5 | Corsair HX 850W | Windows 7 Prof. 64Bit
    ESX Server: Intel Pentium DualCore E5500@2,8GHz@1,05V | Asus P5Q-VM | 4x2GB Corsair DDR2-1066 CL4 | OnBoard IGP | 1x250GB WD SATA; 1x1TB Hitatchi SATA | BeQuiet 450W | ESXi 4.1.0
    Fileserver: 2x Intel Woodcrest Xeon 5160@3GHz | Intel S5000PSL SATA | 4x1GB + 4x4GB FB-Dimm DDR2-667 CL5 | AMD Radeon HD5870 1GB | 1x250GB Seagate IDE; 3x320GB WD SATA; 3x160GB Samsung IDE/SATA; 1x500GB Seagate SATA - je SW Raid 5 | PC Power & Cooling 500W | Windows Storage Server 2008 64Bit Enterprise
    Mobile: Sony Vaio VPCZ13V9E | Core i7 640M | 6GB DDR3-1333 CL9 | GeForce 330M | 4x64GB SSD | Win7 Prof.

  8. #7
    Flottillenadmiral
    Registriert seit
    29.10.2007
    Ort
    nähe München
    Beiträge
    4.202
    Themenstarter


    • Systeminfo
      • Motherboard:
      • Asus Rampage IV Formula
      • CPU:
      • Intel Core i7 3930k
      • Systemname:
      • Spe3dRay
      • Kühlung:
      • Wakü
      • Gehäuse:
      • Lian Li PC-A71FB
      • RAM:
      • 16 GB Corsair Dom. Plat. 1866
      • Grafik:
      • EVGA Geforce GTX 680 SC Sig.
      • Storage:
      • Samsung SSD830 512 GB + WD Caviar Blue 640 GB
      • Monitor:
      • Dell U2408WFP
      • Netzwerk:
      • HP ProCurve + IPFire
      • Sound:
      • Asus Xonar Essence One, Onkyo A-9377, KEF Q300
      • Netzteil:
      • Corsair AX750
      • Betriebssystem:
      • Windows 7 x64
      • Photoequipment:
      • Nikon D90
      • Handy:
      • HTC One X

    Standard

    Es wird immer schlimmer, jetzt ist die Kiste teilweise kaum ein paar Minuten an und hängt sich auf mit dem beschriebenen Verhalten.
    Ich hab das Gefühl dass nur die Onboard Schnittstelle diese krassen Paketstürme loslässt, wundert mich umso mehr dass die den Switch down bringt weil die nur 100 MBit/s kann.

    Hab die Kiste jetzt mal vom LAN abgeklemmt und wenn ich bevor ich mich heut Abend dran setz sie neu aufzusetzen noch Bock hab spiegel ich mal den betroffenen Switchport und häng mich mit Wireshark dahinter dann bin ich mal gespannt was raus kommt.

    EDIT:

    Ich hatte die Kiste jetzt mal neu installiert am vorletzten WE.
    Windows Server 2003 SP2, kein Backup Exec mehr drauf, nur der Backup Exec Agent.
    Lief jetzt auch gut bis heute Nacht, dann wieder das gleiche. System freeze, Netzwerk ging heut früh noch, heut Nachmittag nimmer, also auch da wieder tot.
    Storm Control hat aufm Switch leider nichts geholfen, aufgehängt hat sich der allerdings nicht, sobald der Server resettet war ging's LAN auch wieder.

    Hab den Backup Exec Agent jetzt wieder runter, probier das Backup mal über die Freigabe. SQL kann er dann halt nicht ohne Umwege sichern aber das soll jetzt im Moment auch mal nicht das Problem sein.
    Ich befürchte ja allmählich dass es an der Hardware liegt, ist ja nicht mehr die jüngste.
    IntelBurnTest lief aber zuletzt noch fehlerfrei durch, denk ich werd trotzdem nochmal was in der Art testen und mir ggf. mal das Board anschauen obs nen Elko zerrissen hat oder so.
    Memtest schadet sicher auch mal nichts, wobei ich bei sowas eher mit nem Bluescreen rechne als mit nem Freeze.

    Hab leider nicht wirklich Ersatzhardware da in die mein SATA-RAID-Controller (PCI-X) passen würde. Am ehesten noch nen HP DL560 G1 aber da drin krieg ich natürlich keine 12 SATA Platten unter.
    Mal sehen wie's weiter geht, ich wart jetzt erstmal den nächsten Freeze ab und mach das letzte Backup das dank des Absturzes abgebrochen wurde nochmal von vorn.

    EDIT 2:
    Ich hab jetzt sowas wie nen Bluescreen ("Systemabbruchfehler"), wenn ich daheim bin such ich die genaue Meldung mal raus. Endlich steht was verwertbares im Eventlog.
    Hab gestern Abend schonmal flüchtig recherchiert und komm immer mehr zu der starken Vermutung dass die Hardware nen Schaden hat was bei dem Alter kaum verwunderlich ist.

    Ggf. nehm ich mir die Tage mal die Zeit das Board raus zu holen und es ohne RAID Controller und Platten und an nem anderen NT zu testen.
    Registered SD-RAM hätte ich zur Not ja auch noch ersatzweise rumliegen.

    EDIT 3:
    Ich hab das Problem denk ich auf einen defekten RAM Riegel eingrenzen können, der ist jetzt raus geflogen und das System wieder zusammengebaut. Mal abwarten was sich in den nächsten 1-2 Wochen tut.
    Geändert von H_M_Murdock (16.06.12 um 12:08 Uhr)
    Hauptsys: Core i7 3930k @4,5 GHz, 16 GB Corsair Dominator Platinum, Asus Rampage IV Formula, EVGA GTX 680 SC Signature, Samsung SSD830 512 GB, TEAC BD-W512S-A, Corsair AX750, Dell 2408WFP @Wakü -> Worklog
    HIFI: Asus Xonar Essence One, Onkyo A-9377, KEF Q300, KEF Q400b
    ZweitPC: Core2Quad Q9550 2,83 GHz, 8 GB Kingston HyperX DDR2-800 Black Edition, Asus P5Q PRO, EVGA GeForce GTX 285 SSC, Intel SSD320 160 GB, Pioneer DVR-216DBK, PC Power & Cooling Silencer 500 W, Lian Li PC-7 SE III, Fujitsu P24W-5 ECO

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein