PC Aufrüstung für massenhaftes PDF Tagging

Julianchen

Neuling
Thread Starter
Mitglied seit
17.02.2015
Beiträge
1
Guten Morgen,

folgendes Einsatzgebiet: Zwecks Recherche in meiner Position als wissenschaftlicher Mitarbeit an einer Universität muss ich diverse pdfs (>10000 mit durchschnittlich mehr als 150 Seiten) nach bestimmten Wörtern durchsuchen. Der Algorithmus steht soweit und funktioniert auch. Leider gibt es momentan noch ein Performanceproblem... Mit der bisherigen Konfiguration schaffe ich gerade einmal einen Suchbegriff pro Tag (von mehreren Tausend ....).

Hiermal die Spezifikation des vorhandenen Systems (Auszug aus Sandra)

Mainboard : ASUS H87-PRO

Prozessor(en)
Prozessor : Intel(R) Core(TM) i5-4570 CPU @ 3.20GHz (4C 3.49GHz, 3.5GHz IMC, 4x 256kB L2, 6MB L3)

Chipsatz
Speichercontroller : ASUS Core (Haswell) DRAM Controller 100MHz, 2x 4GB DIMM DDR3 1.6GHz 128-bit, Interne Grafikeinheit

Speichermodul(e)
Speichermodul : G.Skill F3-12800CL9-4GBRL 4GB DIMM DDR3 PC3-12800U DDR3-1600 (11-11-11-29 5-40-13-6)
Speichermodul : G.Skill F3-12800CL9-4GBRL 4GB DIMM DDR3 PC3-12800U DDR3-1600 (11-11-11-29 5-40-13-6)

Grafikkarte : Intel(R) HD Graphics 4600 (20CU 160SP SM5.0 600MHz/1.15GHz, 256MB DDR3 1.6GHz 128-bit, Interne Grafikeinheit)

Physische Speichergeräte
Samsung SSD 840 EVO 250GB (250GB, SATA600, SSD) : 233GB (C:) (D:)

Zugegeben fehlt mir das nötige Know-How, um zu wissen welche Komponente(n) durch meine Tätigkeit besonders beansprucht werden. Wobei für mich eigentlich nur RAM und/oder CPU Sinn ergeben.
Beim RAM ist das Problem, dass ich über den Ressourcenmonitor keine Rückschlüsse ziehen kann, da der RAM immer voll ausgelastet ist, aber ein Großteil auf Standy entfällt.

Das ganze läuft über einen Webserver (PHP/Mysql).

Was sind eure Vorschläge? Upgrades des vorhandenen Systems würde ich natürlich bevorzugen ;)

Vielen lieben Dank im Voraus!

Juliane
 
Wenn Du diese Anzeige nicht sehen willst, registriere Dich und/oder logge Dich ein.
Hallo Juliane,

erstmal: was hat Tagging (also den Dateien Stichworte zuzuordnen) mit dem Durchsuchen zu tun? Oder willst du einen Index erstellen und das dauert ewig, weil das Programm für jedes Stichwort erstmal alle PDFs von vorne durchsucht :confused:? – dann: So wie es sich anhört ist das Programm außerdem ja eher selbstgebastelt, d.h. du bist Informatikerin und da solltest du doch am besten wissen, wo die Performance (Stichwort Profiling) fehlt; aus der allgemeinen Beschreibung kann man nur sehr schlecht schließen, was das Problem ist, mehr RAM hilft sicherlich billig (60-180€) bei gewissen Problemen ab, wenn dir die CPU/SSD nicht reicht, wird's richtig teuer, denn Größenordnungen mehr an Performance gibt's so ab 10000€, vorausgesetzt, die Software schafft es 40-80 Threads auszulasten?

Meine Meinung: es gibt eine ganze Reihe von Indexierungstools (Lucene, etc.), die vielen anderen Leuten ausreichen und die wahrscheinlich auf deinem System (vllt. mehr RAM) auch schnell genug sind (zumindest, wenn man einfach nach Einzelstichworten sucht), vllt. probierst du das einfach mal aus (und der Index dauert wahrscheinlich wirklich einen Tag...)?

P.S.: der Webserver läuft ja schon bei dir auf dem lokalen System :coffee:?
 
Zuletzt bearbeitet:
Hardwareluxx setzt keine externen Werbe- und Tracking-Cookies ein. Auf unserer Webseite finden Sie nur noch Cookies nach berechtigtem Interesse (Art. 6 Abs. 1 Satz 1 lit. f DSGVO) oder eigene funktionelle Cookies. Durch die Nutzung unserer Webseite erklären Sie sich damit einverstanden, dass wir diese Cookies setzen. Mehr Informationen und Möglichkeiten zur Einstellung unserer Cookies finden Sie in unserer Datenschutzerklärung.


Zurück
Oben Unten refresh