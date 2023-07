Werbung

Ein US-Softwareentwickler aus New York hat kürzlich einen neuen Rekord in Sachen Datenkompression aufgestellt. Saurabh Kumar schaffte es einen Datensatz aus der Online-Enzyklopädie Wikipedia, in der Größe von einem Gigabyte, auf nur noch 11,41 % seiner ursprünglichen Größe zu komprimieren, im Ergebnis auf 114.156.155 Byte. Damit gelang es Kumar dem von deutschen Informatiker und Professor Marcus Hutter initiierten Hutter-Preises zu gewinnen und gleichsam einen neuen Rekord aufzustellen. Ziel des Wettbewerbs ist es, eine maximale Komprimierung bei vollständiger und verlustfreier Wiederherstellung der ursprünglichen Daten zu erreichen.

Der Entwickler Kumar ist Quantitative Developer bei Tower Research Capital und ist aufgrund seiner Tätigkeiten mit Hochfrequenzhandel und Finanzdienstleistungen spezialisiert auf große Datenmengen. Neben der ursprünglichen Größe von einem Gigabyte des Quellmaterials sind allerdings noch weitere Voraussetzungen nötig, um sich für den Preis zu qualifizieren. Als weitere Vorgaben darf der Kompressionsalgorithmus daher lediglich auf einem einzelnen CPU-Kern eines vorab definierten Systems arbeiten und dabei maximal 50 Stunden Zeit in Anspruch nehmen sowie weniger als 10 GB Arbeitsspeicher und 100 GB Festplattenspeicher verwenden. Der Einsatz von einer GPU ist dabei strikt untersagt.

Beim verwendeten Kompressionsalgorithmus verwendete Kumar aber keine komplette Eigenkreation. Es soll sich dabei um eine modifizierte Version von cmix gehandelt haben, welches in erster Linie auf viel Community-Arbeit zurückgeht. Kumar hat die Performance aber erhöhen können, indem er Modelle mit geringer Effizienz aus der Software entfernt haben soll.

Das Preisgeld des Hutter-Preises ist dabei mit einer Höhe von 5.187 Euro nicht willkürlich gewählt. Die Höhe hängt davon ab, wie weit der neue Kompressionswert den vorherigen Rekord unterbieten kann. Dieser war zuletzt von Artemiy Margaritov mit 115.352.938 Byte am 31. Mai 2021 aufgestellt worden.