Codebasis von Google umfasst 2 Milliarden Zeilen und 86 TB

Veröffentlicht am: von

google 2015Google, der Internetriese und die Datenkrake - diese beiden Begriffe dürften mit dem Suchmaschinenanbieter und größten Internetkonzern wohl am ehesten verknüpft sein. Doch neben der eigentliche Domäne, der Suche im Netz, hat sich Google inzwischen in fast allen Bereichen des Internets ausgebreitet. All dies unter einen Hut zu bringen, ist kaum vorstellbar und führte organisatorisch zuletzt auch zur Ausgliederung einiger Bereiche in Alphabet.

>Statistiken zur Codebasis von Google
Statistiken zur Codebasis von Google

Doch nun gibt es doch greifbare Zahlen zu dem, was Google an digitalen Nachlass erzeugt und was alltäglich von Milliarden Menschen verwendet wird. Auf der @Scale Engineering Conference sprach Rachel Potvon über genau diese Zahlen. Alle Dienste von Google umfassen eine Codebasis von 2 Milliarden Zeilen Code. Das Datenaufkommen der Datenbank beträgt 86 TB. Eine Milliarde Dateien umfasst die Codebasis, in der sich 9 Millionen Source-Files befinden. Bei 45.000 Commits pro Werktag haben sich in der Historie inzwischen 35 Millionen Commits angesammelt. Stand all dieser Daten ist der Januar 2015.

Diese gesamte Codebasis wird innerhalb von Google von etwa 95 Prozent aller Mitarbeiter bei Google verwendet. Dies entspricht etwa 25.000 Software-Ingenieuren. Damit ist das Repository das größte aktiv verwendete weltweit. Um die 2 Milliarden Codezeilen in ein Verhältnis zu setzen, muss man wissen, dass der Linux-Kernel aus 15 Millionen Zeilen Code in über 40.000 Dateien besteht. Die 45.000 Commits pro Werktag drücken sich in 15 Millionen Zeilen Code und 250.000 geänderten Dateien aus. Das 86 TB große Repository wird in 10 Rechenzentren von Google gleichzeitig vorgehalten und ständig untereinander synchronisiert. Damit sorgt Google für eine Sicherheit der Daten und macht sie zudem für alle Entwickler schnell zugänglich - egal in welchem Teil der Welt sie sich gerade befinden.

>Statistiken zur Codebasis von Google
Statistiken zur Codebasis von Google

Derzeit vergrößert sich die nicht nur die Anzahl der Commits in einem exponentiellen Maße, sondern auch die Dateigröße des gesamten Repository. Google verwaltet diese gemeinsame Codebasis unter einem Dach und mit gemeinsamen Zugriff für alle Entwickler vor allem aus einem Grund: So lassen sich verschiedene Teile des Google-Codes miteinander verbinden, was die Zusammenarbeit der Dienste unterstützt. Neue Projekte können auch einfacher erstellt und ein bestimmtes Stadium der Entwicklung erreicht werden. Änderungen an der Codebasis wirken sich zudem auf alle Projekte aus, die darauf zugreifen.