Ausgangspunkt für die hier in Form einer [JSON-Datei](./data/verlagsbibliographie.json) vorliegende Bibliographie ist das von Marcus Conrad und Manuel Schulz zusammengetragene Verzeichnis der von Johann Justinus Gebauer († 1772) und dessen Sohn Johann Jakob Gebauer († 1818) in der familieneigenen Verlagsdruckerei hergestellten Bände [1]. Als [PDF-Dokument](http://www.gebauer-schwetschke.halle.de/push.aspx?s=downloads/gs/home//Verlagsbibliographie/verlagsbibliographie_1734-1819.pdf) ist es über die Webseite zum [Erschließungsprojekt der Verlagsnachlässe von Gebauer und Schwetschke](http://www.gebauer-schwetschke.halle.de)(2010–2014) frei zugänglich.
Auf Basis der dem PDF-Dokument zugrundeliegenden Word-Datei wurde zunächst eine [TXT-Datei](./data/verlagsbibliographie.txt) erstellt und schließlich unter Rückgriff auf die Programmiersprache [Python](https://www.python.org/) und verschiedenste [reguläre Ausdrücke](https://en.wikipedia.org/wiki/Regular_expression) die unstrukturierten bibliographischen Daten JSON-basiert schematisiert. Das dabei enstandene Skript liegt [im `src`-Ordner](./src/extract.py) und kann auf Unix-basierten Systemen (Linux, Mac OS, ...) folgendermaßen ausgeführt werden:
```sh
./extract
```
Auf Basis der dem PDF-Dokument zugrundeliegenden Word-Datei wurde zunächst eine [TXT-Datei](./data/verlagsbibliographie.txt) erstellt und schließlich unter Rückgriff auf die Programmiersprache [Python](https://www.python.org/) und verschiedenste [reguläre Ausdrücke](https://en.wikipedia.org/wiki/Regular_expression) die unstrukturierten bibliographischen Daten JSON-basiert schematisiert.