Skip to content
Snippets Groups Projects
Commit c8f834bd authored by Donatus Herre's avatar Donatus Herre
Browse files

README.md updated

parent 4edaf838
Branches
No related tags found
No related merge requests found
......@@ -2,7 +2,11 @@
Ausgangspunkt für die hier in Form einer [JSON-Datei](./data/verlagsbibliographie.json) vorliegende Bibliographie ist das von Marcus Conrad und Manuel Schulz zusammengetragene Verzeichnis der von Gebauer gedruckten bzw. verlegten Bände [1]. Als [PDF-Dokument](http://www.gebauer-schwetschke.halle.de/push.aspx?s=downloads/gs/home//Verlagsbibliographie/verlagsbibliographie_1734-1819.pdf) ist es über die Webseite zum [Erschließungsprojekt der Verlagsnachlässe von Gebauer und Schwetschke](http://www.gebauer-schwetschke.halle.de) (2010–2014) frei verfügbar.
Auf Basis der dem PDF-Dokument zugrundeliegenden Word-Datei wurde zunächst eine [TXT-Datei](./data/verlagsbibliographie.txt) erstellt und schließlich unter Rückgriff auf die Programmiersprache [Python](https://www.python.org/) und verschiedenste [reguläre Ausdrücke](https://en.wikipedia.org/wiki/Regular_expression) die unstrukturierten bibliographischen Daten JSON-basiert schematisiert.
Auf Basis der dem PDF-Dokument zugrundeliegenden Word-Datei wurde zunächst eine [TXT-Datei](./data/verlagsbibliographie.txt) erstellt und schließlich unter Rückgriff auf die Programmiersprache [Python](https://www.python.org/) und verschiedenste [reguläre Ausdrücke](https://en.wikipedia.org/wiki/Regular_expression) die unstrukturierten bibliographischen Daten JSON-basiert schematisiert. Das dabei enstandene Skript liegt [im `src`-Ordner](./src/extract.py) und kann zwecks neuerlicher Datenextrahierung folgendermaßen ausgeführt werden:
```sh
./extract
```
---
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment