Die Digitale Bibliothek
TextGrid hat die online-Bibliothek von zeno.org erworben. Dabei handelt es sich um eine umfangreiche Sammlung von Texten vom Anfang des Buchdrucks bis zu den ersten Jahrzehnten des 20. Jahrhunderts in digitaler Form. Für die Germanistische Literaturwissenschaft ist die Sammlung von besonderem Interesse, da sie nahezu alle wichtigen kanonisierten Texte und zahlreiche weitere literarturhistorisch relevante Texte enthält, deren urheberrechtliche Schutzfrist abgelaufen ist. Ähnliches gilt für die Philosophie und die Kulturwissenschaften insgesamt. Die Texte stammen zum größten Teil aus Studienausgaben und sind daher zitierfähig; das gilt auch für den Rest, der weitgehend auf die Digitalisierung von Erstdrucken zurückgeht.
Die Texte der online-Bibliothek von Zeno.org
Die Texte der online-Bibliothek von zeno.org gliedern sich in die Kategorien:
- Geschichte (14 Texte)
- Kulturgeschichte (113 Texte)
- Kunst (12 Texte)
- Literatur (693 Texte)
- Märchen (58 Texte)
- Musik (81 Texte)
- Naturwissenschaften (20 Texte)
- Philosophie (248 Texte)
- Soziologie (1 Text)
- Nachschlagewerke (27 Texte)
TextGrid wird diese Texte der allgemeinen Öffentlichkeit nicht nur zur Lektüre, sondern vor allem auch zur Weiterverarbeitung z.B. in Editionen und Korpora zur Verfügung stellen. Dafür werden die xml-Dateien während der Projektlaufzeit in ein gültiges TEI-Format konvertiert, das die Möglichkeit einer genauen Recherche über die Texte bietet.
Ab dem 13. Juli 2011 steht der Datenbestand des Literaturordners zum Download zur Verfügung.
Veröffentlichung des Literaturordners
Bisher wurde ein Teil des Datenbestandes – die Belletristik – für die wissenschaftliche Verwendung aufbereitet (Konvertierung in TEI, tiefere Auszeichnung für genauere Recherchen) und veröffentlicht.
Sollten Sie Fehler oder Mängel in den Auszeichnungen feststellen, bitten wir Sie darum, uns diese mitzuteilen(E-Mail: katrin.betz(at)uni-wuerzburg.de). Bitte geben Sie dabei die URL und den genauen Kontext des Fehlers an.
Im TextGrid-Repository-Portal finden Sie derzeit eine begrenzte Auswahl von Texten des Literaturordners. Diese wird ständig erweitert und ergänzt. Über die folgenden Links können Sie den Gesamtdatenbestand des Literaturordners sowie ein Schema zu den Daten downloaden.
Download der veröffentlichten Dateien: Texte und Bilder (1,9 Gb)
Download der veröffentlichten Dateien: Nur Texte (384 Mb)
Download des Schemas (Subversion Repository)
Lizensierung
Der Verlag Editura (der zeno.org betreibt) hat gemeinfreie Texte digitalisiert und in XML ausgezeichnet. Dadurch sind dem Verlag Leistungsschutzrechte für die Digitalisierung, Zusammenstellung und Auszeichnung entstanden. TextGrid hat eine Lizenz erworben, diese digitale und angereicherte Textsammlung nutzen zu dürfen, unter der Bedingung, dass Editura genannt wird (Creative Commons Lizenz „by“ Version 3.0).
Um den annotierten Datenbestand inklusive Metdatendaten möglichst wenig restriktiv weitergeben zu können, stellt ihn TextGrid ebenfalls unter der Creative Commons Lizenz „by“ Version 3.0 zur Verfügung. Die Texte an sich, sprich die Texte ohne Annotation und ohne beigefügte Metadaten, sind allgemeinfrei-
Eine bereits bestehende Allgemeinfreiheit der Texte bleibt von der Lizensierung unberührt. Durch die Aufbereitung, die Strukturierung der Texte und die Bearbeitung der Metadaten hat Textgrid eine neue Datenbank erstellt, die nach dem Urheberrecht automatisch Leistungsschutzrechten eigener Art unterliegt. Auch diese Rechte sind durch die Creative Commons Lizenz „by“ Version 3.0 geregelt. D.h. man darf den Datenbestand der Digitalen Bibliothek:
- vervielfältigen, verbreiten und öffentlich zugänglich machen
- Abwandlungen und Bearbeitungen des Inhaltes anfertigen
- kommerziell nutzen
Siehe: http://creativecommons.org/licenses/by/3.0/de/
Dabei muss TextGrid in der folgenden Form genannt werden: TextGrid
Wenn Sie Daten dieses Datenbestandes, die geschützt sind, weitergeben, dann sollten Sie den Daten folgende Informationen hinzufügen: Das Werk title von Name ist eine Abwandlung des Datenbestandes der Digitalen Bibliothek von TextGrid, www.editura.de und wird unter der Creative Commons Lizenz veröffentlicht.
Arbeitsschritte
1. Durchgeführte Arbeitsschritte
- Strukturanalyse der Textdaten: Die Daten sind in Ordnern nach Wörterbüchern und Enzyklopädien bzw. nach Gebieten (Geschichte, Kulturgeschichte, Kunst, Literatur, Märchen, Musik, Naturwissenschaften, Philosophie, Soziologie) organisiert; jeder Ordner enthält Unterordner, i. d. R. einen Unterordner pro Autor, der alle Werke des Autors in einer Datei vereinigt.
- Anreicherung der Originaldaten (ID, Werksinformation, Disambiguierung der Struktur)
- Extraktion der Metadaten: Die Metadaten zu den einzelnen Werken befinden sich in verschiedenen Dateien: die Information über die Digitalisierungsquelle ist in einer externen Katalogdatei ausgelagert, die Informationen über Ort und Zeit der Veröffentlichung stehen als unstrukturierter Freitext zu Beginn der Autordatei. Eine eigene Transformationsroutine ordnet alle einem Werk zugehörige Metadaten diesem zu.
- Manuelle Auszeichnung der Werkebene: Die Auszeichnung lässt keine automatische Trennung der Daten in einzelne Werke zu, weswegen die Werk-Information (zunächst für den Literaturordner, über 120000 Einzelwerke) manuell hinzugefügt wurde. Dazu musste ein User-Interface zur Anzeige und Weiterverarbeitung der Daten geschaffen werden.
- Filterung der Dateien nach Textsorte: Für den Literaturordner müssen die einzelnen Werke nach Textsorte sortiert werden um textsortenspezifische Konvertierungsroutinen entwickeln zu können. Hierbei konnte das bereits bestehende User-Interface entsprechend erweitert werden.
- Spezifikationen für das Mapping der Textsorten Lyrik, Prosa und Drama.
- Entwicklung von Transformationsroutinen für das Mapping der einzelnen Textsorten des Literaturordners auf TEI P5
- Strukturumformung von <div> nach <teiCorpus>
- Kodierung maschinell extrahierbarer Metadaten im <teiHeader>
- Erste Anpassung der Datenstruktur auf die TextGrid-Architektur
- Einbindung des Wörterbuchs von Adelung und Meyers Konversationslexikon in das Trierer Wörterbuchnetz
- Erstellung von Routinen für das Mapping des Wörterbuchs von Adelung auf TEI P5
2. Geplante Arbeitsschritte
- Verfeinerung der Metadaten, Entwicklung eines User-Interfaces zur manuellen Korrektur der Metadaten
- Fehleranalyse der TEI-Auszeichnung und Korrekturen
- Optimierung Datenstruktur hinsichtlich der TextGrid-Architektur
- Weitere Strukturerschließung der Texte und tiefere TEI-Auszeichnung
- Vergabe von Persistenten Identifiern für jede Werkebene
- Anwendung und ggf. Anpassung der Transformationsroutinen auf die übrigen Ordner und Wörterbücher der Digitalen Bibliothek
Förderhinweis
Die vorliegende Textsammlung wurde im Rahmen des Forschungsprojekts TextGrid (www.TextGrid.de, Förderkennzeichen: 01UG0901A) mit Mitteln des BMBF (Bundesministerium für Bildung und Forschung) erworben. Wir bitten im Falle der Nachnutzung des Datenbestandes diesen Förderhinweis den Daten beizulegen.