ZEFYS > DDR-PresseInformationen zum Projekt
 

Von der gedruckten Zeitung zur Volltextrecherche auf Artikelebene

Logo DFGDas von der Deutschen Forschungsgemeinschaft (DFG) geförderte Projekt zur Digitalisierung und Volltexterschliessung dreier exemplarischer Zeitungen der DDR (Neues Deutschland, Berliner Zeitung und Neue Zeit) umfasste die folgenden Arbeitsschritte:

  • Vorbereitung der Zeitungen für das Scannen (Berliner Zeitung, Neue Zeit)
  • Maschinelle Zeichen- und Layouterkennung
  • Manuell-intellektuelle Nachbearbeitung der  maschinell erzeugten Volltext- und Metadaten
  • Konzeptionisierung und Erstellung einer geeigneten Präsentationsoberfläche
  • Wissenschaftliche Forschungsumgebung des ZZF

Die Digitalisate des Neuen Deutschland wurden uns vom Verlag „Neues Deutschland“ dankenswerterweise zur Verfügung gestellt.

Zur Vorbereitung der Berliner Zeitung und der Neuen Zeit auf das Scannen (Bildabtastung) wurden die im Bestand der Staatsbibliothek zu Berlin vorhandenen gebundenen Zeitungsbände separiert, d.h. die Seiten wurden herausgetrennt, um sie als Einzelseiten scannen zu können. Dadurch konnte die optische Textkrümmung, die beim Scannen aufgeschlagener Bände entsteht, vermieden und somit bessere Ergebnisse erzielt werden.

Da trotz eines nahezu vollständigen Bestandes in der Staatsbibliothek zu Berlin doch eine Reihe von Ausgaben entweder gänzlich fehlten oder beschädigt waren (Textverluste), mussten die fehlenden bzw. beschädigten Seiten ermittelt und aus Beständen der Verlage und anderer Bibliotheken ergänzt werden. Dabei gebührt unser besonderer Dank der Zentral- und Landesbibliothek Berlin, der Bibliothek des Deutschen Historischen Museums, dem Verlag Neues Deutschland und dem Berliner Verlag für die Bereitstellung der hierfür notwendigen Ergänzungsbände.

Das Scannen erfolgte in Abhängigkeit des konservatorischen Zustandes der Zeitungen mit Aufsichtscannern für fragile und Durchlaufscannern für gut erhaltene Bestände.

Die Scans der Zeitungsseiten aller drei Zeitungen wurden beim Fraunhofer Institut für Intelligente Analyse- und Informationssysteme (IAIS) einer maschinellen Bearbeitung unterzogen, deren erster Schritt die Artikelsegmentierung war. Dabei wurden alle Bestandteile eines Artikels (auch seitenübergreifende) einschließlich der Bilder bzw. grafischer Elemente als zusammengehörend erkannt und miteinander verknüpft. Durch diese maschinelle Layouterkennung (OLR = Optical Layout Recognition bzw. Optische Layouterkennung) wird auch die richtige Lesereihenfolge innerhalb eines Artikels festgelegt. Da die OLR mit den derzeit zur Verfügung stehenden technischen Möglichkeiten nicht mit einer ausreichenden Qualität geleistet werden kann, wurde zusätzlich eine manuelle Nachbearbeitung durchgeführt. Dabei war es notwendig, jede einzelne Seite einer manuellen Analyse und ggf. Korrektur zu unterziehen, um eine ausreichend hohe Genauigkeit erzielen zu können.

Um eine Suche nach Begriffen im gesamten Text (Volltextsuche) und auf Artikelebene zu ermöglichen, wurden die Texte auf Artikelebene einer optischen Zeichenerkennung (OCR = Optical Character Recognition bzw. Optische Zeichenerkennung) unterzogen. Trotz einer hohen Erkennungsrate von über 95% waren Erkennungsfehler nicht zu vermeiden. Die Gründe für diese Fehler sind vielfältig, wie z.B. schlechte Papierqualität des Originals, schlechter Druck und Verschlechterung der Vorlagen durch Lagerung und Benutzung.

Für die Präsentation der DDR-Zeitungen innerhalb des Zeitungsportals ZEFYS wurde eine Präsentationsoberfläche konzipiert und erstellt, die die Volltextsuche und den Einstieg über eine Kalenderblattfunktion ermöglicht.

Um die Zeitungstexte besser in ihren historischen Kontext einordnen zu können, wurde das DDR-Zeitungsportal durch das Zentrum für Zeithistorische Forschung Potsdam (ZZF) um eine wissenschaftliche Forschungsumgebung mit Einführungs- und Hintergrundtexten sowie  inhaltlichen und biographischen Informationen erweitert.

Benannte Entitäten - named entity recognition

Für weiterführende Informationen zu Personen, Orten und Organisationen wurde der gesamte Text im Rahmen einer Projektergänzung einer automatischen Entitätenerkennung (named entity recognition - NER) unterzogen. Allerdings ermöglicht der momentane technologische Stand eines solchen automatischen Prozesses weder eine vollständige noch eine fehlerfreie Erkennung. Die erkannten Personen, Orte und Organisationen wurden mit ihren Wikipedia-Einträgen und ihren bibliothekarischen Normdaten in der GND (Gemeinsame Normdatei) verlinkt, wie auf dem nebenstehenden Bild zu sehen ist.

Leider war es uns nicht möglich, auch diese Daten einer manuellen Qualitätsverbesserung zu unterziehen, denn das hätte bedeutet, alle ca. 4 Millionen Artikel manuell zu redigieren.

Sie können uns aber helfen, die Qualität der weiterführenden Informationen zu verbessern, indem Sie uns falsche oder wichtige fehlende Begriffe (bitte mit genauer Angabe des Zeitungstitels, des Datums, der Seite und des Artikels) mitteilen.