Digitalisierung durch Layouterkennung und OCR
Die Digitalisierung dient in erster Linie der Bestandserhaltung und dem schnellen Finden von Informationen.
Durch den Digitalisierungsprozess werden aus den gescannten Seitenabbildungen maschinenlesbare Texte erzeugt.

Der Dateinamen jeder Seite enthält die Metadaten wie:
- Ausgabenummer einer Zeitung
- Kürzel der Ausgabe
- Erscheinungsdatum
- Seitenzahl
Diese Daten werden bei der Separierung der Einzelartikel jedem Artikel mitgegeben.
Weitere Erkennungskriterien auf der Seite:
- Spalten
- Dachzeilen
- Titel
- Untertitel
- Vorspann
- Normaltext
- Bildunterschiften
- Fotograf
- Autoren
- Fotos und Grafiken (Zeichnungen) müssen unterschieden werden
- Tabellen müssen als solche erkannt werden
- Anzeigen müssen erkannt werden
Diese Informationen werden durch unsere Layouterkennung entsprechend markiert und selektiert, so daß sie der späteren Artikelseparierung und dem PPS-Finder zur Verfügung stehen.




