• PDF

Digitalisierung durch Layouterkennung und OCR

Die Digitalisierung dient in erster Linie der Bestandserhaltung und dem schnellen Finden von Informationen.
Durch den Digitalisierungsprozess werden aus den gescannten Seitenabbildungen maschinenlesbare Texte erzeugt.

OCR-Erkennung

Der Dateinamen jeder Seite enthält die Metadaten wie:

  • Ausgabenummer einer Zeitung
  • Kürzel der Ausgabe
  • Erscheinungsdatum
  • Seitenzahl


Diese Daten werden bei der Separierung der Einzelartikel jedem Artikel mitgegeben.

Weitere Erkennungskriterien auf der Seite:

  • Spalten
  • Dachzeilen
  • Titel
  • Untertitel
  • Vorspann
  • Normaltext
  • Bildunterschiften
  • Fotograf
  • Autoren
  • Fotos und Grafiken (Zeichnungen) müssen unterschieden werden
  • Tabellen müssen als solche erkannt werden
  • Anzeigen müssen erkannt werden



Diese Informationen werden durch unsere Layouterkennung entsprechend markiert und selektiert, so daß sie der späteren Artikelseparierung und dem PPS-Finder zur Verfügung stehen.