OCR & Layouterkennung

Bei der Digitalisierung von Zeitungen erkennt die OCR nicht alle im Text vorkommenden Elemente in der richtigen Ausprägung. Zum Teil werden Spalten überhaupt nicht erkannt (Durchläufe). Dies macht eine Korrektur des OCR-Ergebnisses durch unsere Layoutkorrektur erforderlich.

Layoutkorrektur

Als Texterkennungswerkzeug verwenden wir FineReader. Die Layout- und Spaltenerkennung wird mit einer von PPS entwickelten Zusatzsoftware optimiert. Eine optimale Spalten und Artikelerkennung ist besonders wichtig für die nachfolgende Automatische-Artikel-Separation (AAS)

Die Spaltenerkennung wird durch eine eigene Software (Corrector) erheblich verbessert.

FineReader Layout

FineReader Layout

PPS Layout

pps_layout