OCR & Layouterkennung
Bei der Digitalisierung von Zeitungen erkennt die OCR nicht alle im Text vorkommenden Elemente in der richtigen Ausprägung. Zum Teil werden Spalten überhaupt nicht erkannt (Durchläufe). Dies macht eine Korrektur des OCR-Ergebnisses durch unsere Layoutkorrektur erforderlich.
Layoutkorrektur
Als Texterkennungswerkzeug verwenden wir FineReader. Die Layout- und Spaltenerkennung wird mit einer von PPS entwickelten Zusatzsoftware optimiert. Eine optimale Spalten und Artikelerkennung ist besonders wichtig für die nachfolgende Automatische-Artikel-Separation (AAS)
Die Spaltenerkennung wird durch eine eigene Software (Corrector) erheblich verbessert.