Scantechnologie

Unsere  Scananlagen sind speziell für das Scannen von großformatigen Büchern entwickelt. Wir scannen die Doppelseiten ohne Bundverzerrung. Unsere Kapazität liegt bei monatlich 250.000 Seiten.

Die Wahl des Ausgabeformates wird durch die Vorlage bestimmt:

  • Bitonal: Tageszeitungen, die in Schwarz/Weiß gedruckt sind
  • Graustufe: Tiefdruckvorlagen wie  Illustrierte, Magazine und Kataloge
  • Farbscan: Farbig gedruckte Zeitungen, Bücher, Magazine

Wir setzen für jedes Medium die passende Scantechnologie ein.

Mit dem Umzug in unsere neuen Produktionsräume war auch die Umstellung der Scannerantriebe von Pneumatik auf Elektronik verbunden. Wir produzieren heute mit einer bisher nicht erreichte Scanqualität. Der Andruck kann präziser gesteuert werden, die Störanfälligkeit ist äußerst gering. Dadurch erreichten wir eine erhebliche Steigerung der Produktion sowohl in der Quantität als auch in der Qualität.
In der Praxis hat sich erwiesen, dass mit einer Auflösung von 300 dpi für die nachfolgende Texterkennung die besten Ergebnisse liefert. Der Hintergrund und die Buchstabenzwischenräume ohne Schmutzpartikel werden in reinem Weiß dargestellt. Die Qualität der Scans ist maßgebend für alle weiteren Schritte im Workflow.

 

scannen

Die Scanqualität ist maßgebend für alle weiteren Schritte bis hin zur Separierung der Einzelartikel

  • Verzerrungsfreier Scan der Doppelseite vom gebundenen Buch
  • Korrekte Ausrichtung der Seiten
  • Sauberer Hintergrund, Pixelentfernung auch zwischen den Buchstaben und Zeilen
  • Kontrastreiche Wiedergabe der Schriftzeichen
  • Visuelle Überprüfung der Seiten; manuelle Korrektur eventuell vorhandener Fehler
  • Prüfung mittels Software auf fehlerfreie Benennung und Vollständigkeit
  • Eine Scanauflösung von 300 dpi bringt aus unserer Erfahrung die besten OCR-Ergebnisse
  • Schwarz/weiße Seiten scannen wir bitonal, farbige Seiten entsprechend in Farbe
  • Unsere Scanleistung liegt zur Zeit bei ca. 250.000 Seiten pro Monat.

 

Aufbereitung der Seiten

Die gescannten Seiten durchlaufen eine intelligente Bildbearbeitung (IBB), die die Schmutzpartikel innerhalb der Seite entfernt und einen sauberen definierten Rand zieht. Die Lieferung erfolgt als TIF bzw. JPG.
Anschließend erfolgt die OCR mit einer optimierten Layouterkennung, die für gute Ergebnisse bei der Separierung der Einzelartikel sorgt. Die Seiten liefern wir dann als PDF mit hinterlegtem Text. Um die Inhalte vollständig weiterzuleiten, speichern wir alle Seiten-Informationen als native XMLs.

 

Die Metadaten jeder Seite werden über den Dateinamen generiert

  • Ausgabenummer einer Zeitung
  • Kürzel der Ausgabe
  • Erscheinungsdatum
  • Seitenzahl

Diese Daten werden bei der Separierung der Einzelartikel jedem Artikel mitgegeben zusätzlich zu den Positionierungsdaten der Artikel. Diese Informationen werden durch unsere Layouterkennung entsprechend markiert und selektiert, so dass sie der späteren Artikelseparierung und dem PPS-Finder zur Verfügung stehen.