Portal:DigiBib/OCR erkennen - aber wie?
Bei sehr großen Textmengen kann die manuelle Texterfassung durch das sogenannte OCR-Verfahren (optical character recognition – optische Zeichenerkennung) unterstützt oder sogar ersetzt werden. Grundlage dafür sind jedoch technisch sehr gute Scanvorlagen (Auflösung, Ausrichtung) sowie inhaltlich wenige Formatierungen der Textvorlage (Fließtext, gleichbleibende Schrifttypen).
Zu technischen Hintergründen beim OCR-Verfahren siehe den Artikel Texterkennung. In: Wikipedia, Die freie Enzyklopädie.
Erstellen eigener OCR-Texte
Vorgehensweise
Programme
Erfahrungsberichte
Verwendung von vorhandenen OCR-Texten
Liegt ein OCR-Text des entsprechenden Digitalisats bereits vor (z. B. durch GoogleBooks, archive.org), so kann dies die oben beschriebenen Schritte ersparen und somit die Erstellung der Abschrift nochmals wesentlich erleichtern.
Die Verwendbarkeit eines OCR-Textes muss jedoch zuvor geprüft werden. OCR-Texte, in denen praktisch jedes Wort mit OCR-Fehlern bestückt ist, eignen sich naturgemäß nicht, der Korrekturaufwand würde den vermeintlichen Vorteil übersteigen. Oft liegen mehrere OCR-Texte vor, die vor Verwendung verglichen werden können, um so „den besten“ zu ermitteln.
OCR-Texte von Google Books
Über eine ID eines Buches bei Google Books kann man (oftmals) zum OCR-Text bei Google-Books gelangen. Hierzu kann man folgende URL probieren:
http://books.google.com/books?id=ID&output=text&pg=SEITENCODE
Dabei ist:
ID
= ID des Buches bei Google Books (12-stellig, bestehend aus Groß- und Kleinbuchstaben sowie dem Minuszeichen und dem Unterstrich. – Die Groß- bzw. Kleinschreibung in dieser 12-stelligen ID ist unbedingt zu beachten!)SEITENCODE
= meist PAnnn
, wobeinnn
die Seitenzahl, also z.B. PA7 für Seite 7, PA39 für Seite 39 oder PA177 für Seite 177
Achtung: Angezeigt wird immer ein Textblock von ca. 5 Seiten. Die Paginierung bei Google Books kann allerdings von der Vorlage abweichen, dann ist ggf. durch Vor- oder Zurückblättern die entsprechende Seite ermitteln. Bei OCR-Fehlern enthält die Textanzeige oft eingebettete Grafiken (der nicht „übersetzten“ Textabschnitte) oder Fehlermeldungen wie [ocr errors] oder [graphic].
Konkretes Beispiel (für einen brauchbaren OCR-Text):
OCR-Text für Seite 77 des Buches Geschichte und Genealogie der Dynasten von Westerburg (Lehmann):
ID
= 0JVAAAAAcAAJSEITENCODE
= PA77
Somit lautet die URL: http://books.google.com/books?id=0JVAAAAAcAAJ&output=text&pg=PA77
Konkretes Beispiel (für einen unbrauchbaren OCR-Text):
ID
= sRJMAAAAcAAJSEITENCODE
= PP8
Somit lautet die URL: http://books.google.com/books?id=sRJMAAAAcAAJ&output=text&pg=PP8 (schwer verstümmelter Text, ferner mit Grafiken und Fehlermeldungen durchsetzt)
Ist der OCR-Text für Google Books für eine bestimmte ID unbrauchbar, so kann er für eine andere ID desselben Buches durchaus gut sein (oft sind ja mehrere Google-Book-IDs pro Buch bekannt). Es kann sich also lohnen, die OCR-Texte für alle Google-Book-IDs eines Buches anzusehen bzw. diese zu vergleichen.
Achtung: Google Books zeigt deutschen Benutzern (d.h. zu Anfragen über eine deutsche IP-Adresse) in der Regel die Suchergebnisse zu Büchern im Zeitraum von ca. 1870 bis ca. 1910/1923 nur in eingeschränkter Ansicht an. In diesem Fall wird zunächst auch kein OCR-Text angezeigt. Wie dieses ggf. überwunden werden kann, siehe hierzu: Abschnitt „Vollansicht für Bücher im Zeitraum von ca. 1870 bis ca. 1910/1923“ auf der GenWiki-Seite Google Books.
OCR-Texte vom Internet Archive (archive.org)
Auf der Digitalisat-Seite eines Buches im Internet Archive (archive.org) gelangt man über den Link „Full Text“ zum jeweiligen OCR-Text. Auch hier gilt das bereits Gesagte zur Verwendbarkeit bzw. zum Vergleich mit anderen OCR-Texten.