Steinbach/Adliswill, Okt.2007
  Technologie/Telekommunikation/Computer/Software



  Die inhaltliche Erschließung von Texten in Frakturschrift


Es stellt keinen Beinbruch dar, wenn man heute Frakturschrift nicht mehr lesen kann.
Die neuesten OCR Programme machen es möglich, auch den Inhalt von alten Frakturschrift-Drucken in gerundeter Schrift (Helvetica, Times, etc.) lesbar und damit auch für die breite Öffentlichkeit zugänglich zu machen.

Einige bemerkenswerte Frakturschrift-Projekte sind in der jüngsten Vergangenheit gestartet worden.

Einen besonderer Zusatznutzen bieten aber die Programme unseres Projektpartners  ARPA-Data GmbH aus Adliswill/CH an. Die digitalisierten Bilder werden nicht nur in Text umgewandelt sondern auch, wie sie im Original vorliegen, als Bild präsentiert. Die Treffer der Suche werden im Bild markiert. Mittels Mausklick wird der Text in gerundeter (Schreibmaschinen-)Schrift gezeigt.


Hier ein Beispiel aus den Parlamentarischen Protokollen der ersten Republik:
Die Suche nach Anschlu* (gemeint ist Anschluß bei nicht genau bekannter Schreibweise (Anschluß oder Anschluss)) ergibt folgende Trefferanzeige (Bild links). Das Wort Anschluß wurde als erster Treffer im Dokument mit einem Rahmen markiert. Damit ist nicht nur der Treffer, sondern auch seine Position innerhalb des Dokumentes hervorgehoben.

Den dazugehörigen, mittels Fraktur-OCR transformierte Text können Sie im Bild links sehen.
In den Web-Anwendungen kann mit Mausbedienung zwischen Bild (Fraktur) und Text umgeschaltet werden.


Zur Korrektur der Zeichenerkennung stehen weitere Hilfsmittel zur Verfügung. So kann unter dem Frakturtext der Text in gerundeter Schrift gezeigt werden. Damit ist eine Korrektur der einzelnen Wörter im Satz-Zusammenhang möglich.

Zur besseren Lesbarkeit auch hier wieder:
In Weiß der Ziel-Text, in (verblichenem) Gelb der Originale Fraktur-Text.


Wird zusätztlich gefordert, daß die Bilder auch von der Qualität und Struktur her wissenschaftlich auswertbar sein müssen, muß mit extremen Bildgrößen gearbeitet werden.

Hier ein Ausschnitt aus einem österreichischen Reisepaß.

Zur schnellen Übertragung der extrem großen Bilddaten wird ein Image-Server verwendet, der aus Anwendungen wie Google-Earth® bekannt ist. Es wird nur jene Bildgröße übertragen, die gerade vom Anwender gefordert ist. Wird "tiefer" ge-zoomed, wird die nächste Bildgröße nachgeladen. Das bringt eine extrem schnelle Bildnavigation in riesigen Images (Bilder im Gigabyte-Bereich).


Mit dieser Treffermarkierung im Bild kann man sich auch an Handschriften, teilweise sogar an Verbundhandschriften heranwagen.

Die automatisierte Texterkennung steckt hier zwar noch in den Kinderschuhen, die technische Umsetzung der Treffermarkierung und Präsentation des Inhaltes ist aber bereits Realität.



Diese Technik der Treffermarkierung wurde erstmals 2000 in einem gemeinschaftlichen EUREKA-Projekt (Projekt Σ!1979 LIS Luftrechtsdatenbank) vorgestellt und seither in vielen Projekten umgesetzt. So kann man die Rudolf Steiner Gesamtausgabe auf Festplatte im Buchhandel erwerben. Mit der Treffermarkierung im Image wird der Charakter des originalen Druck-Werkes unterstrichen.
Weitere Demo-Anwendungen sind auf dem ARPA-Rechner im Web verfügbar.

Wenn Sie über ein Fraktur- oder Image-Projekt nachdenken,
die Vor- und Nachteile unterschiedlicher Anwendungen ermitteln wollen, oder die Möglichkeiten des Einsatzes von OpenSource Frameworks prüfen wollen,
stehen wir ihnen gerne mit Rat und (noch lieber mit) Tat zur Verfügung.


Weitergehende Informationen erhalten Sie bei:

LIS Reinisch OG
www.lis-og.com


bzw.
ARPA Data GmhH
www.arpa.ch