Bundesgesetzblatt 2000 mit neuer XML-Technik veröffentlicht"



XML (Extensible Markup Language) ist die logische Weiterentwicklung der Internet-Sprache HTML.
Beide Sprachen sind Untermengen des mächtigen SGML-Standards.

Bisher konnte man sowohl in Volltextdatenbanken wie auch in Internetseiten (HTML-Seiten) "nur" pauschal im gesamten Textkörper suchen. Mit der (eigentlich ja nicht mehr ganz neuen ) XML-Technik ist es aber nun auch möglich, in Teilbereichen von Texten zu suchen.
Stellen Sie sich vor, Sie suchen nach "Einem" im Volltext der Bundesgesetze des Jahrganges 2000.
Sie erhalten 297 Trefferdokumente (Bundesgesetzblätter), die "einem" enthalten.
Wenn Sie aber nach den Minister "Einem" als Unterzeichner suchen, erhalten Sie lediglich 22 Treffer.
Diese Erhöhung der Suchpräzision ist nur durch XML möglich. Möglich ist diese verfeinerte Suche durch die "Auszeichnung" des Rohtextes durch XML-Tags. 
Ein Beispiel eines Absatzes mit dem Unterzeichner Klestil und Klima ist hier verkürzt dargestellt.

....
<LegAbsatz>(4) Bezieht eine Person zwei oder mehrere Pensionen aus der gesetzlichen Pensionsversicherung, so ist der Erhöhungsbetrag nach Abs. 2 auf die einzelne Pension im Verhältnis der Pensionen zueinander aufzuteilen.“ </LegAbsatz>
<LegUntL>
Klestil
</LegUntL>
<LegUntL>
Klima
</LegUntL>
</xmlbody>


Die Ausgangsdaten der BGBl-CD liegen in gut strukturierten Word-Dokumenten vor. Durch diese gute Strukturierung, ursprünglich für die Drucklegung der BGBl notwendig, ist eine Konvertierung in XML mittels Word 2000 Konverter möglich. Diese, von etwaigen überflüssigen Auszeichnungen bereinigten XML-Daten, werden mittels Info-Build in eine Volltextdatenbank geladen und indexiert.
Wort- und Phrasenindex sowie "Word-Wheels" (indexierter Index) sichern eine extrem schnelle Suche, sowohl mit Links- als auch Rechtstrunkierung und Abstandssuche.

Eine Suche nach folgenden Kategorien wurde realisiert:

Die Anzeige der BGBl erfolgt mittels Internet-Browser (Internet Explorer 5.5). Zur Aufbereitung der XML-Daten ist dieser Browser erforderlich, um die Umwandlung der XML-Daten in HTML-Dokumente in ausreichender Qualität sicherzustellen.
Zur guten Trefferlokalisierung erfolgt ein Highlighting aller Treffer im HTML-Dokument.

Eine Verlinkung auf die BGBl-Originaldokumente im pdf-Format, sowie eine Verlinkung zu den Regierungsvorlagen und Ausschußberichten, ermöglicht eine authentische Darstellung der Dokumente.

Zusätzlich wurden die stenographischen Protokolle der Sitzungen des Nationalrates im pdf-Format in den Umfang der CD aufgenommen.

Die gute Qualität der Ausgangsdaten erleichterte die Konvertierung und automatische Linkerkennung. Da zudem alle Dokumente auf einige wenige Dokumentenvorlagen (und damit DTDs) abgestimmt sind, ist der Aufwand zur Erstellung "ansprechender" Style-Sheets überschaubar.
Die Anzeige der Dokumente im HTML-Format entspricht fast vollkommen den ursprünglichen Word-Dokumenten. Die Einbettung von Bildern und die Verwendung von Fußnoten sind ebenfalls in den HTML-Anzeigen realisiert worden.

Für den Vertrieb verantwortlich:
Verlag Österreich, Wien
Wiener Zeitung / Digitale Publikationen

weitere Infos zur XML - Datenbanktechnik und zum Projekt unter :
www.lis-oeg.com
Reinisch@lis-oeg.com

LIS OEG
Franz Reinisch
7441 Steinbach 49
Tel: 02616 4102
Fax.: 02616 4103