SiSiSi-Logo

SiSiSi - Sichere sinnentsprechende Silbentrennung für die deutsche Sprache

(Wilhelm Barth, Martin Gruber, Gabriele Koller [Gabriele Kodydek], Martin Schönhacker)

English version: Reliable and Sense-Conveying Hyphenation



Überblick | Algorithmus | Publikationen

Überblick

SiSiSi ist ein Verfahren zur automatischen Silbentrennung deutscher Wörter nach alter oder neuer (Rechtschreibreform 1996) Rechtschreibung, das an unserem Institut entwickelt wurde. Es ist sicher und sinnentsprechend, da falsche oder sinnentstellende Trennstellen erkannt und vermieden werden. Im Unterschied zu anderen Trennverfahren verwendet SiSiSi eine ausführliche Wortbildungsgrammatik in Verbindung mit einem kompakten Verzeichnis kleinster relevanter Wortbestandteile (Atome). Wörter, die SiSiSi auf dieser Basis nicht analysieren kann (z.B. Eigennamen), werden aus Sicherheitsgründen nicht getrennt.

Das Verfahren kann auch zum Silbenzählen und - zumindest eingeschränkt - zur Rechtschreibprüfung eingesetzt werden. Weiters wurde durch die Einführung von Wortfamilien eine zukünftige Verwendung zur sinnentsprechenden Suche vorbereitet.

Die aktuelle Version von SiSiSi existiert in Form eines Windows-Programmes, das sowohl einzelne Wörter als auch ganze Textdokumente mit Trennstellen versehen kann. Da das Forschungsgebiet im Institut nicht mehr fortgesetzt wird, und daher unsere Software auch nicht auf dem neuesten Stand ist, werden Programm und Worttabellen vom Institut nicht mehr zur Verfügung gestellt. Interessenten können sich bzgl. Weiterentwicklungen an Herrn Dr. Martin Schönhacker sisisi @schoenhacker.com wenden.

Wie funktioniert SiSiSi?

1. Schritt: Das Wort wird in seine sinngebenden Bestandteile zerlegt. Dabei werden Haupttrennstellen (=) an den Wortfugen und Nebentrennstellen (-) nach Vorsilben gekennzeichnet, z.B.
Wort|zer|leg|ung|s|ver|fahr|en
Wort=zer-legungs=ver-fahren
2. Schritt: Auf Basis der Vokal-Konsonanten-Folgen finden wir weitere Nebentrennstellen (-) in den noch ungetrennten Wortteilen, z.B.
Wort=zer-le-gungs=ver-fah-ren

Warum ist SiSiSi sicher?

Das Verfahren sucht alle möglichen Zerlegungen eines Wortes. Trennstellen, die nicht in jeder einzelnen dieser Zerlegungen vorkommen, sind unsicher und erfordern eine Sonderbehandlung, z.B.

Wach=stu-be oder Wachs=tu-be

Warum trennt SiSiSi sinnentsprechend?

Es werden verschiedene Prioritäten vergeben, um Haupttrennstellen (=), die den Lesefluss fördern, zu bevorzugen, und Nebentrennstellen (-), die eher stören, zurückzudrängen, z.B.

bevorzugen:       ~~ ~~~~ Getränke=     ~~~ ~~~~ Kamera=
                  automaten ~~~ ~~~     taschen ~~~ ~~~~

zurückdrängen:    ~~~ Getränkeauto-     ~~ ~~~ Kamerata-
                  maten ~~~ ~~~ ~~~     schen ~~~~ ~~~~~

Wozu automatische Silbentrennung?

Eine automatische Silbentrennung in Textsystemen ist wichtig für hochwertige Dokumente (z.B. Bücher) und beim Setzen schmaler Zeitungsspalten; bei Randausgleich ohne Silbentrennung entstehen unansehnliche Wortzwischenräume.

Textanzeige auf einer begrenzten Fläche, z.B. PDA-Display:

 

ohne Silbentrennung

 

mit Silbentrennung

Die gebräuchlichen Silbentrennungsverfahren für englische Texte, die entweder nur auf Trennregeln oder Wörterbüchern basieren, versagen im Deutschen wegen der häufig gebrauchten Wortzusammensetzungen.

Algorithmus

1.Schritt: Zerlegung

Zuerst wird das zu untersuchende Wort in seine Einzelwörter und diese in ihre atomaren Bestandteile (S=Stamm, V=Vorsilbe, E=Endung bzw. Fugenzeichen) zerlegt:
      Textverarbeitungssysteme
      /         |            \
  Text    verarbeitungs    systeme
   /     /    /     |  \      |   \
Text  ver  arbeit  ung  s  system  e
 |     |     |      |   |     |    |
 S     V     S      E   E     S    E

Danach hat man schon die Trennstellen zwischen den Einzelwörtern und hinter den Vorsilben, ebenso vor speziellen Endsilben (-heit, -chen, ...):

Text = ver - arbeit | ung | s = system | e

2. Schritt: Trennung nach Vokal-Konsonanten-Folgen

Bei jedem Einzelwort wird in dem noch ungetrennten Teil Stamm und Endungen auf Basis der Vokal-Konsonanten-Folgen nach weiteren Nebentrennstellen gesucht:

Text = ver - ar - bei - tungs = sys - te - me

Die wichtigste Trennregel lautet: Trenne in einer Folge von Konsonanten vor dem letzten. Einige spezielle Buchstabengruppen zählen hier wie ein Konsonant, z.B. ch und sch, st nur in der alten Rechtschreibung, ck nur in der neuen Rechtschreibung.

Atomtabelle

Der Algorithmus benutzt in seinem 1. Schritt eine Tabelle aller atomaren Wortbestandteile. Da jeder Stamm nur einmal ohne Endungen eingetragen werden muss und sich das Programm um Wortzusammensetzungen selbst kümmert, ist die Tabelle sehr klein; momentan rund 9000 Eintragungen reichen für (fast) alle deutschen Wörter und die wichtigsten Fremdwörter aus.

Interaktivität

Unbekanntes Wort: Keine Zerlegung gefunden (zum Beispiel bei Tippfehlern, Eigennamen oder geographischen Begriffen). Das Wort kann korrigiert oder von Hand getrennt werden. Mehrdeutiges Wort: Mehrere Zerlegungen gefunden. Unter den angezeigten Trennvarianten kann die gewünschte bzw. richtige ausgewählt werden.

Publikationen


Algorithms and Data Structures Group | Inst. of Computer Graphics and Algorithms | TU Wien

If you have any suggestions, please contact webmaster @ads.tuwien.ac.at.
Last modification: Sunday, 09-Jan-2011 21:22:20 CET