Aufgrund der Tatsache, dass Computer heutzutage immer
kleiner und deren Rechenleistung immer größer werden, erscheint die Benutzung
der Tastatur bei PDAs (Personal Digital Assistants) oder bei Mobiltelefonen
nicht geeignet. Notizen werden mit einem Stift auf eine Oberfläche geschrieben,
welche mittels der Handschrifterkennung in digitale Daten umgewandelt werden, um
sie weiter zu verarbeiten oder zu speichern.
Forschungen zur Handschrifterkennung entwickeln Systeme, die jeden
handschriftlichen Text erkennen können. Solche Systeme sollen einen neuen
Nutzer automatisch erkennen, eine große Vielfalt an Wörtern als Lexikon
verwalten, die unterschiedlichen Stile der Handschriften ausfindig machen und
mehrsprachig sein.
Handschriftliche Daten können auf verschiedene Arten
aufgenommen werden. Entweder geschieht dies mittels eines Scanners oder durch
das Schreiben mit einem speziellen Stift auf einer bestimmten Oberflächen, wie
z.B. auf einem LCD (liquid crystal display). Diese zwei Arten werden auch
bezeichnet als off-line und on-line Handschrifterkennung. Bei der on-line Erkennung, also Signalaufnahme durch
Digitalisiertabletts, werden mithilfe eines Spezialstifts Informationen über
Anpressdruck, Neigung des Stifts und dessen Lokalisierung, wenn dieser das
Tablett nicht berührt, d.h. in einer pen-up Phase ist, ermittelt. Nachteil
dieses Verfahren ist die Benutzung eines speziellen Stiftes.
Scanner werden vor allem in der off-line Erkennung
verwendet. Das Verfahren beruht auf der zeilenweisen Abtastung der Vorlage mit
CCD-Elementen (Charged Couple Devices). Somit wird ein digitales Abbild der
Vorlage erstellt.
Bei der off-line Erkennung wird ein Abbild des Textes
aufgenommen, nachdem der Schreibprozess abgeschlossen ist. Somit wird ein
zweidimensionales Bild analysiert, da ein komplettes Schriftbild ohne zeitliche
Komponente zur Verfügung steht. Hier entsteht eine bildhafte Repräsentation
des Textes, welche nicht unbedingt dynamische Bewegungsinformationen enthält.
Bei der on-line Erkennung werden die Stiftkoordinaten während
des Schreibvorgangs in bestimmten Intervallen ermittelt. Die Eingabedaten sind
in einer zeitlich geordneten Folge repräsentiert. Hierbei handelt es sich um
eine raum-zeitliche Darstellung, welche Informationen über dynamische
Bewegungen enthält.
Eine weitere Möglichkeit Daten digital zu erfassen, wäre
mithilfe von Videokameras, wobei dieses Verfahren nur theoretisch existiert.
Vorteil dieser Datenermittlung ist, dass weder spezielle Stifte benötigt
werden, noch auf eine empfindliche Oberfläche geschrieben werden muss.
Die Aspekte der on-line Handschrifterkennungssysteme
bestehen aus 5 Phasen: die Vorverarbeitung des Materials, die Segmentierung oder
Fragmentierung, das Berechnen von Merkmalen, die Erkennungsphase und die
Nachbearbeitungsphase.
Die Vorverarbeitungsphase dient zur Identifizierung von
Schriftreihen. Hierbei werden Rohdaten geglättet, Störungen behoben,
geometrische Grundstrukturen gefunden und die Schrift wird normalisiert. Die
Normalisierung der Schrift wird ausgeführt, um bezüglich der Schriftneigung
die Differenziertheit der Schrift einzuschränken. Ziel der Phase der Vorverarbeitung ist die Qualitätsverbesserung des
Signals.
Die Segmentierungsphase unterteilt ein Wort in logische
Einheiten, um den Erkennungsprozess zu beschleunigen. Drei Arten der
Segmentierung werden benutzt.
Die holistische Variante erkennt ganze Wörter, wobei große
Lexika benötigt werden. Holistische Erkennungsprogramme werden mittels HMM (Hidden
Markov Modell – Weiterführung zu HMM unter [4]) und dynamischer
Programmierung verwirklicht.
Die analytische Variante betrachtet ein Wort als
Zusammensetzung von mehreren kleinen Einheiten. Somit wird die Erkennung unabhängig
von einem bestimmten Vokabular durchgeführt. Hierbei werden noch mal zwei Arten
unterschieden. Analytische Verfahren mit expliziter Segmentierung teilt
Pseudobuchstaben vor der Erkennung auf. Bei dem analytische Verfahren mit
impliziter Segmentierung erfolgt die Segmentierung und die Erkennung
gleichzeitig. Der Vorteil der analytischen Methode besteht aus dem dynamisch
definierten und modifizierten Vokabular. Zu dieser Methode werden Neuronale
Netze verwendet.
Die wahrnehmungsorientierte Variante ist nicht so gebräuchlich
wie die bereits vorgestellten Methoden. Sie arbeitet nicht sequentiell, sondern
identifiziert beliebige Buchstaben eines Wortbildes.
Die holistische und die analytische Variante umgehen das
Problem der Segmentierung.
Die Merkmalsberechnungsphase benötigt unterschiedliche
Merkmale: numerische oder strukturelle. Diese Merkmale sind abhängig davon, ob
segmentiert oder fragmentiert wurde, oder ob das Wort als Ganzes erkannt werden
soll. Holistische Erkennungsmethoden verwenden sowohl numerische Merkmal, welche
pixelweise von dem Bild bestimmt werden, als auch strukturelle Eigenschaften wie
Schleifen, Auf- und Abstriche, etc.
Analytische Systeme benutzen strukturelle Merkmale wie Auf- und Abstriche,
Endpunkte, scharfe Krümmungen, etc.
Ein Merkmal gilt als umso zuverlässiger, je weniger es gegen Schriftvariationen
und Bildstörungen empfindlich ist. Numerische Merkmale, welche von
digitalisierten Bilder gewonnen werden, werden in neuronalen Netzen verwendet.
Strukturelle Erkennungszeichen beziehen sich auf geometrische Formen. Auf
strukturellen Merkmale basierende Algorithmen teilen die geometrische Form des
Musters in ein Vieleck auf. Danach werden Kennzeichen wie Löcher, Konkaven, Böge,
etc. berechnet.
Die Erkennungsphase hängt von der Segmentierung ab.
Erkennungsalgorithmen sowie die Wahl der Größe der Lexika spielen eine
entscheidende Rolle. Die Größe der Lexika kann in drei Gruppen eingeteilt
werden: kleines Lexikon mit bis zu 100 Wörtern, beschränktes aber dynamisches
Lexikon mit bis zu 1000 Wörtern und großes Lexikon mit über 1000 Wörtern.
Wird ein großes Lexikon gewählt, erhöht sich die Flexibilität des
Algorithmus und die Erkennungswahrscheinlichkeit steigt demzufolge. Verwendete
Erkennungsalgorithmen sind Hidden Markov Modell (HMM), Minimum Edit-Distanz,
dynamische Programmierung und wahrnehmungsorientierte Methoden. Das HMM eignet
sich am besten, um sich an die Varianten und Unterschiede der
Beschreibungsketten anzupassen und damit zu arbeiten. Dieses Modell wird in der
holistischen Segmentierung verwendet. Der Minimum Edit-Distanz-Algorithmus
erkennt das Wort, das am ehesten zutrifft.
In der Nachbearbeitungsphase werden die erkannten Wörter mit dem Lexikon
verglichen, wobei einzelne Buchstaben oder Zeichenketten überprüft und
korrigiert werden. Weiterhin wird die Wortwahrscheinlichkeit hinsichtlich der
Syntax und dem Kontext geprüft. Trotz der Verwendung von großen Lexika ist die
Fehlerrate sehr hoch. Dadurch kommt es zu linguistischen Einschränkungen bezüglich
der Satzstellung und des inhaltlichen Kontextes.
Das Anwendungsgebiet der Handschrifterkennung wird in zwei Kategorien unterteilt. Zum einen wird die on-line Handschrifterkennung bei Notebooks, Tablet PCs, WebPads und bei PDAs zum Aufschreiben von Terminen, Notizen, etc. verwendet. Die off-line Handschrifterkennung wird hingegen bei der Adresserkennung, bei ausgefüllten Formularen wie Überweisungen oder Anmeldungen und auch bei handschriftlichen Notizen angewandt.
Eine Zukunft findet die on-line Handschrifterkennung seit neuestem auch bei der Mobilkommunikation. Das Casio Message-Cam, welches in Deutschland noch nicht verbreitet ist, basiert auf Windows-CE. Hierbei erfolgt die Texteingabe entweder mittels einer eingeblendeten Tastatur oder über die Handschrifterkennung.
Literaturverzeichnis
Brakensiek, Anja: http://tumb1.biblio.tu-muenchen.de/publ/diss/ei/2002/brakensiek.pdf, 05.12.2004
Feldmann, Bianca: http://webdoc.sub.gwdg.de/edoc/p/fundus/1/feldmann.pdf, 05.12.2004
Hunsinger, Jörg: http://tumb1.biblio.tu-muenchen.de/publ/diss/ei/2003/hunsinger.pdf, 05.12.2004
Kosmala, Andreas: http://www.ub.uni-duisburg.de/ETD-db/theses/available/duett-10222001-141642/unrestricted/thesis_kosmala.pdf, 05.12.2004
Nguyen, Nga: http://www.wilabs.ch/downloads/pdf/mml/handwriting_recognition_2.pdf, 05.12.2004
Schomaker, Lambert: http://www.ai.rug.nl/~lambert/papers/schomaker-IEE-Electronics-Comm-Eng-1998.pdf , 05.12.2004
Simon, Kai: http://lmb.informatik.uni-freiburg.de/people/bahlmann/data/simon02.pdf, 05.12.2004
Wienecke, Markus: http://bieson.ub.uni-bielefeld.de/volltexte/2003/419/pdf/Wienecke03.pdf, 05.12.2004
http://www.handwriting.org/main/hwamain.html, 05.12.2004