Handschrifterkennung

bearbeitet von : Nora Zelhofer

nora.zelhofer@web.de

erstellt am 14.10.2004

Aufgrund der Tatsache, dass Computer heutzutage immer kleiner und deren Rechenleistung immer größer werden, erscheint die Benutzung der Tastatur bei PDAs (Personal Digital Assistants) oder bei Mobiltelefonen nicht geeignet. Notizen werden mit einem Stift auf eine Oberfläche geschrieben, welche mittels der Handschrifterkennung in digitale Daten umgewandelt werden, um sie weiter zu verarbeiten oder zu speichern.
Forschungen zur Handschrifterkennung entwickeln Systeme, die jeden handschriftlichen Text erkennen können. Solche Systeme sollen einen neuen Nutzer automatisch erkennen, eine große Vielfalt an Wörtern als Lexikon verwalten, die unterschiedlichen Stile der Handschriften ausfindig machen und mehrsprachig sein.

Handschriftliche Daten können auf verschiedene Arten aufgenommen werden. Entweder geschieht dies mittels eines Scanners oder durch das Schreiben mit einem speziellen Stift auf einer bestimmten Oberflächen, wie z.B. auf einem LCD (liquid crystal display). Diese zwei Arten werden auch bezeichnet als off-line und on-line Handschrifterkennung. Bei der on-line Erkennung, also Signalaufnahme durch Digitalisiertabletts, werden mithilfe eines Spezialstifts Informationen über Anpressdruck, Neigung des Stifts und dessen Lokalisierung, wenn dieser das Tablett nicht berührt, d.h. in einer pen-up Phase ist, ermittelt. Nachteil dieses Verfahren ist die Benutzung eines speziellen Stiftes.
Scanner werden vor allem in der off-line Erkennung verwendet. Das Verfahren beruht auf der zeilenweisen Abtastung der Vorlage mit CCD-Elementen (Charged Couple Devices). Somit wird ein digitales Abbild der Vorlage erstellt.
Bei der off-line Erkennung wird ein Abbild des Textes aufgenommen, nachdem der Schreibprozess abgeschlossen ist. Somit wird ein zweidimensionales Bild analysiert, da ein komplettes Schriftbild ohne zeitliche Komponente zur Verfügung steht. Hier entsteht eine bildhafte Repräsentation des Textes, welche nicht unbedingt dynamische Bewegungsinformationen enthält.
Bei der on-line Erkennung werden die Stiftkoordinaten während des Schreibvorgangs in bestimmten Intervallen ermittelt. Die Eingabedaten sind in einer zeitlich geordneten Folge repräsentiert. Hierbei handelt es sich um eine raum-zeitliche Darstellung, welche Informationen über dynamische Bewegungen enthält.
Eine weitere Möglichkeit Daten digital zu erfassen, wäre mithilfe von Videokameras, wobei dieses Verfahren nur theoretisch existiert. Vorteil dieser Datenermittlung ist, dass weder spezielle Stifte benötigt werden, noch auf eine empfindliche Oberfläche geschrieben werden muss.

Die Aspekte der on-line Handschrifterkennungssysteme bestehen aus 5 Phasen: die Vorverarbeitung des Materials, die Segmentierung oder Fragmentierung, das Berechnen von Merkmalen, die Erkennungsphase und die Nachbearbeitungsphase.
Die Vorverarbeitungsphase dient zur Identifizierung von Schriftreihen. Hierbei werden Rohdaten geglättet, Störungen behoben, geometrische Grundstrukturen gefunden und die Schrift wird normalisiert. Die Normalisierung der Schrift wird ausgeführt, um bezüglich der Schriftneigung die Differenziertheit der Schrift einzuschränken. Ziel der Phase der Vorverarbeitung ist die Qualitätsverbesserung des Signals.
Die Segmentierungsphase unterteilt ein Wort in logische Einheiten, um den Erkennungsprozess zu beschleunigen. Drei Arten der Segmentierung werden benutzt.
Die holistische Variante erkennt ganze Wörter, wobei große Lexika benötigt werden. Holistische Erkennungsprogramme werden mittels HMM (Hidden Markov Modell – Weiterführung zu HMM unter [4]) und dynamischer Programmierung verwirklicht.
Die analytische Variante betrachtet ein Wort als Zusammensetzung von mehreren kleinen Einheiten. Somit wird die Erkennung unabhängig von einem bestimmten Vokabular durchgeführt. Hierbei werden noch mal zwei Arten unterschieden. Analytische Verfahren mit expliziter Segmentierung teilt Pseudobuchstaben vor der Erkennung auf. Bei dem analytische Verfahren mit impliziter Segmentierung erfolgt die Segmentierung und die Erkennung gleichzeitig. Der Vorteil der analytischen Methode besteht aus dem dynamisch definierten und modifizierten Vokabular. Zu dieser Methode werden Neuronale Netze verwendet.
Die wahrnehmungsorientierte Variante ist nicht so gebräuchlich wie die bereits vorgestellten Methoden. Sie arbeitet nicht sequentiell, sondern identifiziert beliebige Buchstaben eines Wortbildes.
Die holistische und die analytische Variante umgehen das Problem der Segmentierung.
Die Merkmalsberechnungsphase benötigt unterschiedliche Merkmale: numerische oder strukturelle. Diese Merkmale sind abhängig davon, ob segmentiert oder fragmentiert wurde, oder ob das Wort als Ganzes erkannt werden soll. Holistische Erkennungsmethoden verwenden sowohl numerische Merkmal, welche pixelweise von dem Bild bestimmt werden, als auch strukturelle Eigenschaften wie Schleifen, Auf- und Abstriche, etc.
Analytische Systeme benutzen strukturelle Merkmale wie Auf- und Abstriche, Endpunkte, scharfe Krümmungen, etc.
Ein Merkmal gilt als umso zuverlässiger, je weniger es gegen Schriftvariationen und Bildstörungen empfindlich ist. Numerische Merkmale, welche von digitalisierten Bilder gewonnen werden, werden in neuronalen Netzen verwendet.
Strukturelle Erkennungszeichen beziehen sich auf geometrische Formen. Auf strukturellen Merkmale basierende Algorithmen teilen die geometrische Form des Musters in ein Vieleck auf. Danach werden Kennzeichen wie Löcher, Konkaven, Böge, etc. berechnet.
Die Erkennungsphase hängt von der Segmentierung ab. Erkennungsalgorithmen sowie die Wahl der Größe der Lexika spielen eine entscheidende Rolle. Die Größe der Lexika kann in drei Gruppen eingeteilt werden: kleines Lexikon mit bis zu 100 Wörtern, beschränktes aber dynamisches Lexikon mit bis zu 1000 Wörtern und großes Lexikon mit über 1000 Wörtern. Wird ein großes Lexikon gewählt, erhöht sich die Flexibilität des Algorithmus und die Erkennungswahrscheinlichkeit steigt demzufolge. Verwendete Erkennungsalgorithmen sind Hidden Markov Modell (HMM), Minimum Edit-Distanz, dynamische Programmierung und wahrnehmungsorientierte Methoden. Das HMM eignet sich am besten, um sich an die Varianten und Unterschiede der Beschreibungsketten anzupassen und damit zu arbeiten. Dieses Modell wird in der holistischen Segmentierung verwendet. Der Minimum Edit-Distanz-Algorithmus erkennt das Wort, das am ehesten zutrifft.
In der Nachbearbeitungsphase werden die erkannten Wörter mit dem Lexikon verglichen, wobei einzelne Buchstaben oder Zeichenketten überprüft und korrigiert werden. Weiterhin wird die Wortwahrscheinlichkeit hinsichtlich der Syntax und dem Kontext geprüft. Trotz der Verwendung von großen Lexika ist die Fehlerrate sehr hoch. Dadurch kommt es zu linguistischen Einschränkungen bezüglich der Satzstellung und des inhaltlichen Kontextes.

Das Anwendungsgebiet der Handschrifterkennung wird in zwei Kategorien unterteilt. Zum einen wird die on-line Handschrifterkennung bei Notebooks, Tablet PCs, WebPads und bei PDAs zum Aufschreiben von Terminen, Notizen, etc. verwendet. Die off-line Handschrifterkennung wird hingegen bei der Adresserkennung, bei ausgefüllten Formularen wie Überweisungen oder Anmeldungen und auch bei handschriftlichen Notizen angewandt.

Eine Zukunft findet die on-line Handschrifterkennung seit neuestem auch bei der Mobilkommunikation. Das Casio Message-Cam, welches in Deutschland noch nicht verbreitet ist, basiert auf Windows-CE. Hierbei erfolgt die Texteingabe entweder mittels einer eingeblendeten Tastatur oder über die Handschrifterkennung.

Literaturverzeichnis

Brakensiek, Anja: http://tumb1.biblio.tu-muenchen.de/publ/diss/ei/2002/brakensiek.pdf, 05.12.2004

Feldmann, Bianca: http://webdoc.sub.gwdg.de/edoc/p/fundus/1/feldmann.pdf, 05.12.2004

Hunsinger, Jörg: http://tumb1.biblio.tu-muenchen.de/publ/diss/ei/2003/hunsinger.pdf, 05.12.2004

Kosmala, Andreas: http://www.ub.uni-duisburg.de/ETD-db/theses/available/duett-10222001-141642/unrestricted/thesis_kosmala.pdf, 05.12.2004

Nguyen, Nga: http://www.wilabs.ch/downloads/pdf/mml/handwriting_recognition_2.pdf, 05.12.2004

Schomaker, Lambert: http://www.ai.rug.nl/~lambert/papers/schomaker-IEE-Electronics-Comm-Eng-1998.pdf , 05.12.2004

Simon, Kai: http://lmb.informatik.uni-freiburg.de/people/bahlmann/data/simon02.pdf, 05.12.2004

Wienecke, Markus: http://bieson.ub.uni-bielefeld.de/volltexte/2003/419/pdf/Wienecke03.pdf, 05.12.2004

http://www.handwriting.org/main/hwamain.html, 05.12.2004