Handwriting Recognition

von Daniel Steinhöfer

Einleitung

Der wohl wichtigste Aspekt im Bereich der Mensch-Maschine-Interaktion ist die möglichst natürliche Kommunikation und Interaktion des Menschen mit der Maschine. Handschrift als eine sehr intuitive Art der Kommunikation - da sie seit früher Kindheit erlernt wird - stellt deshalb einen interessanten Fokus für die HCI dar.
Das Gebiet der Handschriftenerkennung ist breit gefächert und kann dem Nutzer in verschiedenen Bereichen Hilfestellung leisten, ihm den Zugang zum Computer erleichtern, bzw. dessen Nützlichkeit erweitern. So vollzieht sich das Anfertigen von Skizzen und kurzen Notizen schneller und bequemer per Papier und Stift, als mit Tastatur und Maus. Möchte man aber die Information später digital weiter verwenden oder archivieren sind Werkzeuge zur automatischen Texterkennung von großem Nutzen, will man nicht den Inhalt doch wieder per Tastatur an den Rechner vermitteln.

Überblick

Im Folgenden werden zuerst grob die gängigen Techniken der Handschriftenerkennung umrissen, anschließend einige typische Eingabegeräte beschrieben. Schließlich wird die Fehlerquote von Texterkennungssystemen besprochen.

Techniken

Es bedarf entsprechender Techniken, die den Computer die handschriftlichen Informationen verstehen lassen. Zunächst unterscheidet man zwischen online und offline (=OCR: optical character recognition) Verfahren zur Texterkennung. Letztere kommen bei gescannten, anderweitig fotografisch festgehaltenen Dokumenten oder per diversen Eingabegeräten (Pens, Touchpads, etc.), direkt am Rechner erstellten Texten zum Einsatz. Hier wird das, als Rastergrafik vorliegende Schriftstück vorverarbeitet, indem die Schriftlage vereinheitlicht, das Hintergrundrauschen herausgefiltert und nicht textuelle Teile des Bilds entfernt werden.

Online - Verfahren setzen ein Gerät voraus, welches in der Lage ist zusätzlich etwa die Geschwindigkeit, die Beschleunigung und evtl. die Stiftführung bei angehobenen Stift zu erkennen Touchpads, Pens, Videokameras). Somit können letztere Werte in Abhängigkeit von der Zeit mit in die Analyse aufgenommen, aussagekräftige Daten, wie z.B. einzelne Striche, mitverarbeitet werden.

Nun kommt es darauf an, ob ein holistisches Verfahren verwendet wird, bei dem ganze Wörter betrachtet werden oder ein analytisches Verfahren zum Einsatz kommt, welches Untereinheiten wie Buchstaben, Segmente oder gar einzelne Striche analysiert. Anschließend werden diese Merkmale in eine Form abstrahiert, die es erlaubt sie hinterher per konventioneller Klassifikation zu erkennen und somit zu entschlüsseln.

Je nach verwendeter Methode werden bei der Klassifikation entsprechende Datenbanken herangezogen. Bei holistischen Verfahren benötigt man ganze Wörter als Trainingsdaten, also ähnlich einem Lexikon. Hierbei können auch nur genau die sich im Lexikon befindlichen Wörter erkannt werden. Bei analytischen Verfahren dagegen, werden Trainingssätze mit entsprechen kleineren Merkmals-Einheiten benötigt, üblicherweise Buchstaben, manchmal auch Strokes / Striche. Zur Klassifikation stehen eine Reihe von Techniken zur Verfügunng, eine relativ simple Methode ist das Template Matching. Hier stellen die Trainingsdaten prototypische Repräsentanten der einzelnen Klassen (Wörter, Buchstaben, Strokes, etc.) dar. So wird die Eingabe Einheit für Einheit mit den Trainingsdaten per Nearest Neighbour Suche gematcht und schließlich Wort für Wort aufgeschlüsselt.

Geräte

Analog zu den Techniken zur Handschriftenerkennung gibt es zwei Typen von Geräten, die den Techniken entsprechen: online und OCR - Geräte.

Online - Geräte sind in der Lage, außer den reinen Textzeichen noch zusätzliche Informationen aufzuzeichnen. Digitalisiertabletts stellen die wohl am meisten verbreitete Variante von Online - Geräten dar. Diese Tabletts gibt es unterschiedlichen Ausführungen und es werden zwei davon an dieser Stelle vorgestellt.

Zum einen gibt es Tabletts mit unter der Oberfläche integrierten Antennen, welche in der Lage sind elektromagnetische Wellen zu senden und zu empfangen. Der spezielle Pen / Stift besitzt einen elektromagnetischen Schwingkreis, welcher durch die ausgesandten Wellen je nach Distanz und Winkel unterschiedlich reagiert und die Wellen reflektiert. Das Tablett bzw. die Tablettsoftware ist in der Lage die reflektierten Wellen zu interpretieren, so dass Position, Lage und Andruckstärke des Stifts erkannt werden kann. Des Weiteren ist es möglich die Stiftbewegung in geringer Höhe über dem Tablett nachzuvollziehen, d.h. wenn der Stift beim schreiben angehoben wird.
Die zweite verbreitete Methode basiert auf einer zweischichtigen Oberfläche und benötigt keinen speziellen Stift. An die obere Widerstandsschicht wird ein elektrisches Potential angelegt. Schreibt man nun auf dieser, berühren sich beide Schichten an der Stiftspitze und die untere, elektrisch leitende Schicht kann die so entstehende Spannung am Berührpunkt abgreifen und somit die Stiftposition erfassen.

Diese Techniken werden auch genutzt, um eine Displayschicht über das Tablett zu legen. So kann man den Schreibvorgang visualisieren und das Geschriebene direkt darstellen. In diesem Fall wird der intuitive Vorgang des seit der Kindheit erlernten Schreibens gut simuliert; der Umweg zu einem an anderer Stelle positionierten Display fällt weg. Man hat also das Gefühl mit „elektronischer Tinte“ zu schreiben.

Diese Technik kommt v.a. bei PDAs und anderen Micro- und Handheldcomputern zum Einsatz, deren Prämisse möglichst handlich zu sein, ein zur Tastatur und Maus alternatives Eingabesystem erfordert. Oftmals werden hier auch spezielle Schriftarten eingesetzt, die das lateinische Alphabet durch Zeichen ersetzen, welche idealer Weise ohne absetzen des Stifts erzeugbar sind (Graffiti, TealScript, Jot, etc.). Somit ist die Softwareseitige Interpretation ein entsprechen leichteres Unterfangen, da die möglichen Ausführungen pro Zeichen sehr reduziert sind.

Ein weiteres, sehr interessantes Gerät zur Handschriftenerkennung ist die Videokamera. Diese wird in geringem Abstand zu Papier und Stift positioniert. Stift und Stiftspitze werden durch eine initiale Phase mittels Template Matching erkannt. Der Bereich, für den die aufwendige Bilderkennung durchgeführt werden muß, wird durch eine Vorhersage der möglichen Stiftpositionen eingeschränkt, die mittels dem Messen der bisherigen Stiftbeschleunigung ermittelt wird. Alternativ wird eine konstante Schreibgeschwindigkeit angenommen und der Bereich der Bilderkennung dadurch eingeschränkt. Nun wird pro Videoframe die Stiftspitze erkannt und deren Position aufgezeichnet. Um zu erkennen ob der Stift zu einem Zeitpunkt auf dem Papier aufgesetzt ist, wird ermittelt, ob an der entsprechenden Position Pixel in der Schreibfarbe zu finden sind. Dazu wird zu einem Zeitpunkt, wo weder die Hand noch der Stift das Blatt eventuell verdecken die entsprechende Stelle erneut analysiert.

OCR - Geräte erfassen den zu digitalisierenden Text als gesamtes, und erst durch entsprechende OCR – Verfahren wird der Inhalt bestimmt.

Der Scanner als gängigstes Offline – Gerät erfaßt das Dokument zeilenweise, indem eine Lampe das Dokument anstrahlt und das durch das Dokument reflektierte Licht auf Halbleiterbauelemente trifft. Diese sondern je nach eintreffender Lichtintensität verschieden hohe elektrische Spannungen ab. Eine genügend hohe Dichte solcher Sensoren auf der Abtasteinheit ermöglicht eine entsprechend hohe horizontale Auflösung. Die Schrittweite der beweglichen Abtasteinheit entspricht der vertikalen Auflösung.

Ebenso ist es möglich mit anderen fotosensorischen Geräten, wie Digitalkameras oder Videokameras, eine Vorlage für eine OCR zu erstellen. Wobei die Eignung von Kameras, gemäß der zum Teil geringeren Auflösung bzw. der nicht für das Erfassen von Dokumenten optimierten Anordnung der Aufnahme, entsprechend geringer ist als bei Scannern.

Auf Scanner aufsetzend sind auch sog. Textlesesysteme erhältlich, welche Sehbehinderten die Möglichkeit bieten Dokumente einzuscannen und sich diese dann vorlesen zu lassen.

Fehlerraten und Fazit

Alle diese Geräte und Techniken divergieren sehr stark was die Fehlerrate der Texterkennung betrifft. Ein gutes System vorausgesetzt lassen sich dennoch gute Ergebnisse erzielen und ein angenehmes Arbeiten wird ermöglicht. Mit steigender Fehlerrate sinkt der Nutzen allerdings erheblich, so dass das Nachkorrigieren in keinem Verhältnis zu dem erbrachten Vorteil steht. So stehen herkömmliche Verfahren zum Teil im Gegensatz zu der Forderung die natürliche Art der Kommunikation mittels Stift und Papier zu nutzen und zur Kommunikation mit dem Computer zu verwenden. Gerade OCR - Verfahren, die nicht auf einem reduzierten Zeichensatz basieren, haben zum Teil erhebliche Schwierigkeiten Texte korrekt zu erkennen. Ausdrucke bzw. maschinell erzeugte Dokumente, sowie in Druckbuchstaben geschrieben Texte werden dabei im Allgemeinen um einiges besser erkannt als ein „normal“ geschriebenes Dokument. Natürlicherweise hat jeder Mensch ein sehr unterschiedliches, oft unebenmäßiges Schriftbild. So ist schon die Erstellung von Trainingsdatenbanken ein sehr komplexes Unterfangen, da der Trainingsdatensatz für jede Mögliche Ausprägung eines Merkmals (Wort/Buchstabe/etc.) passend sein sollte. Inzwischen gibt es OCR - Software über die behauptet wird, die Erkennungsrate läge bei Druckbuchstaben über 97%, bei Individueller Schrift über 85%. Was aber selbst bei einer angenommenen Erkennungsrate von 93% immer noch bedeutet, dass bei einer durchschnittlichen Wortlänge von 6,4 Buchstaben pro Wort, ein analytisches Verfahren einen Text liefern würde, bei dem jedes achte Wort einen Fehler enthält. Ebenso bei einem holistischen Verfahren, bei dem es allerdings noch auf den Umfang der Trainingsdatenbank ankommt, da nur Wörter richtig erkannt werden können, die dort auch aufgelistet sind. Techniken mit reduziertem Alphabet stellen einen guten Mittelweg dar, zwischen natürlichem Umgang mit Stift und Papier und bequemer Eingabeweise am Rechner. Neuere Techniken der Handschriftenerkennung per Videokamera stehen zwar noch in den Anfängen, sind jedoch sehr ausbaufähig und entsprechen vielleicht mal der intuitivsten Art Text am Rechner einzugeben.

Quellen

Videobasierte Handschrifterkennung MarkusWienecke
Heise Artikel über neue OCR - Software
OCR-Scanner für Blinde
Wiki: durchschnittliche Wortlänge des Wikis