Pointing and Selecting in Augmented Reality

Florian Schulz
Ludwig-Maximilians-Universität München

Abstract. Dieses Essay soll einen Überblick über Interaktionstechniken in Augmented Reality Systemen liefern, wobei das Hauptaugenmerk dabei auf dem Deuten auf und dem Selektieren von bestimmten Objekten liegt. Nachdem der Versuch einer Strukturierung verschiedener Ansätze unternommen worden ist, folgt zunächst die Betrachtung dreidimensionaler Umgebungen, in denen Interaktionen komplex und, aufgrund mangelnder Präzision, besonders anfällig für Fehler sein können. Hierbei werden einige grundlegende Techniken kurz erläutert, um dann deren Anwendung in multimodalen Systemen aufzuzeigen, die verschiedene dieser Techniken zu kombinieren und damit die Präzision und Robustheit der Systeme zu verbessern versuchen. Einem Absatz über Interaktionsmöglichkeiten in zweidimensionalen Systemen erweiterter Realität folgt schlussendlich ein kurzer Ausblick auf zukünftige Technologien.

1. Einleitung

Obwohl sich Wissenschaftler um das Gebiet der Augmented Reality (AR) mit einem verhältnismäßig jungen Forschungsgegenstand befassen, existiert bereits eine große Anzahl verschiedenster Anwendungsmöglichkeiten und Techniken in diesem Bereich. So hat sich die Wissenschaft bereits mit einer Vielzahl von Technologien auseinandergesetzt, die einen Einsatz von Prinzipien erweiterter Realität in unterschiedlichen Berufs- und Unterhaltungssektoren ermöglichen sollen.
Ebenso vielfältig wie die verschiedenen Ideen und Ansätze sind auch die Möglichkeiten zur direkten Interaktion des Benutzers in derartigen Systemen.
Der vorliegende Text soll einen kurzen, wenn auch sicherlich nicht vollständigen, Überblick über verschiedene Strategien zur Interaktion, also insbesondere dem Zeigen und Auswählen bestimmter Objekte, vor allem in dreidimensionalen AR-Umgebungen liefern.

2. Strukturierungsversuch

Angesichts der bereits erwähnten Vielzahl unterschiedlicher Ansätze fällt es schwer, die damit verbundenen Interaktionstechnologien eindeutig in bestimmte Gruppen zu unterteilen. Anders als beispielsweise die Tastatur und die Maus, die sich über Jahrzehnte als Standard-Interaktionsmodule für Anwendungen an PCs etabliert haben, werden viele Zeigegeräte für Augmented Reality Systeme meist für spezielle Applikationen und Szenarien entworfen und verwendet.
Die Hauptaufgabe eines jeden Zeigegerätes ist es, dem Benutzer einen möglichst naturgetreuen Umgang mit Objekten der AR zu ermöglichen, wobei er ebendiese Objekte möglichst präzise selektieren können muss. Dem stehen diverse Probleme gegenüber, wie beispielsweise der Umgang mit Objekten, die sich in größerer Entfernung vom Benutzer befinden oder durch andere ganz oder teilweise verdeckt werden.
Eine grobe Gliederung im Forschungsgebiet dreidimensionaler AR-Systeme könnte so aussehen, dass die verschiedenen Ansätze zunächst zwei Gruppen zugeordnet werden, wobei die erste Gruppe versucht, die genannten Probleme primär mittels eines einzigen Zeigegerätes, also monomodal zu lösen, während die zweite Gruppe verschiedene Methoden kombiniert und beispielsweise Spracherkennung zur gegenseitigen Unterstützung heranzieht.
Dabei werden Ansätze der ersten Gruppe zu einem multimodalen Konzept kombiniert, dessen Ziel es in den meisten Fällen sein sollte, die Fehler einzelner Module durch Kombination erfolgreich zu kompensieren und dem Benutzer somit eine natürlichere und präzisere Selektion zu ermöglichen.

3. Monomodale Ansätze in dreidimensionalen AR-Systemen

Unter dem Begriff monomodale Ansätze sollen nun einige grundlegende Zeige- und Selektionstechniken aufgezeigt werden, die in der AR zum Einsatz kommen. Dabei können die in den verschiedenen Techniken zum Einsatz kommenden Schnittstellen zumeist jeweils genau einem menschlichen Sinn zugeordnet werden, während multimodale Ansätze die Verflechtung mehrerer Sinnesmodalitäten zur Steigerung der Präzision des Selektionsvorganges unterstützen. Das Augenmerk soll in diesem Text auf sogenannte egozentrische Interaktionsmethoden gelegt werden, bei denen der Benutzer aus der eigenen Sichtweise agiert. Beim gegenteiligen Ansatz, mit dem Benutzer als Beobachter der gesamten Szene, werden die Vorgehensweisen als exozentrische Methoden bezeichnet.
Um das Problem der Selektion weit entfernter Objekte zu lösen, können zunächst zwei Kategorien von Ansätzen unterschieden werden [Sla01].
Techniken der ersten Kategorie verwenden sogenanntes Ray Casting zur Interaktion. Hierbei wird durch ein Zeigegerät, gesteuert durch den Benutzer, ein virtueller Lichtstrahl erzeugt, mit dem auch auf entfernte Objekte problemlos gezeigt werden kann. Durch bestimmte Gesten oder das Drücken eines Knopfes bei physischen Zeigegeräten kann ein Objekt, das sich aktuell im Lichtstrahl befindet, schließlich selektiert werden. Nachteil des Ray Casting Ansatzes ist, dass die Genauigkeit, mit der auf Objekte gedeutet werden kann, vom Durchmesser des Lichtstrahls abhängt, wobei es mit großem Durchmesser schwerfallen dürfte, kleine und nahe Objekte einzeln zu selektieren, während es ein zu geringer Durchmesser wiederum erschwert, kleine entfernte Objekte auszuwählen.
In der zweiten Kategorie kommt im Gegensatz dazu eine Arm Extension, also eine Vergrößerung des Armes und somit des Aktionsradius des Benutzers zum Einsatz. Agiert der Benutzer innerhalb eines bestimmten Radius um seinen Körper, so wird davon ausgegangen, dass alle sich dort befindlichen Objekte problemlos selektiert werden können. Bewegt der Benutzer seinen Arm jedoch über eine festgelegte Schwelle und somit außerhalb des Radius, in dem problemlose Interaktion auf natürlichem Wege möglich ist, so wird der Arm virtuell vergrößert, und es können auch Objekte in weiter Ferne selektiert werden. Ein Beispiel für eine derartige Anwendung findet sich mit Poupyrev's Go-Go Interaction Technique [Pou96].
Wichtig in beiden Kategorien ist ein AR-System, das Bewegungen des Zeigegerätes, also zum Beispiel der mit einem Tracking-Handschuh ausgestatteten Hand des Benutzers, in Echtzeit erkennt und umzusetzen weiß. Außer eines Handschuhs sind auch Zeigegeräte wie beispielsweise ein Stift, eine sogenannte 3D-Maus und ähnliches denkbar. Die Ray Casting Methode bietet zudem die Möglichkeit, die Augen des Benutzers durch Verfolgen der Bewegungen mittels eines Eye-Trackers direkt als Zeigegeräte zu verwenden und somit virtuelle Lichtstrahlen zu erzeugen, die dem Blickfeld des Benutzers entsprechen. Beiden Ansätzen gemein ist die Tatsache, dass zwar das Problem der Selektion weit entfernter, nicht jedoch das der Selektion zum Teil verdeckter Objekte gelöst wird.
Eine Anwendung der Ray Casting Technik wurde durch Slay et al. realisiert [Sla01]. Hierbei wurden sogenannte Marker verwendet, also kleine Platten, auf denen ein möglichst eindeutiges Muster angebracht ist. Dieses Muster wird durch die AR-Komponente erkannt, so dass virtuelle Objekte relativ zu dem Marker erzeugt werden können. Durch direkte physische Interaktion mit dem Marker kann also auch mit den virtuellen Objekten auf natürliche Weise interagiert werden. Um nun jedoch einen bestimmten Teil eines über einer Platte erzeugten Objektes tatsächlich selektieren zu können, kommt ein Zeigegerät zum Einsatz, an dem ein weiterer Marker befestigt ist. Durch Druck auf einen Knopf wird wiederum ein virtueller Lichtstrahl relativ zum Zeigegerät erzeugt, wobei der Strahl intuitiv durch Bewegen des Gerätes mitbewegt werden kann. Mittels einer Kollisionserkennung gelingt es schließlich, bestimmte Objekte tatsächlich auswählen zu können.
Einen anderen Weg der Interaktion in dreidimensionalen Systemen beschritten Szalavári und Gervautz bereits 1997 mit ihrem "Personal Interaction Panel" (PIP) [Sza97]. Anhand der Metapher einer Schiefertafel und Kreide wird versucht, dem Benutzer die Interaktion mit zum Teil virtuellen Objekten auf besonders intuitive und natürliche Art zu erleichtern. Das PIP, bestehend aus einer Platte und einem Stift soll eine Art zweidimensionale Schnittstelle im dreidimensionalen Raum darstellen und wird beidhändig bedient. Dabei ermitteln beispielsweise elektromagnetische Sensoren die Positionen der beiden Schnittstellenmodule und der Benutzer kann agieren, wie er es durch den Umgang mit Zettel und Stift, beziehungsweise mittlerweile auch mit PDAs, Grafiktabletts oder Tablett PCs gewohnt ist. Dieser Ansatz ist insbesondere darauf ausgelegt, verschiedenste Anwendungen zu unterstützen. So ist es beispielsweise möglich, eine virtuelle zweidimensionale Desktop-Oberfläche auf dem Panel zu erzeugen und Interaktionsmöglichkeiten in Analogie zu einem Tablet PC zu schaffen. Nicht unerwähnt darf dabei bleiben, dass ein sogenanntes Head Mounted Display (HMD), wie es in vielen AR-Systemen zum Einsatz kommt, auch bei dem hier besprochenen PIP-Ansatz von essentieller Wichtigkeit ist. Das HMD ist eine Art durchsichtiger Bildschirm, welchen der Benutzer auf dem Kopf trägt und auf dem virtuelle Objekte angezeigt werden können. Das einzige Zeigegerät, das unter Verwendung des PIPs zum Einsatz kommt, ist allerdings der Stift, dem verschiedene Funktionen zugeordnet werden können. Er kann beispielsweise als eine Art Kamera dienen, so dass der Benutzer die dargestellte AR-Szene nicht nur von seinem eigenen Standpunkt, sondern auch aus der Perspektive des Stiftes betrachten kann. Dabei wird die Sicht des Stiftes auf dem Panel angezeigt, wodurch unter anderem eine intuitive Selektion erfolgen kann. Das Auswählen einzelner Objekte in der erweiterten Umgebung erfolgt durch einfaches Berühren ebendieser Objekte mit dem Stift. Dabei bleibt das Problem bestehen, wie Objekte ausgewählt werden können, die sich außerhalb der Reichweite des Benutzers befinden oder von anderen Objekten verdeckt werden. Hier jedoch könnten im ersten Fall Techniken wie das bereits beschriebene Ray Casting oder die Arm Extension als mögliche Erweiterung des PIPs zum Einsatz kommen, um es dem Benutzer zu ersparen, sich physisch zu einem entfernten Objekt bewegen zu müssen. Die Lösung des zweiten Falles, also des Problems der Selektion verdeckter Objekte, bedarf jedoch weiterer Überlegungen, wie sie im folgenden Teil beschrieben werden.
Es findet sich also eine Vielzahl unterschiedlichster grundlegender Methoden um das Problem der Interaktion innerhalb eines AR-Systems zu lösen. Jede dieser Methoden hat ihre eigenen Stärken und Schwächen. Letztere zu beseitigen wird durch multimodale Ansätze versucht.

4. Multimodale Ansätze in dreidimensionalen AR-Systemen

Existieren verschiedene Methoden zur Lösung eines Problems, die alle verschiedene Schwachstellen, aber auch Vorteile besitzen, erscheint es nur logisch, den Versuch zu unternehmen, diese Methoden zu kombinieren und somit die Schwachstellen zu umgehen und die Vorteile zu summieren. Nichts anderes wird in multimodalen Ansätzen versucht, in denen verschiedene Interaktionstechniken parallel und zunächst unabhängig voneinander verwendet werden, um die korrekte Selektion von Objekten der AR zu bewerkstelligen. Dabei werden verschiedene Sinnesmodalitäten sowie in vielen Fällen zudem die Sprache in das System integriert. Schließlich wird das Ergebnis der einzelnen Module kombiniert. Durch die wechselseitige Ergänzung der verschiedenen Methoden wird dabei in vielen Fällen eine höhere Präzision beim Zeigen und Selektieren erreicht.
Einer dieser Ansätze, entwickelt von Kaiser et al. [Kai03], soll im Folgenden kurz ausgeführt werden. Bisher war es in den meisten Fällen lediglich möglich, einfache Aktionen mittels einiger der genannten grundlegenden Interaktionstechniken durchzuführen. Eine Fülle bisher nur schwer umsetzbarer Funktionen kann dadurch erreicht werden, dass Sprache in die Interaktionsschnittstelle integriert wird, wodurch der Benutzer eventuelle Gesten, die von einem Trackingsystem erkannt werden, zusätzlich durch Worte untermauern kann. So kann beispielsweise das zu selektierende Objekt zusätzlich beschrieben und die durchzuführende Aktion in Befehle gefasst werden. Das AR-System kann also durch die Integration mehrerer Module sowie statistische Informationen über bestimmte Objekte die Präzision der Selektionen verbessern und damit eines der Hauptprobleme der Interaktion in virtuellen und erweiterten Welten reduzieren: die Ungenauigkeit und die Unsicherheit darüber, welches Objekt aktuell auszuwählen ist. Die erwähnten Module werden im aktuell besprochenen Modell von Kaiser et al. als SenseShapes bezeichnet und meinen im allgemeinen Zeigegeräte, die es dem Nutzer ermöglichen, mit seiner Umgebung zu interagieren. Dabei kommt hier vor allem das unter Punkt 3 bereits genannte Ray Casting zum Einsatz, wobei virtuelle Lichtstrahlen in Kegelform, ausgehend von der Hand und den Augen des Benutzers erzeugt werden. Schneiden diese Lichtstrahlen ein Objekt der virtuellen oder erweiterten Umgebung, so werden statistische Informationen über dieses Objekt vom System gespeichert. Diese Daten werden über eine gewisse Zeit gesammelt, so dass jedem Objekt einer von vier Rängen zugeordnet werden kann. Als mögliche Ränge genannt werden "time, stability, visibility, and center-proximity" [Kai03].
Es sind also insbesondere zwei Quellen, nämlich die Sprache und die (von einem Trackingsystem erfasste) Bewegung des Benutzers, die mögliche Interaktion bewirken. Wichtig dabei ist, dass Informationen aus beiden Datenquellen parallel und unabhängig voneinander gesammelt werden. Bei der Spracherkennung wird mit Hilfe eines Parsers eine Liste von möglichen Bedeutungen der Aussagen des Benutzers erzeugt. Währenddessen werden verschiedene Gesten in den Bewegungsabläufen des Users unterstützt und vom System erkannt. So wird einem ausgestreckter Arm beispielsweise eine Zeigeoperation zugeordnet. Dabei ist wiederum von Bedeutung, dass der Blick des Benutzers das gleiche Objekt fokussiert wie der ausgestreckte Arm und der zeigende Finger.
Nachdem eine Sprach- und Gestenerkennung erfolgt ist, werden die voneinander unabhängig gesammelten Informationen schließlich zusammengeführt und anhand ihrer Wahrscheinlichkeiten interpretiert und unifiziert. Das Resultat, eine Art Bestenliste, liefert mit dem ersten und daher wahrscheinlichsten Eintrag letztendlich den vom System ausgeführten Befehl.
Es kommt also durch die von den verschiedenen individuellen Modulen gesammelten Informationen zu einer Art wechselseitiger Ergebnisfilterung, was das System in den meisten Fällen deutlich robuster macht und sicherer agieren lässt.

5. Interaktion in zweidimensionalen Umgebungen

Zwar meist weniger komplex, jedoch trotzdem von großer Wichtigkeit ist die Art und Weise, wie in zweidimensionalen erweiterten Systemen interagiert werden kann. Hierbei erfolgt die Selektion von Objekten oftmals analog zu Touchscreens oder Tablet PCs, da die Bedienung mittels Finger oder Stift sehr intuitiv geschieht und der Finger das natürlichste Zeigegerät des Menschen ist.
Als zukunftsweisende Schnittstelle soll hier beispielhaft kurz der sogenannte ED-projector (everywhere display projector) [Pin01] aufgeführt werden. Mittels dieses Projektors ist es möglich, zweidimensionale Projektionen auf jeder erdenklichen Oberfläche innerhalb eines Raumes zu erzeugen. Realisiert wird dies durch einen rotierenden Spiegel und eine spezielle Technik, mit der eine Verzerrung der Projektion verhindert wird, die dadurch entstehen würde, dass die Projektionsoberfläche in den meisten Fällen nicht orthogonal zum Projektor steht. Dabei wird das zu erzeugende Bild invers berechnet, indem die Oberfläche virtuell erzeugt und von einer virtuellen Kamera gefilmt wird. Dieses Szenario muss dabei dem realen Szenario exakt entsprechen. Ausgenutzt wird die Erkenntnis, dass ein Projektor mit einer Kamera von gleicher Brennweite grundsätzlich gleichzusetzen ist. Auf der virtuellen Oberfläche wird nun das Bild als Textur erzeugt und die Sicht der Kamera kann mit der des Projektors gleichgesetzt werden. Interaktion soll nun dadurch erreicht werden, dass eine am Projektor befestigte und vom Computer gesteuerte Kamera das projizierte Bild erfasst und Hand- beziehungsweise Fingerbewegungen des Benutzers erkennt. Dieser kann dann wie mit einem Touchscreen agieren und beispielsweise durch eine schnelle "Tipp"-Bewegung in Richtung der Oberfläche eine Selektion in Form eines gewöhnlichen Mausklicks erreichen. Für den Einsatz an öffentlichen Plätzen oder auch den privaten Gebrauch könnte der ED-projector somit zu einer interessanten und fortschrittlichen Alternative zu herkömmlichen Touchscreens werden, bei der der Benutzer nicht in Kontakt mit den physischen Komponenten des Systems kommt.

6. Aussichten

Wie bereits anfangs erwähnt, befindet sich die Forschung im Bereich Augmented Reality noch in einem verhältnismäßig frühen Stadium, was auch die Fülle verschiedener Interaktionsmöglichkeiten erklärt. Neben den beschriebenen Schnittstellen und Verfahren existiert noch eine Vielzahl weiterer Entwicklungen, deren Beschreibung den Rahmen dieser Arbeit bei Weitem übersteigen würde. Kaum eine dieser Techniken kann jedoch als ausgereift genug angesehen werden, um zum jetzigen Zeitpunkt eine kommerzielle und breite Nutzung oder die Standardisierung bestimmter Verfahren nach sich ziehen zu können. Trotzdem oder gerade deswegen werden wohl auch zukünftig ständig neue und verbesserte Ideen und Projekte in diesem Bereich realisiert werden, was wohl in nächster Zeit auch einen weiterführenden massentauglichen Einsatz von Augmented Reality Systemen, wie zum Beispiel in Computerspielen, Kommunikations- oder Haushaltsanwendungen ermöglichen wird.

Referenzen

[Sla01] Hannah Slay, Matthew Phillips, Rudi Vernik, Bruce Thomas.
Interaction Modes for Augmented Reality Visualization .
In: Proceedings of the 2001 Asia-Pacific symposium on Information visualisation - Volume 9, Australian Computer Society, Inc., Sydney, 2001, 71-75
[Pou96] Ivan Poupyrev, Mark Billinghurst, Suzanne Weghorst, Tadao Ichikawa.
The Go-Go Interaction Technique: Non-Linear Mapping for Direct Manipulation in VR .
In: Proceedings of the 9th annual ACM symposium on User interface software and technology UIST '96, ACM Press, Seattle, 1996, 79-80
[Kai03] Ed Kaiser, Alex Olwal, David McGee, Hrvoje Benko, Andrea Corradini, Xiaoguang Li, Phil Cohen, Steven Feiner.
Mutual disambiguation of 3D multimodal interaction in augmented and virtual reality .
In: Proceedings of the 5th international conference on Multimodal interfaces, ACM Press, Vancouver, 2003, 12-19
[Sza97] Zsolt Szalavári, Michael Gervautz.
The Personal Interaction Panel - A Two-Handed Interface for Augmented Reality .
In: Computer Graphics Forum, 16, 3 (Proceedings of EUROGRAPHICS'97, Budapest, Hungary), Blackwell Synergy, Oxford, 1997, 335-346
[But06] Andreas Butz, Ludwig-Maximilians-Universität München.
Interaction techniques for AR .
25.01.2007
[Pin01] Claudio Pinhanez.
Augmenting Reality with Projected Interactive Displays .
In: Proceedings of International Symposium on Virtual and Augmented Architecture (VAA'01), Dublin, 2001