IN-Car User Interface

Probleme bei der Fahrzeugführung
Was ist ein Interface?
Visuell
Audio-imperativ
Was ist ein Modus?
Audio-visuell
Noch ein bisschen Zukunftsmusik
Kombination von vorgestellten Möglichkeiten
Gesten
Sprache
Audio-Imperativ in der Telefonie: Eine Anekdote
Kontextadaptives Vokabularmanagement
Ausblick
Quellen

Heutzutage ist es üblich mit achtzehn seinen Führerschein zu haben. In Deutschland sind insgesamt etwa 55 Mio. Fahrzeuge angemeldet, davon etwa 46 Mio. PKW (2006) [1]. Bei etwa 82 Mio. Einwohnern in Deutschland bedeutet es, dass im Durchschnitt mindestens jeder Zweite ein PKW besitzt.

Probleme bei der Fahrzeugführung

Jeder, der sich noch an seine Fahrstunden erinnern kann, wird bestätigen, dass beispielsweise das Links-Abbiegen an einer großen Ampelkreuzung viel Aufmerksamkeit und viele simultane Aktionen mit beiden Füßen und beiden Händen erfordert, die nur durch Routine ohne Stress zu bewältigen sind. Besonders in großen Städten ist man permanent solchen Situationen ausgesetzt.
Bei der Nutzung eines Bordelementes wie beispielsweise einen Knopf oder einen Hebel, ist der Fahrer genötigt sowohl seine Hand vom Lenkrad zu nehmen, als auch noch seine Augen auf das Bordelement zu richten, sofern er nicht durch Gewohnheit blind hinlangen kann. So kurz dieser Moment auch ist, ist der Fahrer doch in dieser Zeit vom Verkehr abgelenkt. Dieser Augenblick reicht bei den unnatürlichen Geschwindigkeiten, die wir fahren, und für die unser Reaktionsvermögen nicht ausgelegt ist, einen Unfall zu verursachen. Den Überblick über die fahrzeuginternen Instrumente und erst recht die Nutzung eines Navigationssystems und eventuelle Unterhaltungselektronik erschweren die Situation noch und kann die Sicherheit im Straßenverkehr durch Ablenkung weiterhin gefährden.
Die Errungenschaften der letzten Jahre, dazu gehört auch das Navigationssystem, hat dabei nicht zu einer Erleichterung der Situation für den Fahrer hinsichtlich der Ablenkung beigetragen. Vergleichbar mit den Problemen bei programmierbaren Videorekordern, ist hier der Fahrer zunächst gehalten, sich mit dem System vertraut zu machen, bevor er es sinnvoll nutzen kann. In den meisten Fällen sieht der Nutzer nicht ein, seine Freizeit mit dem Lesen von Anleitungen zu verbringen. Die Frage ist, wie weit sich ein Fahrer mit Systemen oder gar mit dem Erlernen von Systemen während der Fahrt beschäftigen kann, ohne den Verkehr zu gefährden. Die Sicherheit steht also bei allen Überlegungen an erster Stelle [5],[6]. Also liegt es wohl nahe, dem Fahrer alle Bedienungen von Funktionen so zu vereinfachen, so dass ein Ablenken vom eigentlichen Verkehr minimiert wird.

Was ist ein Interface?

Es gibt inzwischen einige Ansätze, wie man diesem Problem begegnet. Sie alle lassen sich unter dem Begriff In-car user interface zusammenfassen. Einzig auf den Begriff interface mag ich noch einmal eingehen, die anderen halte ich für selbsterklärend. Ein Interface ist in diesem Zusammenhang eine Kommunikationseinheit zwischen Person und Auto. Da kann man natürlich auch sagen, dass das Lenkrad auch so ein Interface ist, da es ja aus dem Innenraum vom Nutzer bedient wird und somit also die Steuerung des Fahrzeuges bezogen auf die Außenwelt darstellt, also eine Kommunikation zwischen Fahrer, Fahrzeug und der Umgebung. Allerdings glaube ich, dass im Allgemeinen kompliziertere Geräte, wie z.B. Radio, Telefon, Navigationssystem, Bordcomputer, etc. gemeint sind, deren Abstraktionsgrade doch schon erheblich größer sind. Diese können eventuell mit neuartigen Methoden bedient werden. Vor allen Dingen beschäftigt man sich immer mehr mit adaptiven Systemen, um eine Effizienzzunahme in der Zeit zu gewährleisten. Adaptiv bedeutet hier, dass die Geräte mit zunehmender Anzahl der Nutzung dazulernen. Einige Ideen werden im folgenden vorgestellt.

Visuell

Zum Beispiel von BMW wird ein head up display vorgestellt. Dieses beruht auf der Idee ein erzeugtes Bild auf die Innenseite der Windschutzscheibe zu projizieren und dem Fahrer scheinbar ein Bild in etwa 2m Distanz zu zeigen. Die wichtigsten Informationen könnten auf diesem Display erscheinen und somit wäre ein Abschweifen des Blickes vom Verkehr auf die Instrumententafel oder sogar auf das Navigationssystem nicht mehr notwendig. Selbst wenn der Fahrer für einen Augenblick die Informationen verarbeitet, die sich ihm hier darbieten, sieht er dennoch zumindest aus dem Augenwinkel was in seiner Umgebung passiert. Diese Technik wird schon seit Jahren in Kampfjets benutzt, und man sieht sie auch häufig auf Flugsimulatoren. Es ist höchste Zeit, dass solche militärischen Techniken auch der Allgemeinheit zu Gute kommen.

Audio-imperativ

Es wurde untersucht, inwiefern ein Audio-Befehls-Interpreter hilft komplexe Systeme besser zu bedienen. Durch akustische Signale, könnten Befehle gesendet und Bestätigungen gehört werden. Dabei hat sich auch herausgestellt, je näher sich Stimme und Satzbau am menschlichen Original orientiert, umso angenehmer empfindet der Nutzer das System [4]. Dies wäre ein großer Vorteil, denn um z.B. ein Radio einzuschalten muss man nicht erst den Kopf drehen, auf den Schalter blicken, eine Hand vom Lenkrad nehmen und auf den Schalter zielen, sondern kann alles mit seiner Stimme regeln und dabei gleichzeitig dem Verkehr die volle Konzentration schenken. Man nennt die Stimme in diesem Fall einen anderen Modus.

Was ist ein Modus?

Jeder Modus ist zu jedem anderen parallel, also zeitgleich ausführbar. Während die Augen schauen, lenken die Hände und befiehlt die Stimme. Daher spricht man von multimodaler Benutzung von Fahrzeugsystemen [5]. Sprache, Gesten, Mimik, Berührung sind Modalitäten für die Kommunikation mit dem Computer. Natürlichere Umgangsweisen werden in Zukunft die Kommunikation mit Maschinen (zu denen ein Auto auch gehört) ablösen.
Zur Mimik gehört unter anderem, die Bewegung der Augen. Die Muskulatur für die Bewegung der Augen ist die am Häufigsten genutzte. Bis zu 100'000 mal pro Tag wird der Augapfel bewegt. Also hat man es hier mit einer sehr schnellen Zielerfassung zu tun. Die Zieleinrichtung bei Kampfjets nutzt Kameras, die die Augenbewegung scannen und auf diese Art ein Ziel extrem schnell und punktgenau zu erfassen.

Audio-visuell

Eine andere Richtung im Bereich in-car user interface führt sogar zur zeitweiligen Kontrollübernahme des Fahrzeugs durch das System, wie es beispielsweise vom Automatic Parallel Parking Assistance System gemacht wird. Dabei behält der Fahrer immer noch die Kontrolle über die Geschwindigkeit und die Möglichkeit jederzeit zu stoppen. Aber immerhin übernimmt das System die Lenkung und manövriert das Fahrzeug unter anderem mit Hilfe von Sensoren, die die nähere Umgebung erfassen. Sobald das Fahrzeug korrekt geparkt ist, stoppt es [2].
Dies dürfte besonders für diejenigen interessant sein, die sowieso Probleme beim Einparken haben (ich möchte keine besondere Personengruppe ansprechen). Es kann viel Stress verursachen, ein x-tes Mal wieder aus der Parklücke herauszusetzen um noch einen Parkversuch zu starten, wenn sich hinter einem schon eine Autoschlange gebildet hat. Außerdem könnten kleinere Parklücken genutzt werden, die man sich vielleicht sonst nicht zutraut.
In der Studie der Universität Linköping [2] wurden mehrere Modalitäten getestet: Vom reinen Audiomodus zum rein visuellen Modus auf einem Bildschirm über die die Kombination dieser beiden. Obwohl der reine Audiomodus für die Teilnehmer als bestes eingestuft wurde, fehlte einigen wohl eine zusätzliche Bestätigung in visueller Form. Die rein visuelle Variante wurde eher als gefährlich eingestuft, da sie zu sehr vom Verkehr ablenkt, denn man hat ja noch immer die Kontrolle über die Geschwindigkeit, und beispielsweise muss ein sich nähernder Radfahrer beachtet werden.

Weiterhin gibt es Konzepte für eine multimediale Anleitung für das Auto im Auto [3]. Das System soll durch Sprache bedient werden und sowohl sprachlich Antworten als auch entsprechende Bilder, Videos oder Animationen auf einem Bildschirm zeigen. So hat der Fahrer die Möglichkeit Funktionen seines Systems effizient zu lernen. Er muss sich nicht erst mit der Anleitung beschäftigen und komplett durchlesen, sondern lernt nur das, was ihn wirklich interessiert, und das auch noch auf viel angenehmere Art und Weise. Sicherlich könnte man das zu einem kompletten Tutorial ausbauen, der einem Anfänger Schritt für Schritt Anweisungen gibt, bis hin zu Routinierten, die nur noch eventuell eine konkrete Frage beantwortet haben wollen.

Noch ein bisschen Zukunftsmusik

Außerdem gibt es Ideen für Geschwindigkeitskontrolle, Abstandskontrolle zum Vordermann, Spurkontrolle, die dazu gedacht ist das Fahrzeug in der Spur zu halten, welche eigentlich schon wieder eine Lenkkontrolle ist. Dadurch wird das Autofahren an sich auch immer mehr automatisiert.

Das größte Problem besteht hier in der Sicherheit. Wie werden Fehler behandelt? Können Fehler von Systemen zu Unfällen führen? Da keimt bei mir auch die Frage, wer dann an solch einem Unfall die Schuld trägt. Die Rechtsgrundlage muss zunächst einmal geklärt sein, bevor so ein System auf der Straße zu finden sein wird. Meiner Ansicht nach wird im Bereich der Fahrzeugführung noch eine Weile vergehen, bis solche Hilfsmittel , wie sie oben genannt sind in Massenproduktion übergehen.

Kombination von vorgestellten Möglichkeiten

Ich kann mir allerdings gut vorstellen, dass die vier näher Erläuterten Beispiele sich gut kombinieren lassen. Und dazu könnten noch weitere Elemente kommen.
Das head-up-display kann für viele Zwecke genutzt werden. Man könnte es großflächiger gestalten und die weniger wichtigen Informationen an den Randbereichen positionieren. Ähnlich wie in der User Study für die Photolens , die einen riesigen Bildschirm als Tisch benutzte, auf der Fotos mit Hilfe der Photolens sortiert und verschoben werden konnten, könnte man hier die entsprechenden für einen selbst wichtigen Elemente mit der Hand, also durch Gesten, über die nutzbare Fläche der Windschutzscheibe verschieben. Dazu könnte man Augenkameras einsetzen, die helfen, die Elemente auf dem head-up-display zu manipulieren.

Gesten

Eine Modalität ist also durch Gesten zu steuern. Nachteilig wirkt sich hier aus, dass man dafür auch wiederum eine Hand vom Steuer nehmen muss. Aber wenn die Geste bekannt ist, braucht man sein Augenmerk nicht vom Verkehr abzuwenden. Einige wenige Befehle lassen sich durch Gesten Steuern, denn wenn zu viele Gesten als Vokabeln implementiert sind, dann muss der Nutzer diese Gesten erst wieder lernen, welches aber der Effizienz und damit auch der Usability abträglich ist. Sinn machen Gesten, die den natürlichen Gesten am nächsten kommen und von daher mehr oder weniger selbsterklärend sind. Dadurch fühlt sich die Kommunikation mit dem Gerät auch wohler an. Abhilfe in Bezug auf die geringe Anzahl möglicher, sinnvoller Gesten würde eine geeignete Menühierarchie schaffen, welche aber auch wiederum nicht in zu tiefe Strukturen führen sollte. Letztlich ist es meines Erachtens für ein umfangreiches System nicht brauchbar.

Sprache

Eine andere Modalität ist Sprache. Kritikpunkt trotz hoher technischer Entwicklung ist hier vor allem die hohe Fehlerrate bei der Erkennung [6]. Daher ist sie derzeit für Echtzeitanwendungen nicht geeignet. Für Schaltvorgänge wie zum Beispiel bei Unterhaltungselektronik oder Kommunikationsanlagen ist sie dennoch sehr nützlich, da Sicht und Motorik davon weitgehend uneingeschränkt sind. Außerdem lässt sich jeder Menüpunkt direkt ansprechen und eine tiefe Menühierarchie ist daher hier nicht vonnöten. Somit ist sie für jede Steuerung gut, die nicht direkt die Fahrzeugsteuerung betrifft.

Um eine Sprachsteuerung effizient nutzen zu können, muss allerdings ein ausgeklügeltes Fehlererkennungssystem benutzt werden. Hauptproblem ist meiner Ansicht nach, dass eben jeder Mensch jedes Wort ein klein wenig anders ausspricht. Tonhöhe und Klang machen ein Übriges. Im Extremfall wird ein Bayer, ein Berliner, ein Hamburger, ein Sachse und ein Westfale verglichen. Also greift man insbesondere hier auf adaptive Systeme zurück, die in der Lage sind, mit den Spracheigenschaften einer jeweiligen Person allmählich Fortschritte zu machen.

Audio-Imperativ in der Telefonie: Eine Anekdote

Ich erinnere mich gerade daran, dass ich in Kontakt mit dem Telefonservice kam, weil ein Teilnehmer nicht erreichbar war, aufgrund eines Gespräches, dass er gerade führte. Eine freundliche, aber doch abgespielte Damenstimme fragte mich, ob ich mit dem Teilnehmer verbunden werden wollte sobald dieser seine Leitung freigab. Man sollte darauf mit Ja oder Nein antworten. Ich sagte: Ja Die Damestimme sprach dann davon, dass ich es bitte wiederholen möge, weil es nicht deutlich genug gewesen sei. Wiederum bestätigte ich mit Ja Dieser Vorgang wiederholte sich etwa 8 bis 10 mal, bis ich entnervt aufgab. Ein anderes Mal sagte ich Nein, und plötzlich rief die Dame, dass dieses Servicemerkmal nun aktiviert sei (als hätte ich mit Ja geantwortet). Ich glaube kaum, dass ich zu den Leuten zähle, die undeutlich sprechen, weil ich schon vielfach auf meine besonders deutliche Aussprache hingewiesen wurde.
Ich muss sagen, dass mich diese Geschichte ein wenig erschütterte, weil ich nicht gedacht hätte, dass es mit der Spracherkennung noch so weit zurück ist. Da ich auch schon mit Spracherkennung für die Texterfassung gearbeitet habe, nehme ich an, dass der Fehler erstens in der Qualität der Telefonleitung und zweitens bei der Telefongesellschaft liegt.
Wie auch immer: Mit einer geeigneten Fehlererkennung lässt sich eine Steuerung eines Systems durchsetzen.

Kontextadaptives Vokabularmanagement

Eine geschickte Idee ist das kontextadaptive Vokabularmanagement, bei dem das vorgegebene Vokabular in Gruppen eingeteilt ist. Eine Vokabel wird in bestimmten Situationen, also je nach Kontext, aktiviert oder deaktiviert, so dass nicht das gesamte Vokabular mit dem Muster verglichen werden muss. Auf diese Art werden Fehler vermieden und das Vokabular kann eine größere Anzahl Wörter enthalten [6].

Durch einen Dialog mit dem adaptiven System können weitere Fehler ausgeklammert werden. Das System lernt während des Dialogs und deaktiviert die ungültigen Wörter, so dass am Ende eine eindeutige Zuordnung machbar ist, die aus Sicherheitsgründen noch einmal bestätigt werden kann.

Ausblick

Auf jeden Fall dürfen wir in Zukunft auf multimodale Steuerung und multimediales Feedback hoffen welche das Fahren eines Autos wirklich erleichtern soll. Wir werden sehen.

Quellen

[1] Statistisches Bundesamt Deutschland, http://www.destatis.de

[2] Airaksinen, Aminoff, Byström, Eimar, Mata, Schmidt: Automatic Parallel Parking Assistance System User Interface Design Easier Said Than Done? Cognitive Science Program, University of Linköping, June 2004, http://www.ida.liu.se/~HKGBB5/rapporter-04/grupp4.pdf

[3] Bengler K. : Development and multimodal operation of a multimedia car instruction manual, 2001

[4] Libuda, Lars; Kraiss, Karl-Friedrich: Dialogassistenz im Kraftfahrzeug, Volume DGLR-Bericht 2003-04, pp. 255-270, 14.-15. Oktober, Neubiberg, ISBN 3-932182-33-2

[5] Libuda, Lars: Improving clarification dialogs in speech command systems with the help of user modeling: A conceptualization for an in-car user interface , Volume Forschungsbericht Nr. 763, pp. 256-260, 8.-11. Oktober, Dortmund, Universität Dortmund, Fachbereich Informatik, ISBN 0933-6192 (ISSN)

[6] Akyol S., Libuda L., K.-F. Kraiss: Multimodale Benutzung adaptiver Kfz-Bordsysteme , (2001), In Jürgensohn Th., Timpe K.-P. (Eds.) Kraftfahrzeugführung , pp. 137-154, Springer, ISBN 3540420126

Weitere Quellen sind für den Überblick und für das Sachwissen benutzt, jedoch hier nicht zitiert, oder aber von mir nicht für seriös genug eingestuft worden. Dazu zählen auch diverse Diskussionsforen.