Usability Tests in the Field

von Dhana Sauernheimer

Einleitung
Feldtests - Durchführung und Auswertung
Feedback-Techniken
Fazit
Referenzen

1. Einleitung

Bei der Entwicklung eines komplexen Systems sind verschiedene Arten von Tests unverzichtbar und sollten möglichst in jedem Stadium des Softwareentwicklungsprozesses eingesetzt werden. Doch gerade in den späteren Phasen sind nicht einzig und allein die Korrektheit der Implementierung sowie deren Performanz von Bedeutung, sondern auch die Akzeptanz und Zufriedenheit des Nutzers spielen eine zunehmend größere Rolle. Das Ziel ist also, sich zu vergewissern, dass nicht nur das System seinen Zweck erfüllt, sondern dass seine Nutzer auch tatsächlich fähig sein werden, sein volles Potential auszuschöpfen. Dazu ist es essenziell, durch Usability-Tests frühzeitig mögliche Schwachstellen und Probleme aufzudecken.

2. Feldtests - Durchführung und Auswertung

2.1 Feldtests vs. Labortests

Um die Benutzbarkeit eines Systems zu untersuchen, gibt es zwei bekannte Vorgehensweisen: Labor- und Feldtests. Im Unterschied zum Labortest wird ein Feldtest stets in natürlicher Umgebung, also unter realen Bedingungen direkt beim Nutzer durchgeführt. Dabei werden den Testpersonen die Testobjekte für einen gewissen Zeitraum zur Verfügung gestellt. Nach dieser Phase und optional zwischendurch findet eine Analyse der Nutzung statt. Das Feedback hierfür kann mit einer oder mehrerer der folgenden Methoden eingeholt werden: Beobachtungen, Befragungen sowie physiologische Messungen.

Der große Vorteil von Feldtests gegenüber Labortests besteht darin, dass auch längerfristige und nicht manipulierbare Studien möglich sind: gerade bei sehr komplexen Diensten, Geräten oder Interfaces erstreckt sich die Nutzung häufig über einen langen Zeitraum und kann deshalb nicht unter realistischen Bedingungen im Rahmen eines zweistündigen Labortests simuliert werden. Um ein interaktives System vollständig zu testen, ist ein realer Kontext erforderlich, mit allen Störungen, Ablenkungen und Unterbrechungen, die im natürlichen Umfeld beeinflussend wirken können. Da solche Störungen zusammen mit der fehlenden Kontrolle, wie sie bei Labortests gewährleistet ist, natürlich unter Umständen auch zu schwer kalkulierbaren Ergebnissen führen können, sollten optimalerweise beide Arten von Tests im Laufe der Entwicklung zum Einsatz kommen.

2.2 Auswertungstechniken

Vor der eigentlichen Durchführung eines Benutzbarkeitstests ist es bereits wichtig, sich einige Gedanken über die Auswertung zu machen. Um hinterher verwertbare empirische Ergebnisse zu erhalten, benötigt man als Erstes eine Sammlung geeigneter Hypothesen, die es zu testen gilt und anhand derer letztlich auch die Feedback-Methode gewählt und ausgearbeitet werden kann.

Anschließend müssen die für die jeweilige Hypothese ausschlaggebenden unabhängigen und abhängigen Variablen identifiziert werden. Unabhängige Variablen (engl.: independent variables, kurz: IV) sind jene Faktoren, die im Laufe mehrerer Testreihen bzw. bei verschiedenen Testpersonen oder Nutzergruppen geändert oder abgewandelt werden, um unterschiedliche Ergebnisse zu erhalten (z.B. Layout eines User Interfaces, Anzahl der Items in einem Menü, Schriftstile und -größen, usw.). Als abhängige Variablen (engl.: dependent variables, kurz: DV) werden hingegen die während der Tests gemessenen Charakteristiken bezeichnet (z.B. vom User benötigte Zeit um eine Aufgabe zu lösen, Anzahl seiner Fehlversuche, usw.).

Nun kann jede der zu überprüfenden Hypothesen in Abhängigkeit ihrer identifizierten Variablen ausgedrückt werden, z.B. "Je kleinere Schriftgröße, desto höhere Fehlerrate", wobei die Schriftgröße hier eine unabhängige Variable ist, die in verschiedenen Testreihen abgeändert werden kann, um ihren Einfluss auf die abhängige Variable, die Fehlerrate des Nutzers, beobachten zu können. Häufig stellt man gerne eine sog. Nullhypothese auf, die es dann durch den Test zu widerlegen gilt. Dabei wird angenommen, dass der zu zeigende Zusammenhang nicht besteht, z.B. "Die Schriftgröße hat keinen Einfluss auf die Fehlerrate."

2.3 Durchführung

Möchte man nun eine Hypothese, also den Einfluss veränderter unabhängiger Variablen auf eine unabhängige Variable, testen, gibt es zwei Möglichkeiten zur Durchführung: die kostengünstigere Methode wäre, jede Testperson den Test unter sämtlichen ausgewählten Bedingungen durchführen zu lassen. Zwar benötigt man für diese Variante deutlich weniger Ressourcen und Teilnehmer, doch können in fortgeschrittenen Testreihen unter Umständen abweichende Ergebnisse auftreten, da die Testpersonen durch Lernprozesse bei wiederholten Aktionen unter nur geringfügig anderen Bedingungen möglicherweise andere ("bessere") Ergebnisse liefern, z.B. könnte die Fehlerrate beim Navigieren in einem Menü trotz kleinerer Schriftgröße sinken, da der Nutzer in vorhergehenden Testreihen bereits gelernt hat, schneller und fehlerfreier mit dem System zu arbeiten.

Eine alternative Möglichkeit wäre, den Test pro User nur jeweils mit einer Variablenkonstellation durchzuführen. Die eben genannten Störungen durch Lernprozesse lassen sich somit zwar vermeiden, doch benötigt man dafür möglicherweise eine sehr große Menge an Teilnehmern und Ressourcen. Davon abgesehen kann es je nach Hypothese vielleicht sogar notwendig sein, die Testpersonen genauer zu klassifizieren und in Zielgruppen einzuteilen, um verfälschte Ergebnisse durch nun zusätzlich auftretende nutzerabhängige Variablen auszuschließen.

3. Feedback-Techniken

Wie in Abschnitt 2.1 bereits erwähnt, gibt es drei Methoden zur Einholung von Nutzerfeedback nach der eigentlichen Testphase, die sich bzgl. Objektivität, Aufwand und Informationsgehalt grundsätzlich voneinander unterscheiden: Beobachtungen, Befragungen und physiologische Messungen. Je nach Fragestellung kann eine Methode sinnvoller sein als die andere, häufig erzielt man jedoch das prägnanteste Ergebnis durch Kombination mehrerer Techniken.

3.1 Beobachtung

3.1.1 Lautes Denken (Think Aloud)

Eine sehr einfach und unkompliziert durchzuführende Technik besteht darin, den Nutzer während der Ausführung einer Aufgabe laut beschreiben zu lassen, was er gerade tut, was die Motivation für eine Aktion war und was er in einer bestimmten Situation vom System erwartet. Diese Technik liefert vor allem wertvolle Hinweise darauf, wie das System gerade verwendet wird, wo die Intention des Users mit der Idee des Designs übereinstimmt und wo mögliche Schwachstellen liegen. Allerdings sind die Ergebnisse nicht nur sehr subjektiv, sondern auch selektiv. Außerdem kann die zusätzliche Tätigkeit der Testperson, das Beschreiben seiner Aktionen, ihn ablenken und seinen Umgang mit dem System zusätzlich erschweren, was zu einer gewissen Ungenauigkeit führt.

3.1.2 Kooperative Auswertung (Cooperative evaluation)

Eine Variation der "Think Aloud"-Technik ist die kooperative Auswertung, bei der nicht nur die Testperson ihre Aktionen beschreibt, sondern mit dem Analysten darüber diskutiert, wobei Beide die Möglichkeit haben, aktiv Fragen zu stellen. Sie hat den zusätzlichen Vorteil, dass die Klärung von Missverständnissen während des Auswertungsprozesses geschehen kann, wodurch einige Störfaktoren "on-the-fly" beseitigt werden können. Darüber hinaus kann die Testperson auch spontane Kritik am System einbringen und damit auf möglicherweise völlig neu Faktoren hinweisen.

3.1.3 Protokollanalyse (Protocol Analysis)

Es gibt verschiedenste Möglichkeiten Tests zu protokollieren, um wertvolle und relativ objektive Daten über den Testverlauf zu sammeln. Die Einfachste und Günstigste besteht wohl im Notieren mit Stift und Papier, was den entscheidenden Nachteil mit sich zieht, dass man dabei stets auf die Schreibgeschwindigkeit des Menschen beschränkt ist. Für "Think Aloud"-Methoden bieten sich vor allem Audio-Mitschnitte an, noch realistischer und präziser sind Videoaufnahmen, die jedoch durch teures Equipment und langsame Auswertung sehr aufwändig sind. Eine sehr zuverlässige und automatisierte Analyse ist mit Logfiles möglich, die häufig einen großen Schwung an Daten produzieren, die es allerdings erst einmal zu systematisieren und zu filtern gilt. In der Praxis wird meist eine Mischung dieser und weiterer Möglichkeiten verwendet.

3.1.4 Post-Task Walkthroughs

Während Protokollanalysetechniken in den meisten Fällen nur eine Antwort auf das "Was" und das "Wie" geben, nicht jedoch auf das "Warum", also die Motivation für bestimmte Aktionen, kann der Analyst in Post-Task Walkthroughs interessante und relevante Ereignisse aus dem Protokoll auswählen, sie dem Teilnehmer erneut zeigen und ihn bitten, seine Aktion zu kommentieren. So erlangt man relativ einfach selektive Informationen über Beweggründe und Absichten der Nutzer. Post-Task Walkthroughs können deshalb auch als "erweitertes Think-Aloud" angesehen werden. Sie können sofort nach einer Aktion stattfinden, was den Vorteil hat, dass der Testteilnehmer seine Motivation noch frisch im Gedächtnis hat, oder auch zeitverzögert, nachdem der Analyst in der Nachbereitung besonders auffällige und interessante Stellen extrahiert hat.

3.2 Befragung

3.2.1 Mündlich (Interview)

In einem Interview befragt der Analyst die Testperson direkt, meist basierend auf vorbereiteten Fragen. Hierfür ist im Vorfeld eine sorgfältige Planung erforderlich. Meist wird in den Fragestellungen "top-down" vorgegangen - von allgemeinen Fragen über Motivation, Eindrücke, Vorlieben und Verhaltensweisen hin zu Details. Interviews sind einfach und günstig durchzuführen und man erhält nicht selten Hinweise auf unerwartete Schwachstellen. Allerdings wird relativ viel Zeit benötigt und die Ergebnisse sind stets als sehr subjektiv anzusehen.

3.2.2 Schriftlich (Questionnaire)

Alternativ kann dem Teilnehmer ein vorgefertigter Bogen mit festen Fragen ausgehändigt werden. Auf diese Weise kann man schnell und einfach ein sehr großes und breites Teilnehmerfeld erreichen. Die Analyse ist mit weniger Aufwand verbunden als etwa die eines Interviews, allerdings können durch die verminderte Flexibilität der Fragen einzelne Nuancen in den Antworten verloren gehen, die auf unberücksichtigte Schwachstellen des Systems hinweisen könnten. Verschiedene Fragestile tragen dazu bei, trotzdem eine möglichst hohe Genauigkeit zu erreichen. So gibt es neben offenen Fragestellungen, in denen die Teilnehmer kurze Statements verfassen können, oft auch Single oder Multiple Choice Test, skalierte Fragestellungen, bei denen der Teilnehmer eine Aussage mittels einer numerischen Skala anhand eines Kriteriums beurteilen kann und Rankings, bei denen Aussagen nach einem festgelegten Kriterium geordnet werden können.

3.3 Physiologische Messung

Ein weiterer Ansatz, sehr genaue und objektive Ergebnisse zu erhalten, besteht in physiologischen Messungen. Per Blickbewegungsregistrierung (Eye Tracking) können durch aufwändige Analyse von Augenbewegungsmustern (Fixationen und Sakkaden) Rückschlüsse auf den kognitiven Umgang eines Nutzers mit einem System gezogen werden. Da emotionale Ereignisse stets mit physischen Ereignissen verknüpft sind, kann es sogar von Nutzen sein, physische Aktivitäten wie Puls, Blutdruck, Temperatur, Muskelkontraktionen etc. zu messen. Es besteht zum heutigen Zeitpunkt allerdings noch eine gewisse Schwierigkeit, solche Daten auszuwerten und zu interpretieren.

4. Fazit

Bei der Vielzahl von zur Verfügung stehenden Evaluationsmethoden und Techniken stellt sich stets die Frage, welche für eine spezifische zu testende Hypothese am geeignetsten erscheint. Eine Hilfestellung für die Entscheidungsfindung besteht in der Eingrenzung des Problems und des zu erreichenden Ziels. Wichtige Fragestellungen könnten hierbei sein:

In welcher Entwicklungsphase befindet sich das System?
Welche Ressourcen stehen zur Verfügung? (Teilnehmerzahl, Zeit, Geld, Geräte...)
Sind eher qualitative oder eher quantitative Aussagen wichtig?
Wie ausschlaggebend ist die Objektivität der Ergebnisse?
Wie schnell sollten die Ergebnisse zur Verfügung stehen?
Welche Art von Informationen werden gesucht? ("High-Level", z.B. Kritik am System vs. "Low-Level", z.B. Augenbewegungsmuster)

5. Referenzen

HCI-Book Chapter 9: evaluation techniques

Gregory's Cognitive Walkthrough

MMI @TUM: Evaluierung

Think aloud and cooperative evaluation

IUM II 2005/06 - evaluation