Tag-Clouds For Search And Navigation
Johannes Huber
1 Einleitung
Das Thema dieses Aufsatzes lautet "Tag-Clouds For Search And Navigation", was man uebersetzen koennte mit "Wortwolken zum Suchen und Navigieren/Orientieren" - wobei im Folgendem "Tag-Cloud" nicht ersetzt wird. Die Uebersetzung "Wortwolke" ist z.B. bei wikipedia.de zu finden, doch der Begriff "Tag" eignet sich hier besser als "Wort", da das englische "Tag" hier eher fuer Stichwort, Begriff oder Etikett steht, was hinsichtlich dieses Kontext geeigneter scheint.Unter einer Tag-Cloud versteht man die Methode zur Informationsvisualisierung, bei der eine Wortliste zweidimensional alphabetisch sortiert angezeigt wird, wobei einzelne Worte unterschiedlich gewichtet groeßer oder auf andere Weise hervorgehoben (z.B. durch Schriftfarbe) dargestellt werden.
Tag-Clouds wurden vermutlich erst 2002 von Jim Flanagan das erste mal eingesetzt und anfangs "weighted list" genannt. Der Einsatzbereich von Tag-Clouds liegt zunehmend bei gemeinschaftlichen Indexieren oder in Weblogs. Als "Vorzeige"-Webseiten kann man dazu z.B. flickr.com, del.icio.us, technorati.com oder last.fm besuchen, um das Basiskonzept dahinter zu verstehen.
Im Folgendem wird das Basiskonzept mit Hilfe der Webseite last.fm kurz erlaeutert.
1.1 Basiskonzept der Tag-Clouds
Durch last.fm bin auch Ich auf dieses Konzept gestoßen, ohne zu wissen, dass sich dieser "Woerterblock" Tag-Cloud nennt. Last.fm ist ein online Radiosender, der - nach Anmeldung und Registrierung - als Startbildschirm eine Tag-Cloud von verschiedenen Musikrichtungen praesentiert, wobei die meist gesuchten Musikrichtungen (z.B. "rock", "electronic" oder "pop") als Woerter mit groeßerer Schriftgroeße als die weniger gesuchten (z.B. "ambient", "death metal" oder "industrial") dynamisch dargestellt werden. Statt dessen kann man wahlweise auch ein Stichwort eingeben, daß entweder eine Musikrichtung oder eine Band sein kann und die Tag-Cloud wird danach ausgerichtet.Klickt man nun z.B. auf "electronic", gelangt man zu einer zweiten, neuen Tag-Cloud, bei der jetzt die Woerter mit den groeßeren Schriftgroeßen "techno", "idm" oder "ambient", eben verwandte (Unter-)Kategorien von "electronic", lauten. Dieses Navigieren laesst sich nun beliebig genau und oft fortsetzen. Ist man mit dem Schlagwort (z.B. "idm" [=Intelligent Dance Musik]) zufrieden, wird ein passender Radiosender mit aehnlicher Musik (z.B. Aphex Twin, Jan Jelinek oder Vladislav Delay) dazu gesucht.
Das Basiskonzept der Tag-Clouds sollte nun verstanden sein und daher wird der Hauptteil kurz resuemiert.
1.2 Ueberblick der einzelnen Kapitel im Hauptteil
Zu Beginn wird noch mal genauer definiert, was eine Tag-Cloud ueberhaupt ist, welchem Zweck sie dient und welche psychologischen Konzepte dahinter stehen. Nachdem auf die Vor- und Nachteile der Tag-Clouds eingegangen wird werden einige Konzepte zur Verbesserung der Tag-Clouds vorgestellt. Der technische Aspekt hinter den Tag-Clouds wird nicht behandelt, da der Hauptaugenmerk auf den psychologischen und benutzerorientierten Aspekten liegt.2 Hauptteil
Anfangs wird noch mal etwas genauer dargestellt, um was es sich bei einer Tag-Cloud eigentlich handelt und wie man sie definieren kann, wobei hier zwei verschiedene Definitionen vorgestellt werden.2.1 Definition der Tag-Clouds
Die erste Definition besagt, dass eine Tag-Cloud eine Liste der beliebtesten und gaengigsten Woerter ist, gewoehnlich in alphabetischer Reihenfolge und visuell nach Schriftgroeße gewichtet dargestellt. Klickt ein Benutzer in einer Tag-Cloud auf ein bestimmtes Tag, erhaelt er wiederum eine sortierte Liste von diesen Begriff beschreibenden, verwandten Quellen - eine weitere Tag-Cloud, angeordnet nach dem urspruenglichem Tag.Eine weitere Definition lautet, dass eine Tag-Cloud ueblicherweise aus zwei Elementen besteht: Einerseits aus einer Ansammlung verlinkter, alphabetisch angeordneter Tags, die in variierenden Schriftgroeßen und -farben dargestellt werden, um die Wichtigkeit und Haeufigkeit der Benutzung zu visualisieren. Andererseits besteht eine Tag-Cloud noch aus einer Ueberschrift (bzw. dem groeßtem Tag in der Tag-Cloud), um den Kontext der Ansammlung von Begriffen zu verdeutlichen.
Als Beispiele fuer Tag-Clouds "der ersten Generation" - mit eher niedriger Komplexitaet - waeren hierzu nochmal flickr.com, del.icio.us oder technorati.com zu nennen, wohingegen etwas modernere Bestrebungen bei last.fm oder ma.gnolia betrachtet werden koennen. Die simple Struktur einer Tag-Cloud der ersten Generation ermoeglicht es ihr eine sehr nuetzliche Funktion ohne uebermaeßige Komplexitaet zu vollbringen.
2.2 Das psychologische Konzept der Tag-Clouds
Die psychologischen Konzepte hinter der Tag-Cloud werden nun durch einzelne Schritte dargestellt und erklaert. Die Tags in den Tag-Clouds entstehen direkt von der Perspektive der Benutzer, die sie "schaffen", aber machen Entwicklungen und Veraenderungen durch, waehrend sie zu einer Tag-Cloud werden. Tag-Clouds vermehren und vergroeßern sich mit der Zeit, wenn eine Person oder eine Gruppe von Personen eine Menge von Begriffen mit einem Stichwort oder Schlagwort einer bestimmten Gattung miteinander in Verbindung bringt bzw. assoziiert - z.B. einem Foto auf flickr.com, einer URL im Falle von de.licio.us oder einem Album oder Lied auf last.fm.Wie diese Beispiele zeigen, kann ein Stichwort alles moegliche sein, dass zur Bedeutung oder zum Verstehen beitraegt. Hierfuer koennte man zum Verstaendnis z.B. "metal", "cannibal corpse" oder "rolling stones" als Stichwoerter fuer den Oberbegriff "rock" unterordnen und assoziieren. Die Begriffe oder Tags fungieren als Traeger fuer den Ausdruck, die jeder "Tagger" mit dem Stichwort assoziiert. Waehrend die Begriffe sich veraendern koennen, bleiden die Stichwoerter stabil. Der Schluessel ist, dass das Tag eine Referenz oder Verbindung zu dem Stichwort ist, das der Benutzer im Sinn hat. Als eine Folge davon sind Tag-Clouds mehr als eine Ansammlung von erklaerender oder verwaltender Bezeichnungen, die sich einem Link zu- bzw. unterordnen. Das Tag ist eine Art Etikett oder Namensschild, dass sich auf einen oder mehreren Begriffen bezieht.
Eine Tag-Cloud ("Wolke von Tags") ist dann eine Ansammlung von Etiketten, die auf eine Gruppe von verwandten Begriffen verweist. Die Kombination von Tags, die sich auf bestimmte Begriffe beziehen, mit dem urspruenglichem Fokus kreiert ein "semantisches Feld". Ein semantisches Feld ist eine Menge von Begriffen, die in Beziehung mit einem Fokus oder Ueberbegriff stehen - aber in einer Form, die nun unabhaengig von den "schaffenden", kreierenden Taggern steht und verfuegbar zum Verstaendnis fuer andere Benutzer ist. Die wichtigste Sache zum Verstehen ist, dass Tag-Clouds eine Visualisierung eines semantischen Feldes sind.
Die daraus resultierenden Vor- und Nachteile werden nun eroertert.
2.3 Vorteile der Tag-Clouds
An dieser Stelle sollte mittlerweile klar sein, um was es sich bei einer Tag-Cloud handelt. Jetzt werden zuerst einige Vorteile der Tag-Clouds dargestellt, wobei danach ebenfalls auf etwaige Nachteile eingegangen wird und zu guter letzt Verbesserungsvorschlaege fuer die "first-generation Tag-Clouds" genannt werden.Tag-Clouds sind revolutionaer in ihrer Faehigkeit, Begriffe mit nahezu allem, was man sich vorstellen kann, zu assoziieren und dieses außerdem in eine Visualisierung des Ganzen - in Form von verschiedenen Schriftgroeßen - dynamisch umzusetzen. Das Genie der Tag-Clouds ist semantische (Ober-)Begriffe zu bilden, die semantischen Verzweigungen hinter diesen Begriffen und die Erscheinungsform als praktische Metadaten benutzbar fuer sehr viele Menschen.
Waehrend Anfragen (Stichworteingabe) ausserdem den Benutzer zwingen, seine Wuensche praezise einzugeben und zu formulieren, ermoeglicht das "visuelle Browsen" ihm nach seinen benoetigten Informationen zu suchen, zu navigieren und sie zu erkennen. Visuelles Browsen aehnelt dem Hypertext Browsen in der Weise, dass man bei beiden mit Hilfe von Durchsuchen bzw. Browsen nach Informationen Suchen kann. Der Unterschied liegt daran, dass visuelle Interfaces einen globalen Ueberblick von Tags darstellen - eine globale, textabhaengige Darstellung.
Ein weiterer Vorteil ist, dass Tag-Clouds das Vokabular und die Sprache der Benutzer direkt reflektieren. Der beste Weg, einen benutzerfreundlichen Index zu erstellen, ist durch einen Index, den der Benutzer (mit vielen anderen) selbst erstellt hat, wie bei den Tag-Clouds. Die Bedeutung eines Wortes liegt in seiner Anwendung.
Noch dazu ermoeglichen Tag-Clouds die Entdeckung von Informationen durch gluecklichem Zufall, d.h. daß man beim Navigieren zufaellig auf Informationen stoeßt, nach denen man zwar nicht gesucht hat, die aber brauchbar sind.
Im Folgenden wird nun auf die Nachteile eingegangen, die Tag-Clouds der ersten Generation mit sich bringen.
2.4 Nachteile der Tag-Clouds
Trotz den vielen Vorteilen und nuetzlichen Eigenschaften der Tag-Clouds existieren auch Grenzen ihrer Brauchbarkeit, die man durchaus als Nachteile bezeichnen kann.Die Methode zur Auswahl und zur Visualisierung der Menge der Tags basiert ausschließlich auf der Haeufigkeit der Benutzung dieser Tags. Dies schließt unvermeidlich ein, dass dargestellte Tags eine hohe, semantische Dichte haben. Hinsichtlich der Benachteiligung bestimmter Tags sind die am haeufigsten benutzten Begriffe die schlimmsten "Diskriminatoren". Der wohl groeßte Nachteil daraus ist, dass wenig verschiedene Thematiken mit all ihren zugehoerigen Tags dazu tendieren, die vollstaendige Tag-Cloud zu dominieren. Man braeuchte moeglicherweise eine neue Erforschung und Untersuchung von Tag-Auswahl Methoden, um Tag-Clouds in dieser Hinsicht zu verbessern.
Ein weiterer Nachteil ist, dass die alphabetische Anordnung der dargestellten Tags weder das visuelle Browsen, noch die abgeleiteten, semantischen Beziehungen zwischen den Tags ermoeglichen oder erleichtern. Das Durchsuchen der Tag-Clouds wuerde durch Gleichartigkeit und Aehnlichkeit basierendes Layout verbessert werden. Trotzdem ist eine uebliche Tag-Cloud definiert als ein flacher, zweidimensionaler Raum von Schluesselwoertern ohne vorherig definierte, semantische Beziehungen zwischen den Tags. Verschiedene Studien haben jedoch ergeben, dass inhaltsorientierte und hierarchische Beziehungen der Aehnlichkeit zwischen Tags mit der Mathematik (der Analysis) abgeleitet werden koennen.
Deshalb wird im naechstem Abschnitt, wenn auch nicht im mathematischen Sinne, darauf eingegangen, was man an den first-generation Tag-Clouds verbessern koennte.
2.5 Verbesserungsvorschlaege fuer die "first-generation" Tag-Clouds
Da die "first-generation" Tag-Clouds bei weitem noch nicht perfekt sind, v.a. im Bezug auf die Anordnung der Tags in der Wolke, werden hier nun Verbesserungen vorgeschlagen.Die Effektivitaet des Navigierens in einer Tag-Cloud kann z.B. durch die Begriffsgenauigkeit oder Navigationsgruendlichkeit "gemessen" und untersucht werden. Diese zwei Variablen kennzeichnen die Anzahl der Quellen, die durch ein Tag beschrieben werden und die Anzahl der Tags, die einer Quelle entsprechend zugeteilt werden. Durch ein umfassendes, "breites" Tag wird der Benutzer viele passende Informationen finden, jedoch ebenfalls viele unbrauchbare und unpraezise Quellen. Bei begrenzten, "engen" Tags hingegen werden ziemlich genau die Informationen geliefert, die der Benutzer sucht, doch moeglicherweise fallen auch ein paar Quellen weg, die brauchbar und nuetzlich gewesen waehren.
Ein andersartiger Vorschlag als die "first-generation" Tag-Clouds waere z.B. von Shaw, der eine Tag-Cloud vorstellt, die wie ein Graph angeordnet ist, wo die Tags als visuelle, verteilte Knoten dargestellt werden, wohingegen semantische Aehnlichkeiten zwischen den Begriffen als Kanten zwischen den Tags dargestellt werden.
Ein weiterer Vorschlag waere eine Tag-Cloud mit kreisfoermigem Aufbau, wie es Bielenberg und Zacher vorschlagen, wo Schriftgroeße und Distanz zum Mittelpunkt die Wichtigkeit eines Tags repraesentieren, jedoch die Distanz zwischen den Tags nicht deren Aehnlichkeit repraesentieren.
Ein dritter Vorschlag zum Layout einer Tag-Cloud kommt von Hassan-Montero und Herrero-Solona und baut auf dem Ansatz auf, von der alphabetischen Anordnung wegzukommen, da der gewoehnliche Tag-Cloud Benutzer den exakten Begriff, nach dem er in der kollektiven, unbekannten Tag-Cloud sucht, meist nicht kennt und somit eine alphabetische Anordnung keinen Nutzen bringt. Die Annahme, dass sich-versammelnde, semantisch aehnliche Tags das Browsing verbessern, ist die Grundlage dieses Modells. Es wird ein "learning-algorithmus" eingesetzt, der als Hilfsmittel zur iterativen Bestimmung untereinander aehnlicher Tags dient, aber hier nicht genauer analysiert wird.
Das Ziel ist, eine Gruppe von Objekten bzw. Tags zu einer Anhaeufung zusammenzufuehren, deren Mitglieder semantisch aehnlich zueinander sind - aber gleichzeitig verschieden und unaehnlich zu Mitgliedern anderer Anhaeufungen. Dazu wird ein Algorithmus angewendet, der sich der Kosinus Funktionen bedient, um Tags in Clusters (hier: Zeilen) anzuordnen.
Die Darstellungsmethode ist dem Layout einer klassischen, traditionellen Tag-Cloud sehr aehnlich - mit dem Unterschied, dass Tags mit anderen, semantisch aehnlichen Tags zeilenweise gruppiert sind und aehnliche Zeilen wiederum zueinander gruppiert sind. Besser formuliert: Aehnliche, gleichartige Begriffe (bzw. Tags, Woerter) sind horizontale Nachbarn, waehrend aehnliche, gleichartige Zeilen (bzw. Cluster, Gruppen) vertikale Nachbarn sind.
Um das Verstaendnis des dritten und letzten Modells etwas zu erleichtern und um seine Vorteile an einem praktischem Beispiel zu praesentieren, wird im Schluss nochmal kurz darauf eingegangen.
3 Schluss
Um diese Arbeit abzurunden, wird hier im Schlussteil ein kleines Beispiel zu dem dritten vorgestellten, verbesserten Tag-Cloud Modell von Hassan-Montero und Herrero-Solona gezeigt und die Arbeit kurz resuemiert.Um das dritte und letzte Modell besser zu verstehen, ist es von Noeten, ein Beispiel dazu zu betrachten: In einer Zeile, also einer Gruppe von semantisch aehnlichen Woertern (horizontale Aehnlichkeit), stehen z.B. "audio", "music", "mp3", "ipod", "radio" und "podcast". Falls nun der Benutzer nun z.B. ueberhaupt nicht weiß, was Podcast bedeutet, kann er sich zumindest denken, dass es was mit Musik oder Musikformaten zu tun hat, falls er alle anderen Begriffe kennt und interpretieren kann. Falls der Benutzer das Tag "podcast" hingegen in einer traditionellen Tag-Cloud sieht, kann er ausschliesslich durch Hinsehen nicht erkennen, um was es sich dabei handeln koennte.
Zur Vervollstaendigung noch ein Beispiel einer gleichartigen Zeile zur bereits Vorgestellten (also vertikale Aehnlichkeit): Sie beinhaltet z.B. die Tags "cinema", "film", "movies", "video" und "tv" - also durchaus verwandte, aber trotzdem nicht semantisch aehnliche oder gleichbedeutende Begriffe.
Letztendlich kann man sagen, dass Tag-Clouds hoechstwahrscheinlich keine voruebergehende "Modeerscheinungen" sein werden, da das Grundprinzip von aehnlichen Schluesselbegriffen das Navigieren um einiges erleichtert. Ausserdem werden diese Schluesselbegriffe von den verschiedenen Benutzern durch deren Sprache und Vokabular direkt erstellt und nicht durch einen einzigen Superuser bestimmt - was im Endeffekt der Tag-Cloud sehr zugute kommt, da sie ein "Produkt vieler Benutzer" ist.
Andererseits sind die aktuellen, immer noch vorwiegend klassischen, traditionellen Tag-Clouds, die man im Web findet, noch nicht wirklich ausgereift, was man aber eigentlich erst durch andere Verbesserungsvorschlaege merkt.
Konzepte - wie im letztem Modell vorgestellt - scheinen sehr nuetzlich zu sein und sollten meiner Meinung nach zukuenftig von den Erstellern der Tag-Clouds beruecksichtigt werden.
Quellen:
Wikipedia. Wortwolke (Weitergeleitet von Tag cloud). 30. Januar 2006: Wikipedia - Wortwolke.
Yusef Hassan-Meontero, Victor Herrero-Solona. Improving Tag-Clouds as Visual Information Retrieval Interfaces. 25.-28. Oktober 2006: Improving Tag-Clouds as Visual Information Retrieval Interfaces
Joe Lamantia. TagClouds Evolve: Understanding Tag Clouds. 22. Februar 2006: TagClouds Evolve: Understanding Tag Clouds