Vorlesung Automatische Spracherkennung und integrierte Dialoganwendungen
Prof. Marcus Spies, Christian Leibold
Umfang: 2 SWS Vorlesung, 2 SWS Übung
Aktuelles
- Mailingliste: Für Teilnehmer und Interessenten ist eine Mailingliste angelegt worden.
- 18.07.2006: Bitte beachten Sie die Anmerkungen zu Übungsblatt4 auf der entsprechenden Seite "Übung"
- 13.07.2006: Übungsblatt4 steht zum Download bereit
- 11.07.2006: Aus organisatorischen Gründen findet heute eine verkürzte Übung von 12h ct. bis 13h statt.
- 01.06.2006: Am Dienstag nach Pfingsten (06.06.06) ist vorlesungsfrei! Somit entfällt die Übung an diesem Tag. Bitte beachten Sie hierzu die Hinweise auf der Übungsseite.
- 30.05.2005: Auf dem Übungsblatt 1 wurden fälschlicherweise keine Aufgaben zur Abgabe markiert. Es sind die Lösungen dennoch abzugeben, wie auf dem Blatt selbst veröffentlicht wurde. Die Abgabefrist verlängert sich bis zum 06.06.. Das zweite Übungsblatt steht zum Download bereit.
- 18.05.2005: Das neue Übungsblatt ist auf den Seiten des Übungsbetriebs, unter "Übung" zu finden.
- 09.05.2005: Heute findet keine! Übung statt, um thematisch der Vorlesung nichts vorwegzunehemen. In der Übersicht wurden die Kontaktdaten ergänzt.
- 24.04.2006: Das Tutorium beginnt mit einem einführenden Überblick am 04.05.2006 anstelle der Vorlesung. Am 02.05.06 findet kein Tutorium statt!
Termine und Ort
- Vorlesung: Donnerstag 10-12 Uhr
Ort: Theresienstraße 41, Raum 113 - Übung: Dienstag 12-14 Uhr
Ort: Theresienstraße 41. Raum 113
Inhalt
Die Vorlesung wird im ersten Teil die Grundlagen der Spracherkennungstechnologie von Signalverarbeitung bis hin zu verschiedenen Sprachmodellen behandeln; im zweiten Teil die auf Basis von VoiceXML und verwandten Standards realisierbaren Dialoganwendungen.
Zielgruppe: Hauptstudium Medieninformatik und Diplom Informatik
Scheinkriterien:
- Abgabe sinnvoller Lösungen zu den gestellten Übunsaufgaben
- Rege Teilnahme an der Veranstaltung
Vorlesung
Datum | Kapitel | Material |
---|---|---|
Do, 27.04.06 | Einführung | Übersicht / Motivation (212 KB) |
Do, 11.05.06 | Vorlesung Eigenschaften gesprochener Sprache & Auditive Wahrnehmung |
Huang, Kapitel 2, besonders 2.1.3 |
Do, 18.05.06 | Vorlesung Sphinx Architektur |
Folien zu Auditiver Wahrnemung |
Do, 25.05.06 | Feiertag (Christi Himmelfahrt) | entfällt |
Do, 01.06.06 | Vorlesung Digitale Signalverarbeitung (DSP) und Filter |
Huang, Kapitel 5 und 6, relevante Kapitel |
Do, 08.06.06 | Vorlesung DFT in der Spracherkennung |
. |
Do, 15.06.06 | Feiertag (Fronleichnam) | entfällt |
Do, 22.06.06 | Vorlesung Hidden Markov Modell Mathematische Erläuterung und Einsatz in der Spracherkennung |
Gute Einführung in HMMs (Erste Kapitel des HTKbooks) |
Do, 29.06.06 | Vorlesung Trigrammstatistiken und Grammatiken Suchgraphen (I) |
Huang, Kapitel 11 und 12 |
Do, 06.07.06 | Vorlesung Suchalgorithmen (II) Einführung in Dialogsysteme |
Huang, Kapitel 17 |
Do, 13.07.06 | Vorlesung Dialogsysteme mit VXML |
VoiceXML 2.0 |
Do, 20.07.06 | Vorlesung Dialogmanagement und Semantik in Dialogsystemen |
W3C Spezifikation |
Do, 27.07.06 | Vorlesung Aktuelle Ergebnisse mit Dialogsystemen Ausblick |
- |
Übung
Datum | Kapitel | Material/Bemerkung |
---|---|---|
Do, 04.05.06 | Einführung | Übersicht / Motivation |
Di, 16.05.06 | Übung Eigenschaften gesprochener Sprache & Auditive Wahrnehmung |
Audacity und freeTTS Übungsblatt 1 (korrigiert) |
Di, 23.05.06 | Übung Sphinx Architektur Fragestunde zu ÜB 1 |
|
Di, 30.05.05 | Besprechung ÜB1 Stellung von ÜB2 |
Übungsblatt 2 |
Di, 06.06.06 | (vorlesungsfrei) | . |
Do, 08.06.06 (Ersatztermin) |
Fragestunde zu ÜB 2 | Dieser Termin um 9h s.t. abgehalten. Treffpunkt ist der gewohnte Vorlesungssaal. Bei Bedarf bitte zusätzlich / alternativ Kontakt mit dem Übungsleiter aufnehmen. |
Di, 13.06.06 | Übung entfällt | . |
Di, 20.06.06 | Korrektur ÜB2 Aufgabenstellung ÜB3 |
Übungsblatt 3 Datei tutoriumTest.test |
Di, 27.06.06 | Fragestunde zu ÜB 3 | . |
Di, 04.07.06 | Korrektur zu ÜB 3 Einführung in Dialogsysteme |
. |
Di, 11.07.06 | Allgemeiene Fragestunde | Das nächste Übungsblatt wird nach der Vorlesung am Donnerstag gestellt |
Di, 18.07.06 | Fragestunde zu ÜB 4 | Übungsblatt 4 |
- | Anmerkungen | Bei Aufgabe 4c reicht sich auf die letzte Äusserung des Nutzers zu beziehen. Bei Aufgabe 4d erstellen Sie bitte eine Zusammenfassung des Bestellvorgangs, den Sie für sinnvoll halten. (auch im Rahmen ihrer Lösungen aus den vorangegangnen Aufgaben) |
Literatur und Links
Begleitend zur Vorlesung werden an dieser Stelle Quellen und zusätzliches Material aufgeführt.
Spracherkennung - Literatur
- Huang, Xuedong: Spoken Language Processing: A Guide to Theory, Algorithm and System Development, Prentice Hall PTRP, 2003
- Jelinek, Frederic: Statistical Methods for Speech Recognition (Language, Speech, and Communication), Bradford Book, 1998
- Brian C.J. Moore: An introduction to the psychology of hearing, Academic Press, 2003 (Kapitel zu auditiven Filtern, in der Übung erhältlich)
Links zu relevanten Techniken aus der Übung
- Die HP Downloads zum Thema VXML
- Die Opensource Implementierung Sphinx der Carnegie Mellon University repräsentiert den aktuellen Stand der frei verwendbaren Spracherkennungssoftware.
- Die aktuelle Diskussion um Sphinx 4 läuft im Sphinx 4 TWiki ab.
- Sun stellt mit der Java Speech API eine kostenlose Schnittstelle zur Integration von Sprache in Anwendungen zur Verfügung.
- Hilfreiche Tutorials und Beispiele zu VoiceXML finden sie auf den relevanten Seiten von W3C und hier.
- Die CMU hat mit dem CMU Communicator ein frei zugängliches Dialogsystem implemetiert.
Weitere Links zur Spracherkennung
- Mit dem Hidden Markov Model Toolkit (HTK) kann man Hidden Markov Modelle zum Einsatz in Spracherkennung, Genanalyse und anderen Gebieten nutzen.