Beschreibung
Das grundlegende Problem der Spracherkennung mit Freisprechmikrofonen ist die Verfälschung der Sprachsignale durch Störsprecher und Nachhall. Seit den Anfängen der Spracherkennungsforschung wurden eine Reihe erfolgreicher Techniken entwickelt, um additive und kurze konvolutive Störungen zu überwinden. Demgegenüber erhielt die Kompensation von Langzeitstörungen, wie sie durch Nachhall verursacht werden, bis vor Kurzem nur geringe Beachtung. Die vorliegende Dissertation befasst sich mit der Weiterentwicklung eines Uncertainty-Decoding-Verfahrens, namens REMOS (REverberation MOdeling for Speech recognition). Dieses dient zur Adaption der akustischen Modelle konventioneller Hidden-Markov-Modell basierter Spracherkennungssysteme an hallige Umgebungen. Durch die Einbettung eines konvolutiven Beobachtungsmodells wird der zu Grunde liegende Viterbi-Dekoder erweitert, um in jedem Dekodier-Schritt implizit eine Schätzung des späten Nachhalls zu bestimmen, was wiederum zu einer Abschwächung der bedingten Unabhängigkeitsannahme der Hidden-Markov-Modelle führt. In dieser Dissertation wird der erweiterte Viterbi-Dekoder des REMOS-Konzepts aus der Sicht der Bayes’schen Netzwerke hergeleitet. Die Methodik der Bayes’schen Netzwerke wird ebenfalls heran gezogen, um einen umfassenden Literaturüberblick zum Stand der Technik zu präsentieren und das REMOS-Konzept in den Kontext existierender modellbasierter Methoden zur robusten Spracherkennung einzubetten. Die Erweiterung des Viterbi-Dekoders führt innerhalb des REMOS-Konzepts auf ein nichtlineares Optimierungsproblem, das entscheidend vom betrachteten Merkmalbereich abhängt. Ein weiterer wesentlicher Beitrag dieser Dissertation stellt die Entwicklung numerischer Optimierungsverfahren für logarithmische melspektrale Merkmale, teil-dekorrelierte Frequenz-gefilterte Merkmale sowie für durch additive Störungen und Nachhall verfälschte Merkmale dar. Zur experimentellen Evaluierung wird der TI-Digit-Korpus mit gemessenen Raumimpulsantworten gefaltet und anschließend durch das REMOS-Verfahren sowie den drei folgenden Vergleichssystemen prozessiert: ein auf verhallten Daten trainiertes Erkennungssystem, ein mit einem Nachhallunterdrückungsverfahren kombiniertes Erkennungssystem sowie eine Erkennungssystem, das mit dem Constrained-Maximum-Likelihood-Linear-Regression-Verfahren adaptiert wurde. Es wird aufgezeigt, dass das REMOS-Konzept sowohl unter gleichen als auch unter ungleichen Trainings- und Testbedingungen zu sehr guten Spracherkennungsraten führt und außerdem eine schnelle Adaption an wechselnde akustische Umgebung erlaubt. Der Nutzen des Nachhallmodells des REMOS-Konzeptes wird ebenfalls bei zusätzlich aktiven Störgeräuschquellen belegt.
Bewertungen
Es gibt noch keine Bewertungen.