Loading…

Clustering of triphones using phoneme similarity estimation for the definition of a multilingual set of triphones

This paper addresses the problem of multilingual acoustic modelling for the design of multilingual speech recognisers. An agglomerative clustering algorithm for the definition of multilingual set of triphones is proposed. This clustering algorithm is based on the definition of an indirect distance m...

Full description

Saved in:
Bibliographic Details
Published in:Speech communication 2003-02, Vol.39 (3), p.353-366
Main Authors: Imperl, Bojan, Kačič, Zdravko, Horvat, Bogomir, Žgank, Andrej
Format: Article
Language:English
Subjects:
Citations: Items that this one cites
Items that cite this one
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:This paper addresses the problem of multilingual acoustic modelling for the design of multilingual speech recognisers. An agglomerative clustering algorithm for the definition of multilingual set of triphones is proposed. This clustering algorithm is based on the definition of an indirect distance measure for triphones defined as a weighted sum of the explicit estimates of the context similarity on a monophone level. The monophone similarity estimation method is based on the algorithm of Houtgast. The new clustering algorithm was tested in a multilingual speech recognition experiment for three languages. The algorithm was applied on monolingual triphone sets of language specific recognisers for all languages. In order to evaluate the clustering algorithm, the performance of the multilingual set of triphones was compared to the performance of the reference system composed of all three language specific recognisers operating in parallel, and to the performance of the multilingual set of triphones produced by the tree-based clustering algorithm. All experiments were based on the 1000 FDB SpeechDat(II) databases (Slovenian, Spanish and German). Experiments have shown that the use of the clustering algorithm results in a significant reduction of the number of triphones with minor degradation of recognition rate. Dieser Beitrag befasst sich mit dem Problem der multilingualen akustischen Modellierung für die automatische Spracherkennung. Die Verwendung eines agglomerativen Cluster-Algorithmus zur Defintion einer Menge multilingualer kontextabhängiger phonetischer Einheiten (Triphone) wird eingeführt. Der Algorithmus basiert auf einem indirekten Abstandsmaß für Triphone, das als eine gewichtete Summe der geschätzten Ähnlichkeiten der zu den Triphonen gehörenden Monophone definiert ist. Die Ähnlichkeitsschätzung der Monophone basiert auf dem Algorithmus von Houtgast. Der neue Cluster-Algorithmus wurde auf multilinguale Spracherkennungsexperimente für drei verschiedene Sprachen angewendet. Dazu wurden sprachspezifische Erkennungssysteme mit monolingualen Triphonen für alle drei Sprachen eingesetzt. Um den Cluster-Algorithmus bewerten zu können, wurde die Leistungsfähigkeit des auf den multilingualen Triphonen basierenden Systems mit zwei Referenzsystemen verglichen. Während in dem ersten Referenzsystem die sprachenspezifischen Modelle gleichzeitig (parallel) eingesetzt wurden, fanden im zweiten Referenzsystem multilinguale Modelle Verwendung, die mithilfe eines ents
ISSN:0167-6393
1872-7182
DOI:10.1016/S0167-6393(02)00048-1