Loading…

A data-driven method for modeling pronunciation variation

This paper describes a rule-based data-driven (DD) method to model pronunciation variation in automatic speech recognition (ASR). The DD method consists of the following steps. First, the possible pronunciation variants are generated by making each phone in the canonical transcription of the word op...

Full description

Saved in:
Bibliographic Details
Published in:Speech communication 2003-06, Vol.40 (4), p.517-534
Main Authors: Kessens, Judith M., Cucchiarini, Catia, Strik, Helmer
Format: Article
Language:English
Subjects:
Citations: Items that this one cites
Items that cite this one
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:This paper describes a rule-based data-driven (DD) method to model pronunciation variation in automatic speech recognition (ASR). The DD method consists of the following steps. First, the possible pronunciation variants are generated by making each phone in the canonical transcription of the word optional. Next, forced recognition is performed in order to determine which variant best matches the acoustic signal. Finally, the rules are derived by aligning the best matching variant with the canonical transcription of the variant. Error analysis is performed in order to gain insight into the process of pronunciation modeling. This analysis shows that although modeling pronunciation variation brings about improvements, deteriorations are also introduced. A strong correlation is found between the number of improvements and deteriorations per rule. This result indicates that it is not possible to improve ASR performance by excluding the rules that cause deteriorations, because these rules also produce a considerable number of improvements. Finally, we compare three different criteria for rule selection. This comparison indicates that the absolute frequency of rule application ( F abs) is the most suitable criterion for rule selection. For the best testing condition, a statistically significant reduction in word error rate (WER) of 1.4% absolutely, or 8% relatively, is found. Ce papier décrit une méthode à base de règles, guidée par les données, qui est destinée à modéliser les variations de prononciation en reconnaissance automatique de la parole (RAP). Les différentes phases de cette méthode guidée par les données sont les suivantes. Premièrement, les éventuelles variantes de prononciation sont générées en considérant que chaque phone de la transcription canonique peut être omis. Ensuite, nous effectuons une reconnaissance forcée afin de déterminer quelle variante correspond la mieux au signal acoustique. Enfin, les régles sont dérivées en alignant la meilleure variante avec la transcription canonique qui lui correspond. Une analyse des erreurs commises est effectuée afin de mieux comprendre le processus de modèlisation de prononciation. Cette analyse montre que, bien que cette modélisation apporte des améliorations, elle introduit également des détériations. Une forte corrélation entre le nombre d’améliorations et le nombre de détériations par régle a été trouveé. Ce résultat indique qu’il n’est pas possible d’améliorer les performances de la RAP en élimant le
ISSN:0167-6393
1872-7182
DOI:10.1016/S0167-6393(02)00150-4