Loading…
Auditory distortion measure for speech coder evaluation — Hidden Markovian approach
This article introduces a methodology for quantifying the distortion introduced by a low or medium bit-rate speech coder. Since the perceptual acuity of a human being determines the precision with which speech data must be processed, the speech signal is transformed onto a perceptual-domain (PD). Th...
Saved in:
Published in: | Speech communication 1995-08, Vol.17 (1), p.39-57 |
---|---|
Main Authors: | , |
Format: | Article |
Language: | English |
Subjects: | |
Citations: | Items that this one cites Items that cite this one |
Online Access: | Get full text |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Summary: | This article introduces a methodology for quantifying the distortion introduced by a low or medium bit-rate speech coder. Since the perceptual acuity of a human being determines the precision with which speech data must be processed, the speech signal is transformed onto a perceptual-domain (PD). This is done using Lyon's cochlear (auditory) model whose output provides the probability-of-firing information in the neural channels at different clock times. In our present approach, we use a hidden Markov model to describe the basic firing/non-firing process operative in the auditory pathway. We consider a two-state fully-connected model of order one for each neural channel; the two states of the model correspond to the firing and non-firing events. Assuming that the models are stationary over a fixed duration, the model parameters are determined from the PD observations corresponding to the original signal. Then, the PD representations of the coded speech are passed through the respective models and the corresponding likelihood probabilities are calculated. These probability scores are used to define a
cochlear hidden Markovian (CHM) distortion measure. This methodology considers the temporal ordering in the neural firing patterns. The CHM measure which utilizes the contextual information present in the firing pattern shows robustness against coder delays.
In diesem Artikel wird eine Methodologie zur Quantifizierung der Signalverzerrung vorgestellt, die durch einem mit geringer oder mittlerer Bitrate arbeitenden Sprachkoder hervorgerufen wird. Da die menschliche Wahrnehmungsschärfe die Präzision bestimmt, mit der Sprachdaten verarbeitet werden müssen, wurde das Sprachsignal unter Verwendung des Gehörschneckenmodells von Lyons in den Perzeptionsbereich (PD) übertragen. Dieses Modell liefert die Informationen zu der Abfeuerwahrscheinlichkeit in den Nervenbahnen zu verschiedenen Zeitpunkten. In dem hiesigen Ansatz wird ein Hidden Markov Modell benutzt, um den grundlegenden Prozess von Abfeuern/Nicht-Abfeuern zu beschreiben, der sich im Gehörgang abspielt. Wir gehen für jede Nervenbahn von einem Modell erster Ordnung mit zwei vollverbundenen Zuständen aus, die den Ereignissen von Abfeuern und Nicht-Abfeuern entsprechen. Davon ausgehend, daβ die Modelle über einen bestimmten Zeitraum stationär sind, werden die Modellparameter durch die PD-Beobachtungen an dem Originalsignal determiniert. Dann werden die PD Repräsentationen der kodierten Sprache dem jeweiligen Mode |
---|---|
ISSN: | 0167-6393 1872-7182 |
DOI: | 10.1016/0167-6393(95)00016-H |