Serwis Infona wykorzystuje pliki cookies (ciasteczka). Są to wartości tekstowe, zapamiętywane przez przeglądarkę na urządzeniu użytkownika. Nasz serwis ma dostęp do tych wartości oraz wykorzystuje je do zapamiętania danych dotyczących użytkownika, takich jak np. ustawienia (typu widok ekranu, wybór języka interfejsu), zapamiętanie zalogowania. Korzystanie z serwisu Infona oznacza zgodę na zapis informacji i ich wykorzystanie dla celów korzytania z serwisu. Więcej informacji można znaleźć w Polityce prywatności oraz Regulaminie serwisu. Zamknięcie tego okienka potwierdza zapoznanie się z informacją o plikach cookies, akceptację polityki prywatności i regulaminu oraz sposobu wykorzystywania plików cookies w serwisie. Możesz zmienić ustawienia obsługi cookies w swojej przeglądarce.
I-vector adaptation of DNN-HMM acoustic models has shown clear performance improvement for speech recognition. In this paper, we study this technique on Babel task. we use Swahili as target language (training data of 50 hours) and another 6 languages as multilingual resources to train i-vector extractors respectively. Our study shows that i-vector extractors trained with more multilingual data only...
Vowel regions play important role in various speech tasks, such as speech segmentation, speaker-verification, prosody modification and emotion conversion. The instants at which the onset and offset of vowel take place in the speech signal are known as vowel onset point and vowel offset point, respectively. Vowel regions start with the vowel onset point and end with the vowel offset point. In this...
Scene understanding in the context of a smart meeting room involves the extraction of various kinds of cues at different levels of semantic abstraction. Specifically, human activity in a scene is usually monitored using arrays of audio and visual sensors. Tasks such as person localization and tracking, speaker ID, focus of attention detection, speech recognition and affective state recognition are...
Reverberant environments pose a challenge to speech acquisition from distant microphones. Approaches using microphone arrays have met with limited success. Recent research using audio-visual sensors for tasks such as speaker localization has shown improvement over traditional audio-only approaches. Using computer vision techniques we can estimate the orientation of the speaker's head in addition to...
In general, human beings make use of expressions (emotions) through speech, facial movements and gestures for conveying the crucial information. Mostly, expressions in speech can be attributed to longer segments, i.e., suprasegmental features also known to be prosodic features. In this paper we analyze the expressions in speech using prosodic features from utterance level, word level and syllable...
This work demonstrates the development of Keyword Spotting (KWS) system using Vowel Onset Point (VOP), Vector Quantization (VQ) and Hidden Markov Model(HMM) based techniques. The goal of KWS system is to spot the keywords present in the test speech signal, while neglecting rest of the words. In this work, first independent KWS systems will be developed using VOP, VQ and HMM techniques. Each of these...
Podaj zakres dat dla filtrowania wyświetlonych wyników. Możesz podać datę początkową, końcową lub obie daty. Daty możesz wpisać ręcznie lub wybrać za pomocą kalendarza.