Biometria głosu

Głos jest behawioralną cechą biometryczną charakteryzująca się istotnie większą zmiennością niż fizyczne cechy biometryczne jak tęczówka oka czy odciski palców. Stan emocjonalny i fizyczny mówiącego ma duży wpływ na proces rozpoznawania głosu. Dlatego też niezwykle ważnym aspektem badań w tym obszarze jest poszukiwanie takich cech sygnału mowy oraz takich metod modelowania głosu aby wpływ tych zmiennych czynników zniwelować do minimum co pozwoliłoby na osiągnięcie takiego samego poziomu niezawodności jak dla systemów biometrycznych opartych o cechy fizyczne. Do modelowania głosu wykorzystywane jest podejście statystyczne oparte o sumę gaussowską GMM i jej odmiany jak przykładowo GMM-UBM (Gaussian Mixture Model – Universal Background Model). Do innych metod modelowania możemy zaliczyć klasyfikatory oparte o zbiory rozmyte, algorytmy grupowania danych k-means jak i klasyfikator SVM (Support Vector Machine) a także i-vectors. Jednym z najnowszych osiągnięć jest wykorzystanie uczenia głębokiego i tzw. x-vectors.

Osoba do kontaktu (email: imie.nazwisko@polsl.pl):

dr inż. Adam Dustor (ORCID)