A A+ A++

Hybrydowy system

akwizycji i przetwarzania sygnału wielomodalnego w analizie sygmatyzmu u dzieci

Hybrydowy system

akwizycji i przetwarzania sygnału wielomodalnego w analizie sygmatyzmu u dzieci
Tytuł: Hybrydowy system akwizycji i przetwarzania sygnału wielomodalnego w analizie sygmatyzmu u dzieci
Numer projektu: 2018/30/E/ST7/00525
Czas realizacji: 2019 – 2024
Finansowanie: Narodowe Centrum Nauki, Sonata Bis 8
Kierownik projektu: dr hab. inż. Paweł Badura, prof. PŚ
Sygmatyzm to jedna z najczęstszych wad wymowy

Sygmatyzm (seplenienie) polega na niezgodnej z ogólną normą realizacji głosek sybilantnych (w zapisie ortograficznym: s, z, c, dz, sz, ż, cz, dż, ś, ź, ć, dź). Problem może wynikać m.in. z nieprawidłowego ułożenia języka czy uwarunkowań anatomicznych. Rozróżnia się wiele rodzajów seplenienia, a diagnoza odbywa się na podstawie obserwacji pracy narządów artykulacyjnych. Niestety, z uwagi na częste trudności z precyzyjną oceną, co dzieje się w jamie ustnej, diagnostyka i terapia sygmatyzmu uznawana jest za trudną. 

Cel: opracowanie nowoczesnych  metod diagnozy seplenienia u dzieci

Główne osiągnięcia projektu obejmują zaprojektowanie i wykonanie urządzenia rejestrującego dane, składające się z 15-kanałowego sygnału akustycznego oraz stereowizyjnego sygnału wideo artykulatorów – czyli elementów jamy ustnej takich jak wargi, język i zęby. Dzięki wykorzystaniu urządzenia przebadano dzieci w wieku przedszkolnym i wczesnoszkolnym, co zaowocowało stworzeniem bazy danych zawierającej 201 kompletnych rekordów z danymi akustycznymi i wizualnymi oraz szczegółowymi opisami diagnostycznymi mowy. W badaniach zarejestrowano wypowiedzi dzieci, obejmujące wymawianie wyselekcjonowanych słów i pseudosłów zawierających badane głoski. W rezultacie powstała rozbudowana baza danych, dzięki której możliwe było zbadanie relacji między specyficznymi cechami dźwięku i obrazu a sposobem realizacji głosek.

Rezultaty analizy zebranej bazy danych
Opracowanie nowych metod przetwarzania sygnałów

Opracowanie nowych metod przetwarzania sygnałów

w tym segmentacji artykulatorów oraz wyznaczania cech akustycznych i obraozwych
Analiza cech akustycznych w dziedzinie częstotliwości

Analiza cech akustycznych w dziedzinie częstotliwości

zwłaszcza w zakresie powyżej 2 kHz, gdzie występuje pasmo szumu charakterystycznego dla głosek sybilantnych
Detekcja i segmentacja artykulatorów z wykorzystaniem modeli głębokiego uczenia

Detekcja i segmentacja artykulatorów z wykorzystaniem modeli głębokiego uczenia

w tym: warg, zębów oraz języka
Opracowanie nowych metod przetwarzania sygnałów

Opracowanie nowych metod przetwarzania sygnałów

w tym segmentacji artykulatorów oraz wyznaczania cech akustycznych i obraozwych
Analiza cech akustycznych w dziedzinie częstotliwości

Analiza cech akustycznych w dziedzinie częstotliwości

zwłaszcza w zakresie 2 kHz, gdzie występuje pasmo szumu charakterystycznego dla głosek sybilantnych
Analiza cech obrazowych 2D i 3D

Analiza cech obrazowych 2D i 3D

dotyczących tekstury i kształtu segmentowanych wcześniej artykulatorów
Analiza statystyczna i klasyfikacja artykulacji

Analiza statystyczna i klasyfikacja artykulacji

Wektory cech pozwoliły na analizę statystyczną zależności między cechami akustycznymi i obrazowymi a wybranymi właściwościami artykulacyjnymi oraz klasyfikację różnych typów nienormatywnej wymowy
Opracowanie czterowymiarowych modeli

Opracowanie czterowymiarowych modeli

umożliwiające śledzenie ruchów artykulatorów w czasie
Detekcja i segmentacja artykulatorów z wykorzystaniem modeli głębokiego uczenia

Detekcja i segmentacja artykulatorów z wykorzystaniem modeli głębokiego uczenia

w tym: warg, zębów oraz języka
Analiza cech obrazowych 2D i 3D

Analiza cech obrazowych 2D i 3D

dotyczących tekstury i kształtu segmentowanych wcześniej artykulatorów
Analiza statystyczna i klasyfikacja artykulacji

Analiza statystyczna i klasyfikacja artykulacji

Wektory cech pozwoliły na analizę statystyczną zależności między cechami akustycznymi i obrazowymi a wybranymi właściwościami artykulacyjnymi oraz klasyfikację różnych typów nienormatywnej wymowy
Opracowanie czterowymiarowych modeli

Opracowanie czterowymiarowych modeli

umożliwiające śledzenie ruchów artykulatorów w czasie

Dowiedz się więcej o bazie danych PAVSig

Analiza statystyczna i klasyfikacja artykulacji

Analiza statystyczna i klasyfikacja artykulacji

Wektory cech pozwoliły na analizę statystyczną zależności między cechami akustycznymi i obrazowymi a wybranymi właściwościami artykulacyjnymi oraz klasyfikację różnych typów nienormatywnej wymowy
Opracowanie czterowymiarowych modeli

Opracowanie czterowymiarowych modeli

umożliwiające śledzenie ruchów artykulatorów w czasie
Publikacje
Sage, A. (2025). Performance analysis of 2D and 3D image features for computer-assisted speech diagnosis of dental sibilants in Polish children. Computer Methods and Programs in Biomedicine, 108716. https://https://doi.org/10.1016/j.cmpb.2025.108716
 
Sage, A., & Badura, P. (2024). Detection and segmentation of mouth region in stereo stream using YOLOv6 and DeepLab v3+ models for computer-aided speech diagnosis in children. Applied Sciences-Basel, 14, Article 16. https://doi.org/10.3390/app14167146
 
Sage, A., Miodońska, Z., Kręcichwost, M., & Badura, P. (2024). Hybridization of acoustic and visual features of Polish sibilants produced by children for computer speech diagnosis. Sensors, 24, Article 16. https://doi.org/10.3390/s24165360
 
Miodońska, Z., Kręcichwost, M., Kwaśniok, E., Sage, A., & Badura, P. (2024). Frication noise features of Polish voiceless dental fricative and affricate produced by children with and without speech disorder. W (Red.), Proceedings of INTERSPEECH 2024 (s. 3125–3129). ISCA. https://doi.org/10.21437/interspeech.2024-1731
 
Trzaskalik, J., Kwaśniok, E., Miodońska, Z., Kręcichwost, M., Sage, A., & Badura, P. (2023). Hybrid system for acquisition and processing of multimodal signal: population study on normal and distorted pronunciation of sibilants in Polish preschool children. W P. Strumiłło, A. Klepaczko, M. Strzelecki, & D. Bociąga (Red.), XXXIII Polish Conference on Biocybernetics and Biomedical Engineering. Book of abstracts (s. 81).
 
Miodońska, Z., Levelt, C., Moćko, N., Kręcichwost, M., Sage, A., & Badura, P. (2023). Are retroflex-to-dental sibilant substitutions in Polish children’s speech an example of a covert contrast? A preliminary acoustic study. W (Red.), Proceedings of INTERSPEECH 2023 (s. 3122–3126). ISCA. https://doi.org/10.21437/Interspeech.2023-2046
 
Kręcichwost, M., Sage, A., Miodońska, Z., & Badura, P. (2022). 4D multimodal speaker model for remote speech diagnosis. IEEE Access, 10, 93187–93202. https://doi.org/10.1109/access.2022.3203572
 
Miodońska, Z., Badura, P., & Mocko, N. (2022). Noise-based acoustic features of Polish retroflex fricatives in children with normal pronunciation and speech disorder. Journal of Phonetics, 92, 1–16. https://doi.org/10.1016/j.wocn.2022.101149
 
Sage, A., Miodońska, Z., Kręcichwost, M., Trzaskalik, J., Kwaśniok, E., & Badura, P. (2021). Deep learning approach to automated segmentation of tongue in camera images for computer-aided speech diagnosis. W E. Piętka, P. Badura, J. Kawa, & W. Więcławek (Red.), Information Technology in Biomedicine (T. 1186, s. 41–51). https://doi.org/10.1007/978-3-030-49666-1_4
 
Kręcichwost, M., Mocko, N., & Badura, P. (2021). Automated detection of sigmatism using deep learning applied to multichannel speech signal. Biomedical Signal Processing and Control, 68, 1–11. https://doi.org/10.1016/j.bspc.2021.102612
 
Kręcichwost, M., Miodońska, Z., Trzaskalik, J., & Badura, P. (2020). Multichannel speech acquisition and analysis for computer-aided sigmatism diagnosis in children. IEEE Access, 8, 98647–98658. https://doi.org/10.1109/ACCESS.2020.2996413
ZESPÓŁ BADAWCZY
ZESPÓŁ BADAWCZY
ZESPÓŁ BADAWCZY

dr hab. inż. Paweł Badura, prof. PŚ

kierownik projektu

dr hab. inż. Paweł Badura, prof. PŚ

kierownik projektu

dr inż. Zuzanna Miodońska

kierownik badań akustyczno-wizyjnych

dr inż. Zuzanna Miodońska

kierownik badań akustyczno-wizyjnych

dr Joanna Trzaskalik

kierownik badań logopedycznych

dr Joanna Trzaskalik

kierownik badań logopedycznych

dr inż. Michał Kręcichwost

główny inżynier biomedyczny

dr inż. Michał Kręcichwost

główny inżynier biomedyczny

mgr inż. Agata Sage

inżynier biomedyczny

mgr inż. Agata Sage

inżynier biomedyczny

mgr Ewa Kwaśniok

logopeda

mgr Ewa Kwaśniok

logopeda

dr hab. inż. Paweł Badura, prof. PŚ

kierownik projektu

dr inż. Zuzanna Miodońska

kierownik badań akustyczno-wizyjnych

dr Joanna Trzaskalik

kierownik badań logopedycznych

dr inż. Michał Kręcichwost

główny inżynier biomedyczny

mgr inż. Agata Sage

inżynier biomedyczny

mgr Ewa Kwaśniok

logopeda

© Politechnika Śląska

Polityka prywatności

Całkowitą odpowiedzialność za poprawność, aktualność i zgodność z przepisami prawa materiałów publikowanych za pośrednictwem serwisu internetowego Politechniki Śląskiej ponoszą ich autorzy - jednostki organizacyjne, w których materiały informacyjne wytworzono. Prowadzenie: Centrum Informatyczne Politechniki Śląskiej (www@polsl.pl)

Deklaracja dostępności

„E-Politechnika Śląska - utworzenie platformy elektronicznych usług publicznych Politechniki Śląskiej”

Fundusze Europejskie
Fundusze Europejskie
Fundusze Europejskie
Fundusze Europejskie