Seminarium: mgr inż. Dawid Zamojski
21 stycznia 2026 r. mgr inż. Dawid Zamojski wygłosił na seminarium naszej katedry referat pt. „Trenowanie modeli NLP z wykorzystaniem medycznego korpusu języka
polskiego”, poświęcony adaptacji nowoczesnych modeli językowych do specyfiki dziedziny medycznej.
Głównym osiągnięciem tej pracy było stworzenie nowatorskiego i obszernego polskiego korpusu medycznego, złożonego ze specjalistycznych tekstów medycznych. W oparciu o ten zbiór danych przeprowadzono adaptację dziedzinową modelu BERT, uzyskując jego polską wersję, która lepiej oddaje terminologię, składnię i semantykę charakterystyczną dla języka medycznego.
Prezentacja obejmowała kluczowe etapy procesu, takie jak: gromadzenie i czyszczenie danych, tokenizacja, wstępne trenowanie modelu (pre-training) oraz ewaluacja w kontekście zadań NLP istotnych dla przetwarzania dokumentacji medycznej.
Praca została zrealizowana pod kierunkiem dr hab. inż. Michała Marczyka, prof. PŚ, we współpracy z Martyną Szyszką, której wkład stanowił istotną część procesu tworzenia i analizy korpusu.