Dostrajanie językowe, domenowe i zadaniowe LLM-ów na przykładzie modeli PLLuM

Zapraszamy na spotkanie z dr hab. Piotrem Pęzikiem – jednym z autorów modelu PLLuM.

Spotkanie odbędzie się 28.01.2026 (środa) o godzinie 18:00 w Centrum Technologii Informatycznych Politechniki Łódzkiej.

Adaptację generatywnych modeli językowych (LLM) można rozumieć jako dostrojenie a) językowe poprzez kontynuację pretreningu np. na polskich tekstach, b) domenowe na tekstach z określonej domeny biznesowej oraz c) zadaniowe, czyli dostrajanie modeli na celowanych instrukcjach. Celem adaptacji jest wykorzystanie mechanizmu memoryzacji, ew. bliskiej interpolacji wiedzy i zdolności LLM-ów w obrębie danego języka, dziedziny czy też funkcjonalności. Bez odpowiedniej adaptacji modele generatywne wykazują tendencję do nadmiernej, często nietrafionej ekstrapolacji, która objawia się na przykład negatywnym transferem językowym, stosowaniem kalk stylistycznych i gramatycznych z dominującego języka modelu na język wyjściowy itp.

Autor zaprezentuje przykłady w/w rodzajów adaptacji na bazie doświadczeń w pracach nad modelami PLLuM. Przedstawione zostaną między innymi wyniki pretreningu modelu Mistral-Small-24B na korpusie ok. 700 miliardów tokenów w dwóch scenariuszach: 1) wyjście od wag losowych oraz 2) w różnych wariantach kontynuacji pretreningu tj. na danych własnych konsorcjum PLLuM/HIVE oraz we współpracy z zespołem Mistral.AI.

Dr hab. Piotr Pęzik: kierownik Zakładu Językoznawstwa Komputerowego i Korpusowego w Uniwersytecie Łódzkim, senior visiting research fellow w Uniwersytecie Aston w Birmingham. Jest twórcą zasobów językowych (np. NKJP, SpokesPL, MoncoPL) i narzędzi informatycznych z dziedziny przetwarzania języka naturalnego, autorem licznych publikacji naukowych z tej tematyki. Od kilku lat zajmuje się także rozwojem generatywnych modeli językowych, m.in Trurl i PLLuM. W tym ostatnim projekcie odpowiadał za rozwój autorskiego korpusu instrukcji PLLuMIC. Prace nad modelami PLLuM kontynuował jako kierownik operacyjny projektu HIVE-AI.

Spotkanie ma charakter otwarty i bezpłatny. Po spotkaniu przewidziana dyskusja.

Miejsce: Wólczańska 217/221, Łódź, B-19, sala kinowa (parter)