Projektui „Didžiojo lietuvių kalbos garsyno sukūrimas (LIEPA-3)“ trūksta įrašų iš KAIŠIADORIŲ
Gal tarp mūsų puslapio sekėjų atsirastų norinčių ir galinčių dalyvauti projekte LIEPA-3 arba paskatinti dalyvauti savo šeimos narius, pažįstamus? Projektui „Didžiojo lietuvių kalbos garsyno sukūrimas (LIEPA-3)“ labai trūksta bent 10 val. įrašų iš KAIŠIADORIŲ iš šių demografinių grupių:
– 10-14 metų berniukai;
– 55-74 metų vyrai;
– 75+ metų vyrai ir moterys.
Dalyvavimo paskatos. Siekdami labiau paskatinti dalyvavimą, už kokybiškus įrašus siūlome dalyviams jų pasirinktus dovanų kuponus (parduotuvių tinklo IKI, knygyno Pegasas, Pigu.lt elektroninės parduotuvės, Eneba elektroninės parduotuvės). Įrašų trukmės ir dovanų kuponų vertes pateikiu žemiau:
10 min. – 5 EUR kuponas
30 min. – 15 EUR kuponas
60 min. – 30 EUR kuponas
1 val. 30 min. – 45 EUR kuponas
2 val. – 60 EUR kuponas
2 val. 30 min. – 75 EUR kuponas
LIEPA-3 – tai lietuvių kalbos išsaugojimo ir įgalinimo projektas, kurio tikslas parengti nemokamai prieinamą lietuvių kalbos garsyną – balso įrašų rinkinį, skirtą šnekos atpažinimo, dirbtinio intelekto, skaitmeninių sprendimų ir inovacijų vystymui naudojant lietuvių kalbą.
Apie projektą:
Trumpai apie projektą. Šiuo metu Vilniaus universitetas, Vytauto Didžiojo universitetas ir Lietuvių kalbos institutas įgyvendina projektą „Didžiojo lietuvių kalbos garsyno sukūrimas (LIEPA-3)“. Tai lietuvių kalbos išsaugojimo ir įgalinimo projektas, kurio tikslas parengti nemokamai prieinamą lietuvių kalbos garsyną (angl. voice library) – balso įrašų rinkinį, skirtą šnekos atpažinimo, dirbtinio intelekto, skaitmeninių sprendimų ir inovacijų vystymui naudojant lietuvių kalbą. Projekto šūkis yra „Išmokyk technologijas kalbėti lietuviškai!“.
Projekto įgyvendinimo metu bus sukurtas 10 000 val. anotuotas lietuvių kalbos garsynas (iš jų: 5000 val. skaitytinės šnekos stiliumi, 4900 val. spontaninės šnekos stiliumi, 100 val. su 4 lietuvių dialektų šneka).
Problema, kurią sprendžia projektas/kodėl jis svarbus. Viena iš priežasčių, kodėl skaitmeninimo pažanga ir naujausių technologijų sklandus diegimas Lietuvoje susiduria su iššūkiais yra lietuvių kalbos ypatumai. Dirbtinis intelektas „nemoka“ suprasti lietuvių kalbos tokiame lygmenyje, kokiame „supranta“ pvz. anglų kalbą.
Viešai prieinami garsynai lietuvių kalba yra ~167 kartus mažesni nei anglų. 70% iš 12 labiausiai pasaulyje paplitusių DI įrankių ir technologijų (pvz. Siri, Alexa, Cortana) nepalaiko lietuvių kalbos, o pvz. ChatGPT samprotavimo (angl. reasoning) kokybė, jei su juo bendraujama lietuviškai, sumažėja net 20% lyginant su bendravimu anglų kalba. Vienintelis būdas tai keisti yra turėti platų ir kuo skirtingesnį kalbos resursą/šaltinį, kurį pasitelkiant DI mokytųsi – resursą, kuriame tie patys žodžiai, frazės ir pan. tariami skirtingo amžiaus, lyties asmenų iš skirtingų Lietuvos regionų.
Viešai prieinami garsynai lietuvių kalba yra ~167 kartus mažesni nei anglų. 70% iš 12 labiausiai pasaulyje paplitusių DI įrankių ir technologijų (pvz. Siri, Alexa, Cortana) nepalaiko lietuvių kalbos, o pvz. ChatGPT samprotavimo (angl. reasoning) kokybė, jei su juo bendraujama lietuviškai, sumažėja net 20% lyginant su bendravimu anglų kalba. Vienintelis būdas tai keisti yra turėti platų ir kuo skirtingesnį kalbos resursą/šaltinį, kurį pasitelkiant DI mokytųsi – resursą, kuriame tie patys žodžiai, frazės ir pan. tariami skirtingo amžiaus, lyties asmenų iš skirtingų Lietuvos regionų.
Vytauto Didžiojo universitetas pasitelkė įmonių Gooliver ir isLucid pagalbą renkant Garsyno skaitytinės šnekos dalį.
Dalyvavimo procesas trumpai. Projekte norintis dalyvauti asmuo užsiregistruoja www.kurkgarsyna.lt ir per savo asmeninę paskyrą, naudodamasis jam patogiausiu įrenginiu (telefonas, kompiuteris, planšetė), vykdo įrašymo procesą tinklapyje esančiame įrašytuve. Asmeniui vienu metu ekrane rodomas trumpas tekstas. Jį įrašius ir išsaugojus rodomas kitas sakinys. Asmuo realiu laiku mato kiek laiko jau įrašė. Nebūtina viso planuojamo laiko įrašyti vienu prisėdimu – nuo sistemos galima atsijungti ir pakartotinai prisijungus tęsti įrašymo procesą. Vienas dalyvis gali įrašyti ne daugiau 150 min. ( 2 val. 30 min.). Pažymėtina, kad įrašymo procesui skiriamas laikas yra ilgesnis nei sukauptas įrašo laikas, pvz. kad kokybiškai įrašytų 30 min. asmuo vidutiniškai sugaišta 1-1,5 val., o tam tikroms demografinėms (vaikai, senjorai) grupėms šis laikas yra dar ilgesnis (jie labiau linkę prieš įrašant kelis kartus tiesiog perskaityti rodomą sakinį, dažniau padarius klaidas – perrašyti ir pan.).
Projekto interneto svetainė: https://www.kurkgarsyna.lt/
Projekto „Facebook“ paskyra: https://www.facebook.com/profile.php?id=61576919575807
Projekto pristatymas LRT laidoje „Labas rytas“ (nuo 27:25 min.): https://www.lrt.lt/…/2000525013/labas-rytas-lietuva-i-d
Šaltinis – Kaišiadorių TVIC
Šaltinis – Kaišiadorių TVIC

Komentarai (0)