Adaptacija govornika/stila za digitalne govorne asistente zasnovana na metodama obrade slike

Projekat S-ADAPT se realizuje u periodu od 01.09.2020. do 31.08.2022. godine na Fakultetu tehničkih nauka UNS i Matematičkom institutu SANU, kao projekat kod Fonda za nauku Republike Srbije, odobren na prvom Javnom pozivu za prijavu naučnoistraživačkih projekata kojima se realizuje Program za razvoj projekata iz oblasti veštačke inteligencije (AI). Projekat S-ADAPT je bio najbolje ocenjen projekat od 6 projekata u okviru Potprograma namenjenog primeni AI u različitim oblastima života i rada u cilju bržeg društvenog, tehnološkog, kulturnog i ekonomskog razvoja Republike Srbije – PRVI_P, čiji je ukupan budžet 200.000 EUR.

O projektu

Projekat S-ADAPT će istraživati metode korišćene u obradi slike bazirane na dubokom učenju i primeniti ih na govor u cilju unapređenja funkcionalnosti digitalnih govornih asistenata, koji se zasnivaju na tehnologijama automatskog prepoznavanja govora (ASR) i sintezi govora na osnovu teksta (TTS). Projekat je posebno usmeren na postizanje potpune fleksibilnosti jedine postojeće aplikacije digitalnog govornog asistenta na srpskom jeziku, što u pogledu ASR znači mogućnost da se aplikacija adaptira na glas različitih govornika, govornih stilova i uslova u kojima se govor snima (mikrofon, ambijentalna buka), dok u pogledu TTS to podrazumeva mogućnost produkcije sintetizovanog govora proizvoljnim glasom u proizvoljnom govornom stilu. Sa ovim ciljem, Projekat će koristiti najsavremenije metode transfera stila slike, koji se baziraju na adaptaciji domena, a koje karakteriše korišćenje male količine materijala specifičnog domena što ih čini pogodnim za praktičnu primenu.

Ciljevi

  • Sakupljanje i obrada govorne baze sa više govornika i više stilova na srpskom jeziku, neophodna da bi se napravio što bolji akustički model.
  • Implementacija algoritama mašinskog učenja nezavisnih od jezika za adaptaciju govornika/stila bazirana na specifičnim generativnim suparničkim mrežama, CycleGAN, i unapred obučenim neuralnim mrežama korišćenim s ciljem obuke sistema na ograničenoj količini govornog signala ciljnog govornika ili govornog stila.
  • Proširivanje i unapređenje postojećih metoda transfera stila za obradu slike i njihova primena na transfer stila govor-na-govor (engl. speech-to-speech style transfer) i na unapređenje govornog signala.
  • Implementacija modula za neutralizaciju stila, uklanjanja šuma iz govornog signala (ASR), kao i za adaptaciju na stil (TTS), baziranih na već pomenutim tehnologijama.
  • Integracija gorepomenutih unapređenja u aplikaciju digitalnog govornog asistenta za srpski jezik u cilju povećanja njene fleksibilnosti i robusnosti, kao i evaluacija postignutih unapređenja.