Napredak tehnologije neće izbrisati i osiromašiti hrvatski jezik. Naprotiv, zahvaljujući Fakultetu elektrotehnike i računarstva u Zagrebu tajne koje sadrži riječ mogle bi biti odgonetnute, a prije nedokučive korelacije dokumentiranih događaja postati očite i usmjeriti nas na ispravan put u kriznim trenucima. Na zagrebačkom FER-u već deset godina postoji istraživačka grupa Laboratorij za analizu teksta i inženjerstvo znanja (TakeLab). U njemu se bave obradom informacija iz tekstnih izvora, a njihova istraživanja obuhvaćaju obradu prirodnog jezika, pretraživanja informacija i strojnog učenja, odnosno primjene tehnika umjetne inteligencije, s ciljem razvoja naprednih jezičkih tehnologija za semantičku analizu digitalnog sadržaja. Voditeljica laboratorija je prof. dr. sc. Bojana Dalbelo Bašić, a njezin zamjenik izv. prof. dr. sc. Jan Šnajder.
Naš je primarni fokus obrada prirodnog jezika i primjena metoda strojnog učenja za rješavanja tog problema u svrhu ekstrakcije znanja iz nestrukturiranih, tekstnih podataka i omogućavanja komunikacije između čovjeka i stroja prirodnim jezikom. Drugim riječima fokus je jezik, konkretno njegova manifestacija u tekstu. Naša je misija razviti modele i alate koji omogućavaju semantičku analizu velike količine tekstnih podataka – elaborira Šnajder.
Primjerice, ako vas zanima neki događaj ili pojam koji se nalazi u velikoj zbirci dokumenata, morali biste dobro pogoditi ključne riječi da pronađete željeno. No kod semantičkog pretraživanja postoji model pomoću kojeg se može prebroditi jaz između onog što trebate i načina na koji je to prirodnim jezikom zapisano. Nadalje, ako imate veliku količinu tekstnih podataka i zanima vas koji su glavni protagonisti u dokumentima (kako su povezani ili u kojoj su tvrtki zaposleni) isto tako će vam trebati pomoć modela na kakvim Laboratorij radi. U pitanju je klasičan primjer ekstrakcije informacije gdje se iz teksta pokušava dobiti podatke iz kojih se zatim mogu donijeti zaključci i izvoditi hipoteze.
TakeLab iza sebe ima mnogo uspješnih završenih projekata, a među njima su i oni nastali u suradnji s industrijom. Riječ je o praktično orijentiranim projektima koji rješavaju konkretnu potrebu industrije za analitikom teksta (tipična situacija bila bi analiza sentimenta: preko komentara na društvenim mrežama saznati što ljudi misle o nekom proizvodu ili usluzi). Na jednom takvom projektu u njemu upravo rade. Projekt CATA CX (Kognitivno-afektivna tekstna analitika društvenih medija za analizu korisničkog iskustva) financira HAMAG-BICRO, a cilj mu je analiza iskustva i mišljenja korisnika telekomunikacijskih usluga u komentarima na Facebooku. Saznati što je pošlo po zlu iz tisuće komentara nije lak zadatak. Riječ je o kompleksnom, skupom i dugom procesu. No CATA CX bi taj proces trebao učiniti bezbolnim i lakim. Razvijen je model koji u konverzacijama korisnika s korisničkom službom na Facebooku analizira niz afektivnih i kognitivnih pokazatelja, kao što su sentiment, komunikacijske namjere, teme razgovora te čak deset različitih, ponekad vrlo suputnih emocija. Za pola godine prototip projekta trebao bi biti završen te zatim dalje usmjeren prema komercijalnoj uporabi.