Iako još traju rasprave o tome kako jednostavno definirati ‘data science’ ili podatkovnu znanost, ta će nova znanstvena disciplina brzo postati nezaobilazna u odlučivanju. U moru podataka bez sustavne analize neće se moći izdvojiti bitno – i tu nastupa ‘data science’. Za sve koji žele shvatiti što se krije iza pojma ‘data science’, na početku je možda najvažnije reći da je to zaista nešto veliko. To je društveni fenomen koji se temelji na akademskom pristupu, poslovnoj primjenjivosti i tehnološkoj platformi. Kao što se društvo danas susreće s golemim skupovima dostupnih podataka, tako i uloga istraživača evoluiraju iz zanesenjaka, preko akademskog i industrijskog pristupa u proces s uporišta u statistici, računalnoj znanosti i poslovanju.
U tijeku je opća diskusija i pokušaj da se jednostavno definira pojam ‘data science’ te je stoga potrebno izdvojiti nekoliko zanimljivih pristupa koji su se pojavili i s vremenom mijenjali. Tako se navodi da je ‘data science’ kombinacija tehnika hakiranja pogonjenih energetskim napitkom u kombinaciji sa statistikom na kofeinu, ali i područje koje kombinira vještine hakiranja, poznavanje matematičkih i statističkih tehnika te veliko poslovno iskustvo.
Vještine koje opisuju podatkovnog znanstvenika najčešće jesu statistika, odnosno tradicionalne analize, i transformacija podataka, koja uključuje na primjer parsiranje i formatiranje i vizualizaciju. Proučavajući navedeno, vidljivo je da je ‘data science’ potrebno definirati u kontekstu drugih povezanih područja te pojasniti razlike između statističara, podatkovnog analitičara, analitičara, BI-specijalista i podatkovnog znanstvenika. Relativno jednostavna definicija pojma ‘data science’ uključuje načela, procese i tehnike kojima se analizom podataka razjašnjavaju razni fenomeni. Takva analiza može, ali ne mora biti automatizirana. U tom kontekstu pojam ‘data science’ odnosi se na posao koncentriran oko prikupljanja, pripreme, analize, vizualizacije, menadžmenta i spremanja velikih skupova podataka.
Iako naziv implicira povezanost s bazama podataka i računalnom znanosti, podatkovni znanstvenik mora vladati i mnogim vještinama koje nemaju izravne veze s matematikom i statistikom, a uključuju vještine komunikacije i strukturiranog razmišljanja, odnosno rješavanja općih i poslovnih problema.
Grupa istraživača provela je još 2012. introspektivno istraživanje o podatkovnim znanstvenicima i njihovu radu. Zaključila je da su ključna znanja podatkovnih znanstvenika poslovna znanja, znanja matematike, operacijskih istraživanja, statistike, strojnog učenja, programiranja i ‘big data’ znanja. Nadalje, zaključila je da ne postoji univerzalan podatkovni znanstvenik već postoje četiri vrste podatkovnih znanstvenika: ‘data businessperson’, koji odgovara na pitanje kako uvid u podatke može utjecati na tvrtku; ‘data creative’, koji zna programirati, ima iskustva s ‘open source’ projektima; ‘data developer’, koji razvija infrastrukturu za podatke i algoritme za strojno učenje; i ‘data researcher’, kojemu je statistika glavna vještina te objavljuje radove u stručnim i znanstvenim časopisima.
‘Data science’ primijenjena je aktivnost kojoj je cilj rješavati probleme. No prije rješavanja problema je potrebno znati identificirati, što nije uvijek lagan zadatak. Ključna stvar je ‘koristiti se’, a ne ‘spremati’ podatke, što je točka u kojoj često zastane tradicionalan pristup. Ako ne znate što ćete s podacima, možemo slobodno zaključiti da vam nisu ni potrebni. Međutim, kada jednom demistificirate rad i mogućnosti iskusnoga podatkovnog znanstvenika, više nećete moći prestat razmišljati o načinima kako se koristiti podacima. U znanosti o podacima jedan od ključnih faktora uspjeha je ‘osjećati i slijediti podatke’.
‘Data science’ po mnogo čemu asocira na umjetnost. Može se zaključiti da je ona umjetnost pretvaranja podataka u akcije. Takav proces ostvaruje se kreiranjem podatkovnih proizvoda. Podatkovni proizvodi pružaju konkretna samostalna informacije s dodanom vrijednošću ne izlažući pritom donositelja odluka podatnoj i analitičkoj razini procesa. Podaci se nalaze u tzv. jezeru podataka – velikom objektivno usmjerenom repozitoriju u kojem se čuvaju u svome izvornom obliku. ‘Data science’ je i umjetnost ekstrakcije i primjene znanja skrivenog u podacima, nastavak na ono što je počelo kao ‘business intelligence’. Temeljne su razlike u tome što uz deduktivno, ‘data science’ primjenjuje i induktivno zaključivanje; otkrivaju se nova pitanja umjesto samo odgovaranja na postojeća; ‘data science’ karakterizira proaktivnost – ona traži odgovor na pitanje ‘što je potrebno napraviti?’, a ne na ‘što se dogodilo?’ te utječe na donošenje poslovnih odluka i stvara kompetitivnu prednost organizacijama koje žele biti vodeće na tržištu.