Data Science – iskanje smisla v poplavi podatkov

Data Science – iskanje smisla v poplavi podatkov
24. 8. 2016 InfoSRC

ALENKA REPINA

Data Science – iskanje smisla v poplavi podatkov

Podatki so lahko temelj neverjetnega poslovnega uspeha.
To sta nam pokazali podjetji Google in Facebook. Njun
bliskovit vzpon je spremljal ves svet. Gospodarstvo pa
je spoznalo, kako pomembna je premišljena in strateška
uporaba podatkov za poslovno uspešnost.

Vedno nižje cene strojne opreme, rešitve cloud in Big Data nam omogočajo, da zbiramo ter hranimo velike količine raznolikih podatkov. Gre za vrsto podatkov, ki jih doslej nismo bili vajeni hraniti in analizirati. Podatki so heterogeni. Shranjujemo lahko vse od izhodnih podatkov senzorja kakovosti zraka v poslovalnici do vsebine spletnih blogov, v katerih se pojavlja ime našega podjetja. Velikokrat so podatki neurejeni, nepopolni in nestrukturirani.

Toda kako naj iz vse te nepregledne množice podatkov razberemo uporabne informacije? Tradicionalno podatkovno skladišče, BI-poročila in nadzorne plošče nam pri analiziranju takšnih podatkov niso v veliko pomoč. Za delo z novo vrsto podatkov so potrebni nov pristop, nova znanja in nova orodja.

Potrebujemo Data Science – znanost o podatkih.

MODNA MUHA ALI INFORMACIJSKA REVOLUCIJA?
O Data Science se v zadnjih letih veliko piše in govori.

Mediji pogosto predstavljajo Data Scientiste kot čudežne dečke (in deklice), ki znajo s svojimi predikativnimi modeli napovedati karkoli. Harvard Business Review je pompozno oznanil, da je Data Scientist najbolj seksi poklic 21. stoletja. Po drugi strani je mogoče od bolj umirjenih, a hkrati tudi ciničnih, strokovnih krogov slišati, da Data Scientisti niso nič drugega kot programiranja vešči statistiki. Gre le za eno izmed modnih muh iz Silicijeve doline.

Resnica, kot ponavadi, je nekje vmes.

Data Science ima veliko različnih oblik uporabe v znanosti in gospodarstvu. Dva najbolj pogosta primera uporabe Data Science v gospodarstvu sta iskanje novih spoznanj v podatkih in izdelava podatkovnih izdelkov (Data Products).

PRIDOBIVANJE NOVIH SPOZNANJ IZ PODATKOV

Data Scientisti pristopijo k iskanju novih spoznanj kot raziskovalci – iščejo vzorce, segmentirajo, povezujejo in primerjajo podatke, ki na prvi pogled nimajo veliko skupnega. Postavljajo hipoteze in izvajajo eksperimente. Rezultat so nova spoznanja. Ta so podjetju v pomoč pri sprejemanju poslovnih odločitev in pri določanju strateških usmeritev.

data-science-graf-1

IZDELAVA PODATKOVNIH IZDELKOV (DATA PRODUCTS)

Podatkovni izdelek je tehnološka rešitev. Je programska koda, ki na osnovi vhodnih podatkov preko algoritmov Machine Learning vrne rezultate. Primer podatkovnega izdelka, ki ga vsi dobro poznamo, je priporočilni sistem v spletnih trgovinah. Sistem na osnovi zgodovine nakupov priporoča izdelke, ki bi uporabnika lahko zanimali.

Obe zgoraj opisani področji v svojem bistvu uporabljata enak pristop. Končna rezultata pa sta zelo različna. V prvem primeru je rezultat predstavitev novih spoznanj sodelavcem. V drugem primeru je rezultat tehnična rešitev – programska koda, ki se integrira v spletno trgovino, CRM ali kakšno drugo aplikacijo.

data-science-graf-2

DATA SCIENTIST – PRAVLJIČNO BITJE

Data Science je multidisciplinarno področje. Glavna naloga je izluščiti pomen iz množice podatkov. To pa zahteva združevanje znanja z različnih področij. Data Scientist je matematik, statistik, programer in grafični oblikovalec v eni osebi.

In to še ni vse!

Data Scientist mora biti radoveden. Zastavlja si vprašanja, na katera drugi niti ne pomislijo. Postavlja hipoteze in jih preizkuša z eksperimenti.
Data Sceintist mora biti iznajdljiv. Pri delu s heterogenimi podatki pogosto naleti na probleme, s katerimi se še ni srečal. Uporaba preizkušenih rešitev tu obni dovoičajno ni dovolj.

Data Scientist mora biti vztrajen. Vprašanja in hipoteze večkrat vodijo v slepo ulico. Za globoko razumevanje podatkov je potreben čas. Velik del procesa zavzemajo pridobivanje, čiščenje in urejanje podatkov. Gre za zamudno in natančno delo.
Rezultate svojega dela mora za konec nadgraditi v oblikovno dovršene vizualizacije in jih predstaviti sodelavcem.

Ljudje s takšno širino znanja in kombinacijo značajskih lastnosti so v realnem svetu redkejši od samorogov. Zato se v resnici ponavadi oblikuje skupino Data Science. Premišljeno sestavljena skupina je lahko pri izvedbi projektov Data Science precej bolj uspešna kot katerikoli posameznik.

PA JE VSE TO RES POTREBNO?
Data Science ni čudežna rešitev za vse naše probleme. A se je treba zavedati, da je za podjetja, ki želijo svoje poslovne in strateške odločitve postavljati na osnovi realnih podatkov iz poslovanja, Data Science ključnega pomena.

Morda je čas, da začnemo razmišljati o tem, kako vključiti Data Science v svoje podjetje in se naučimo razmišljati kot znanstveniki.

Če uživate v člankih, jih delite s prijatelji. Lepe stvari je lepo deliti.