Monet yritykset rekrytoivat data scientistejä ja analyytikkoja. Neuroverkkovelhoja ja deep learning -osaajia.
Mutta mitä konkreettista osaamista rekryltä pitäisi tällöin odottaa?
Tai mitä osaamista vastavalmistuneen, esimerkiksi tilastotieteen opiskelijan kannattaisi kehittää, voidakseen siirtyä työskentelemään data sciencen ja edistyneen analytiikan parissa?
Haastattelin Louhian data scientistejä, joilla on kymmenien ja taas kymmenien toteutusprojektien kokemus ja jotka myös kouluttavat suomalaisista uusia datatieteilijöitä.
Voit katsoa haastattelun tästä tai tämän kirjoituksen alta.
Käydään tässä läpi haastattelun keskeisimmät pointit.
Data Scientistin tärkeimmät taidot
Louhialla 5 vuotta työskennellyt, yksi maan kovimmista edistyneen analytiikan osaajista, Lasse Liukkonen yllättää hieman tiivistäessään osaamisvaatimukset:
- Tietokannat ja SQL
- Rajapinnat ja integraatiot (ns. ETL-osaaminen)
- Mallintaminen, sisältäen sekä
- tiedon mallintamisen että
- tilastollisen mallintamisen ja algoritmit
Haastattelussa Lasse tuo esille, että periaatteessa data scientistin työhön voi edetä, ilman tilastotieteen koulutusta. Lisäten kuitenkin, että haastavimmissa tapauksissa pitää kääntyä ammattilaisen puoleen. Tosin ilman osaamista haastavan keissin itsenäinen identifiointi voi olla vaikeaa.
Vastauksessa näkyy ehkä se, että Lasselle tupla-laudatur-maisterina (tilastotiede+matematiikka) ja erittäin kokeneena analyytikkona tilastollinen mallintaminen ja algoritmiosaaminen on ns. peruskauraa.
Useissa projekteissa Lassen kanssa mukana olleena, uskallan väittää että aika monelta IT/Controller/Business Intelligence -jantterilta putoisi hanskat alkumetreiltä jos törmäisi niihin mallinnuskeikkoihin mitä olemme tehneet.
Kun tehdään ennusteita liittyen ihmisten terveyteen ja turvallisuuteen, miljoonien eurojen tarjouskauppoihin tai ministeritasolta tulee mahtikäsky tehdä ennustemalli aiheesta X ja aikaa on 24h, itse ainakin haluan että taustalla on järeää tilastotieteen osaamista.
Mutta totta on, että suurin osa käytetystä ajasta menee tiedon muokkaamiseen, sen poimimiseen, siistimiseen, tutkimiseen ja datan kanssa puljaamiseen.
Itse algoritmien kanssa työskentelyyn, R tai Python koodaamiseen kuluu huomattavasti vähemmän aikaa.
Olli Leppänen, Louhian data scientist, nostaakin SQL:n eniten käytetyksi työvälineeksi.
Ja näitä taitoja ei juuri yliopistossa opeteta. Eli vinkiksi tilastotieteen opiskelijoille: täydentäkää tilastotieteen osaamista etenkin tietokannoilla (relaatio + nosql) ja SQL-kielellä.
Alan konkari, edistynyttä analytiikka jo yli 20 vuotta sitten ensimmäisen kerran tehnyt, Mika Laukkanen, täydentää vielä osaamisvaatimuksia:
- (Liiketoiminta)ongelman ja datan välisen yhteyden ymmärtäminen. Kyky hahmottaa miten ja millaisen datan avulla ongelma voidaan ratkaista.
- Mallinnus- ja menetelmäosaaminen (koneoppiminen, tilastotiede).
- Käsien päällä istuminen. Etenkin kun tulee (odottamattomia) huipputuloksia, niin kannattaa tarkistaa datasettien sisältö sekä muodostus ja mallinnusprosessit n-kertaa, koska kyseessä voi hyvinkin olla tekemiseen liittyvä virhe (nimim. kokemusta on).
Huomasin vasta tänään, että Ari Hovilla on tarjolla “Data Scientist koulutusohjelma”. Sen ohjelma tukee hyvin edellä listattuja osaamisvaatimuksia.
Mukana on R:n ja machine learning -algoritmien lisäksi niin SQL:ää, liiketoimintatiedon mallintamista (data modeling) kuin Hadoopia.
Katso Louhian data scientistien haastattelu ja Louhian vlogin ensimmäinen osa alta.