Mitä data scientistin tulee osata? Kuinka saada ajatus itämään siitä, millaisiin asioihin data scientist törmää työssään? Kuinka esittää asiat realistisesti? Ja kuinka saada koulutettavan käsitys toiminnan kokonaiskuvasta kukkimaan pidempään kuin pöytään kannettu tulppaanikimppu?
Näitä minä mietin tänään, kun suunnittelen uutta sisältöä meidän Data Sciencen perusteet -kurssille.
Tunne datasi
Turhaan ei sanota, että data scientistin työstä 80-90 % kuluu datan tutkimisessa, muuttujien selvittämisessä ja datan muokkaamisessa. Koulutettavan pitäisi siis tuntea pääsevänsä dataan sisälle. Kynsien alle kuuluukin jäädä multaa ja tarpeeksi perinpohjaisesti tutkimalla joukosta löytää aina matoja. Mitä paremmin datan tuntee, sitä enemmän herää kysymyksiä. Jos kaikki tuntuu helpolta, asiaa ei ole ajatellut tarpeeksi. Tai ehkä toinen data scientist on käynyt laittamassa datan kuntoon ennalta.
Valmiin siistin datan antaminen vie kaiken tutkimisen riemun (ja tuskan) ja latistaa kokemusta. Kuitenkin koulutuksessa halutaan tarjota muutakin sisältöä kuin datan muokkaamista lapiolla ja kuokalla. Tästä syystä myös koulutuksen valmistelussa suurin osa ajasta menee siihen, että löytää käyttöön sopivan datan. Jonkin nopeasti sisäistettävän, sisällöltään kiinnostavan, vapaasti saatavan, sopivan kokoisen, jossa on hyviä muuttujia. Ja tällaisen löytäessään saattaa joutua keräämään reaaliaikaista tietoa viikon, ennen kuin pääsee katsomaan, tuleeko datasta kiinnostavia tuloksia.
Tunne liiketoimintasi
Kun data on sisäistetty, tulee myös ymmärtää mihin datalla pyritään vastaamaan. Tai oikeastaan nämä kulkevat käsi kädessä. On hyvä ymmärtää jo aluksi liiketoiminnan ydin, jotta data voidaan muokata oikeaan suuntaan. Joskus nähdään jo ennalta, etteivät datan muuttujat voi tuoda lisäymmärrystä. Ehkä mukaan voisi liittää toiminnan kannalta relevanttia avointa dataa? Toisinaan tavoitteena on havainnollistaa data liiketoiminnan tarpeisiin.
Datasta voi siis tuottaa hyötyä liiketoiminnalle monella tavalla. Visuaalinen tarkastelu voi nostaa esille toiminnan ongelmakohtia ja eri näkökulmien yhdistäminen voi tuottaa uutta tietoa. Usein maalina on koneoppimisen hyödyntäminen, mutta paljon oppii myös matkalla siihen.
Tunne itsesi
Kouluttaja luo puitteet koulutuksen onnistumiselle. Aiheeseen perehtyneisyyden ja innostuksen kuuluu näkyä, sillä tavalla tuodaan positiivisuutta koulutuspäivään. Valitsemalla datan, joka innostaa sisällöllisesti ja muuttujiltaan myös itseä, saa kurssiin lisää eloa ja energiaa.
Ennen kuin sukellan penkomaan Internetin loputonta datatarjontaa, esitänkin kysymyksen: Mikä sinua kiehtoo data sciencen maailmassa? Kurssipalautteen perusteella voi aina kehittää koulutusta, mutta parasta on, jos voi tuntea yleisönsä jo etukäteen.
