Blogisarjan aikaisemmissa osissa esiteltiin alusta loppuun prosessi, jolla yksinkertaisista lokitiedoista voi rakentaa älykkään mallin, joka hyödyntää koneoppimisen tekniikoita tavoitteenaan helpottaa ihmisten elämää. Lopputuloksena oli (ainakin omasta mielestäni) nätti ja yksinkertainen käyttöliittymä, jota on toivottavasti intuitiivista käyttää. Mikä parasta, nykypäivänä älykkäitä ohjelmistoja, kuten Tableauta, voi käyttää nopealla tutustumisella kuka tahansa edistyneisiinkin analyyseihin.
Tilastotiede <3 visuaalisuus
Visuaalisen analyysin hyöty esiintyy tässäkin projektissa monella tavalla: Vilkaisemalla dataa aivan ensiaskeleina saatiin erittäin nopeasti hyvä kuva siitä, minkälaista tietoa datasta voitaisiin tiivistää. Saman asian olisi toki voinut todeta klassisilla metodeilla, kuten ANCOVA:lla. Tämä olisi kuitenkin vaatinut enemmän resursseja koodauksen muodossa, ja lopputulosta olisi ollut paljon vaikeampi tulkita ja kommunikoida. Tableaun mahdollistamalla visuaalisella analyysilla vältytään osittain koodaukselta, mutta päädytään silti samaan johtopäätökseen, joka on vieläpä helpompi kommunikoida eteenpäin.
Samaan hengenvetoon täytyy kuitenkin todeta, että tarkoituksena ei tässä vaiheessa ole vähätellä tilastotieteen tuntemusta. Päinvastoin, vankka pohja tilastotieteissä auttaa nimenomaan tulkitsemaan visuaaleja ja saamaan ideaa siitä, miten dataa voisi hyödyntää. Itse mallin rakennuksessa tilastotieteiden tuntemus on välttämätöntä. Loppupään visualisointi eli kommunikointi käyttäjien kanssa tapahtuukin sitten taas Tableaulla – loppukäyttäjille on laiha lohtu antaa mallin laskusäännöt ja käskeä laskemaan itse.
Harjoitus onkin hieno esimerkki siitä, miten edistynyt analytiikka ja visuaalisuus voivat kulkea käsi kädessä, tuoden arvoa täsmälleen sinne missä sitä tarvitaan. Hienommat mallit voidaan pyöritellä taustalla, ja loppupään käytettävyys on hyvä toteuttaa visuaalisesti ja intuitiivisesti.
Sovellutuksia liike-elämässä: Where’s the money?
Miten kaikkea tähän mennessä opittua voidaan sitten hyödyntää muualla? Miten malli kääntyy säästöiksi tai lisäarvoksi?
Kaikeksi onneksi tässä sarjassa esitelty lähestymistapa on helposti sovellettavissa: Regressiopohjainen mallinnus on analyyttisistä malleista kenties helpoin toteuttaa. Monitasoinen mallinnus taas toimii parhaiten ympäristöissä, joissa klusterit tuottavat dataan havaittavaa vaihtelua mekanismeilla, joita ei välttämättä ole mahdollista mitata suoraan. Tätä vaihtelua esiintyy tyypillisesti eniten erityisesti datassa, jossa ihmisen tai eläinten käytös korostuu datassa. Logistinen malli taas laskee yksinkertaisia todennäköisyyksiä.
Yksi mahdollinen sovellutusalue voisikin olla vaikkapa käyttäytymisanalyyseissä: Rakennetaan A/B-testauksen tyyliin useita kymmeniä eri vaihtoehtoja nettisivujen toiminnallisuudelle, ja mitataan niillä konversioita. Hyödyntämällä monitasomallinnusta ei jokaista muutosta tarvitsisi erikseen verrata, vaan kaikki arvioidaan samaan aikaan.
Toinen melko suora sovellutus vastaavalle ratkaisulle voisi löytyä vaikkapa valmistusteollisuudesta ennakoivan huollon parista. Kuvitellaan tehdas, jossa yksi tiimi operoi yhtä kohdetta. Jokaisella tiimillä on omat työskentelytavat, ja ajoittain tehtaan laitteistoa pitää korjata. Sovittamalla tehtaan dataan vastaava monitasoinen logistinen regressio, voitaisiin vähäisellä vaivannäöllä rakentaa tehtaalle ratkaisu, joka ennustaa laitteiston huoltotarpeita ja siten optimoi tuotantoa.
Lopuksi voidaan Tableaussa mallintaa vaikkapa tehtaan pohja kartalla, ja sijoittaa sinne toimipisteet. Samanlaisen skenaarion voi vaikkapa kuvitella yritykselle, joka ylläpitää laitteistoa asiakkailla. Jos asiakkaisiin – tai mihin tahansa muuhun klusteroivaan tekijään – liittyy vaihtelua muuttujissa, jota ei pystytä suoraan mittaamaan, voi monitasoinen mallinnus selittää systeemin toimintaa tehokkaasti.
Toivottavasti tästä sarjasta oli lukijoille iloa – vaikka teksteiltä pituutta löytyykin niin kyseessä on silti melkoinen pintaraapaisu koko kuvioon. Omalta osaltani pääsin helpottamaan omaa elämääni konkreettisella tavalla, ja vieläpä oppimaan uutta ja vahvistamaan vanhoja taitoja yhdistämällä kovaa analyysia visuaalisuuteen ja käytettävyyteen.
Päivittelen mallia taas ensi keväällä kun pyörät palaavat, stay tuned 🙂
Blogisarjan muut osat:
- Osa 1: Kuinka loihtia älyä kaupunkipyörien avoimesta datasta?
- Osa 2: Visuaalisella analyysillä kiinni dataan
- Osa 3: Ongelmasta ideaan, ideasta preppaukseen ja karvalakkimalliin
- Osa 4: Karvalakkimallista jotain hienostuneempaa
- Osa 5: Monitasoinen logistinen regressio
- Osa 6: Monitasoisen logistisen regression hyödyntäminen Tableaussa
