Tekoälyä koskevan kirjoittelun perusteella voisi kuvitella, että projektit ovat pelkkiä menestystarinoita. Pitää vaan rohkeasti kokeilla, pistää data ja tensorflow pyörimään – jossakin pilvessä.
Käytännössä tekoälyprojekteissa on kuitenkin useita haasteita, joiden vuoksi osa projekteista ei koskaan päädy tuotantokäyttöön saakka. Tässäpä siis eräitä tunnettuja ja koeponnistettuja pulmia:
Idea ei toiminutkaan
Yleensä AI-projektit aloitetaan liiketoimintaongelman määrittelyllä, jossa pitäisi verifioida sopivat ideat projektiin. Ja karsia epäkelvot pois. Tästä huolimatta virheitä sattuu, joista muutama esimerkki.
- Valitaan projektiin sellainen ongelma, joka saadaan teknisesti ratkaistua (esim. ennustemallit toimii), mutta jolla ei ole riittävän suurta liiketoiminnallista merkistystä. Ensimmäistä AI-projektia kokeilevat yritykset kapsahtavat usein tähän kategoriaan. Halutaan tehdä “mahdollisimman varma” projekti, jolloin liiketoiminnallinen merkitsevyys jää muiden seikkojen varjoon.
- Kukaan ei halua ratkaisua tontilleen AI-projektin jälkeen (omistajuus puuttuu). IT:n vetämät hankkeet ovat tässä riskiryhmää.
- Etukäteen ei mietitty ovatko ihmiset valmiita ottamaan vastaan esim. algoritmien tekemiä suosituksia tai päätöksiä. Eräässä projektissa ennusteet saava osapuoli totesi aluksi… ettei halua niitä.
AIkuvaiheessa kannattaa siis käyttää aikaa ja energiaa, että löytyy sopivat aihiot AI-projekteiksi.
Data olikin kuraa
Huonosta datasta voisi varmaan kirjoittaa kokonaisen kirjasarjan. Ilmiö on harmillisen tuttu myös AI-projekteissa. Itse asiassa kun mietin, niin vain muutamassa tuntemassani projektissa ei ole ollut suhteellisen olennaisia datan laatuun liittyviä haasteita. Mistä nämä ongelmat sitten johtuvat?
- Datat on eri tietojärjestelmissä, joista niiden kerääminen voi olla hyvin hankalaa.
- Data ei välttämättä ole yhteismitallista järjestelmien välillä.
- Ihmiset tuottavat virheellistä dataa, esim. myyjä syöttää vahingossa väärän tarjouksen arvon.
- Ihmiset tuottavat harhaista dataa, esim. myyjä yliarvioi liidien määrän.
- Myös eri tavalla kalibroidut anturit yms. saattavat tuottaa keskenään vertailukelvotonta dataa.
- Syystä tai toisesta datassa on paljon aukkoja ja puutteita. Eräässä projektissa asiakkaan CRM:ssä oli kattavat tiedot vain alle 5%:lla asiakkaista.
- Data on summattu tasolle, jossa olennainen informaatio on hävinnyt.
- Data ei saada yhdisteltyä, koska ei ole yhdistävää tekijää.
- Ennustettava ilmiö muuttuu sen verran nopeasti, että historiadata ei toimi mallinnuksen pohjana hyvin.
- AI-projektin kannalta olennaista datan historiaa ei ole tallennettu, vain nykyhetken datat tallessa.
Dataan laatuun liittyvät asiat olisi hyvä käydä tiheällä kammalla lävitse ennen projektin varsinaista aloitusta. Parhaimmillaan se voi säästää pitkän pennin, kun tunnetaan datahaasteet etukäteen tai ei lähdetä projektiin, joka ei datan vuoksi onnistuisi kuitenkaan.
Mainittakoon vielä, että projektien alussa ollaan miltei aina ylioptimismisia datan laadun suhteen.
Dataa olikin oikeasti paljon
Näin big data -ratkaisujen ja pilven aikakaudella voisi kuvitella etteivät isot datat ole mikään ongelma. Yllättävän usein näin kuitenkin näyttää olevan, koska osaamista big data- ja pilviratkaisuista on rajallisesti yrityksissä. Eräs IoT-projektimme jumahti asiakkaan päässä siihen etteivät keksineet miten hallita kustannustehokkaasti 30 Gigan päivittäisiä signaalidatoja.
Myös mallinnuksen kannalta isot datat saattavat olla haaste, kun tarvitaan järeitä GPU-myllyjä laskemaan, ja suoritusajat ovat pitkiä.
Tulosten esittäminen ja kommunikaatio yleensä
AI-projektin eri vaiheissa käydään tuloksia lävitse liiketoiminnan ja Data Scientistien kanssa. Esimerkiksi palaverissa analysoidaan seuraavaa kuvaa.
Data Scientist kertoo analyyseistä, vasteista, inputeista, ennustemalleista, keskivirheistä, ROC-käyrästä ja siitä, että pylvään 1 alempi luku on tilastollisesti merkitsevä verratuna pylvääseen kaksi… Liiketoiminnan vetäjä kuuntelee ja toteaa, että siitä ne näyttää suunnilleen yhtä suurilta. Ja että busineksen kannalta erolla ei ole merkitystä. Game over.
Data Scientistien kannattaakin hioa presentaatio-osaamistaan siten, että tulokset on selitettävissä maallikollekin. Esimerkiksi, kuinka moni ns. tavan tallaaja tietää mikä on vastemuuttuja?
Liiketoiminnan ihmisten taas kannattaisi keskittyä ymmärtämään mistä on kyse. Aina toisinaan näkee melko hätäisesti vedettyjä johtopäätöksiä tuloksista.
Tässäkin asiassa aika varmaan tekee tehtävänsä, eli kun AI-projektit yleistyvät, niin näitä esitettyjä haasteita on aiempaa helpompi taklata.