20.09.2017

Dataan laatua koneoppimisella

Kun nykyään uutisoidaan tekoälystä ja koneoppimisesta, niin eturintamaan nousee kuvien tunnistus, itseohjautuvat autot tai vaikkapa tekstin kääntäminen tai sen kontekstin ymmärtäminen. Näiden mediaseksikkäiden aiheiden taakse jää aihealueita, joissa tekoälyllä on paljon annettavaa, mutta uutiskynnys ei ylity. Yksi näistä aiheista on shutterstock_425909323erilaisten järjestelmien datan laadun parantaminen algoritmien avulla.

Ongelmia datan laadussa?

Datan laatuongelmat aiheuttavat erittäin suuria kustannuksia yrityksille vuosittain. Kustannuksia syntyy, kun dataa joudutaan parsimaan ja paikkailemaan erilaisissa järjestelmissä, integraatioissa, tietovarastoissa, jne. Lisäksi on huomioitava piilokustannukset, jotka syntyvät puutteellisen tai virheellisen datan perusteella tehdyistä vääristä päätöksistä tai päätösten lykkäämisestä. Ei ole tavatonta, että esimerkiksi tietovarastoprojektissa 10%:ia datan laatuongelmista aiheuttaa vaikka 50-70% kustannuksista. Itse muistan uraltani yhden projektin, jossa 95% datasta saatiin tietovarastoon nätisti 25 päivässä, mutta lopun 5%:n fiksaaminen sinne vei 120 päivää. Työmääräarviot eivät menneet ihan putkeen.

Miten koneoppiminen voisi sitten auttaa?

Case 1, puuttuvan datan paikkaus

Lukuisten tietojärjestelmien datoissa on puutteita, koska käyttäjät eivät syötä tietoja hyvistä ja sinnikkäistä ohjeistuksista huolimatta. Koneoppimista käyttämällä voi olla mahdollista täydentää nämä tiedot. Seuraavat esimerkit ovat oikeista tilanteista.

Luulen että Facebook, Google ja muut vastaavat toimijat tekevät tätä aktiivisesti. Vaikket olisikaan antanut itsestäsi jotain tietoa, niin se on ennustettavissa web-käyttösi perusteella.

Case 2, virheellisen datan korjaus

Jälleen pari käytännön esimerkkiä.

Case 3, data-integraatiot ja tietovarastolataukset

Näillä osa-alueilla liikutellaan merkittävästi dataa päivästä toiseen. Virhehallinta datan tarkkailun suhteen on kuitenkin verrattain jäykkää. Jos mitään dataa ei siirry vaikka tietoliikennekatkosten vuoksi, niin niistä saadaan virheilmoituksia. Samoin muista triviaaleista virheistä. Mutta jos dataa siirtyykin esim. 80% normaalivolyymista tai siirtyvän datan sisältö poikkeaa olennaisesti aiemmasta (esim. hinnastossa tulisi pelkkiä nollia), niin yleensä tällaisia virheitä ei saada kiinni. Joskus tällaisten puutteiden huomaaminen voi kestää kauankin, jolloin korjaaminen tulee kalliiksi tai jopa mahdottomaksi. Esimerkiksi eräässä projektissa kaikki varastosaldot eivät siirtyneet pariin viikkoon, eikä niitä ollut enää mistään saatavilla jälkikäteen.

Arvaatte varmaan, että tähänkin löytyy ratkaisuja koneoppimista hyödyntämällä! Eikä se ole edes vaikeaa tai kovin kallista.

Tällä hetkellä myös ohjelmistorobotiikka on erittäin suosittu aihe. Tämä kirjoitus liittyy myös läheisesti siihen, koska koneoppimismallit usein upotetaan ohjelmistojen sisään, jotka niitä sitten käyttävät.

Jos nämä aiheet kiinnostavat, niin ole yhteyksissä.

Share
Contact Person

Blog writer

Mika Laukkanen