Tässä artikkelissa tehdään katsaus plussiin ja miinuksiin muutamien analytiikkaohjelmistojen osalta (R-ohjelma, RapidMiner ja SQLServer SSAS)
R-ohjelma
R-ohjelma on tilastotieteen ja tiedon louhinnan työväline, jonka käyttö perustuu komentorivipohjaiseen ohjelmointiin. R:n lähdekoodi on täysin avoin, joten sen käyttäminen on ilmaista ja käyttäjä voi halutessaan, jopa osallistua ohjelman kehittämiseen.
R-ohjelman vahvuuksia:
- Koodin avoimuus; Ohjelma on täysin avoin (GNU-lisenssi).
- R-help; R:ssä on laaja-alainen “manuaali”eri menetelmien (funktioiden) käytöstä, sekä selkeät esimerkit funktioiden toiminnasta. R:n manuaalien lisäksi on olemassa R-help postituslista, jonne kuka tahansa käyttäjä voi kirjoittaa ja kysyä neuvoa ongelmastaan. Yleensä kysymykseen saa vastauksen hyvin nopeasti.
- Monipuolisuus; Käyttäjä voi itse määritellä funktioita ja muodostaa vaikka omia algoritmeja R:n avulla. Käyttäjä voi halutessaan myös lähettää funktionsa kaikkien saataville CRAN-sivustolle. R:n funktiokirjastoja on useita tuhansia ja määrä kasvaa päivittäin. Kaikki yleisimmät tilastolliset menetelmät löytyvät valmiiksi olemassa olevista kirjastoista. R:n menetelmien kirjo on kiistatta markkinoiden laajin.
- Datan muokkaus; Vaikka yleisesti aineiston muokkausta ei pidetä R:n vahvuutena on se kuitenkin melko vaivatonta ja monipuolista. Uusien muuttujien tekeminen ja jo olemassa olevien muuttujien muunnoksien tekeminen onnistuu käden käänteessä.
- Yhteys muihin ohjelmointikieliin; Esimerkiksi aineiston saa tuotua useasta eri järjestelmästä ja eri muodoissa. R-kielen voi upottaa esim. C-kieleen, joka mahdollistaa R:n käytön C-kielisessä ohjelmassa. R:llä pystyy myös kommunikoimaan joidenkin tietokantojen kanssa.
- Nopeus; R käsittelee dataa nopeasti, mutta toisinaan ainoana pullonkaulana on koneessa olevan muistin määrä.
- Hinta; R on ilmainen
R-ohjelman heikkouksia:
- Käyttäjän lähtötaso; Käyttäjän tulee tietää R:ää käytettäessä mitä hän on tekemässä. R:n sujuva käyttäminen vaatii perus-syntaksin opettelun sekä tietämystä menetelmistä. R:n kaikissa funktioissa ei ole otettu huomioon esim. muuttujien laatua, joka voi vaikuttaa saatuihin tuloksiin. R:n käytössä vastuu on käyttäjällä!
- Käyttöliittymä; Kunnollisen graafisen käyttöliittymän puuttuminen, tosin sellaisen kehittely on meneillään.
- Integrointi; R:n integrointi yritystason BIDW-ratkaisuihin ei ole täysin suoraviivaista.
- Suuret aineistot; Vaikka R käsittelee dataa nopeasti, voi todella suurten aineistojen tilanteessa tulla ongelmia. Ongelmaa voidaan kuitenkin yrittää ratkaista koneen muistia lisäämällä.
R-ohjelman voit ladata: http://cran.at.r-project.org/banner.shtml
RapidMiner
RapidMiner on erityisesti tiedon louhintaan keskittyvä open source-ohjelmisto, joka pystyy hakemaan ja käsittelemään suuria aineistoja eri tietolähteistä haettuna. RapidMinerin käyttö perustuu graafiseen käyttöliittymään, jota on helppo oppia käyttämään.
RapidMinerin vahvuuksia:
- Intuitiivisuus; Analyyttisen prosessin muodostaminen graafisessa käyttöliittymässä on intuitiivista ja helppoa myös kokemattomalle käyttäjälle.
- Käyttäjän lähtötaso; Käyttäjän ei tarvitse olla tilastotieteilijä, jotta pystyy tekemään RapidMinerin avulla tiedonlouhintaa. Menetelmistä on annettu selkeä ja lyhyt kuvaus. Lisäksi RapidMinerissä on automatisoitu menetelmän valinta kunhan käyttäjä on määritellyt aineistonsa (tätä ei kuitenkaan voi suositella sokeasti käytettävän).
- Integrointi: RapidMiner voidaan integroida täysin yritystason BIDW-ratkaisuihin.
-
Rajapinnat; RapidMiner kykenee lukemaan (ja kirjoittamaan) aineistoja lukuisista eri tiedostoformaateista ja kaikista yleisimmistä tietokannoista.
- Menetelmäkirjastot: RapidMinerissa on itsessään laajat menetelmäkirjastot ja niitä voidaan laajentaa esim. WEKA ja R -kirjastoilla.
- Graafiset tarkastelut; RapidMiner mahdollistaa hyvät graafiset tarkastelumahdollisuudet aineistolle sekä analyysin tuloksille.
- Hinta; RapidMinerin kaupallinen versio tulee normaalisti selvästi kilpailijoita edullisemmaksi.
RapidMinerin heikkouksia:
- Tuotetuki; Täyden tuotetuen ja parempien rajapintojen saaminen edellyttää kaupallisen version ostamista.
- Aineiston muokkaus; RapidMinerissa ladatun aineiston perusmuokkaus on hidasta ja työlästä. Tältä kuitenkin vältytään, jos aineiston muokkaamisen tekee esimerkiksi ETL-prosessissa (tietovarasto) ennen kuin data siirretään RapidMineriin.
- Pienet bugit?; Toisinaan esimerkiksi prosessikaavio näyttää loogiselta ja oikein rakennetulta eikä virheilmoituksia ole, mutta silti analyysia ei voida suorittaa. Tällöin syyn löytäminen voi kestää jonkin aikaa.
RapidMinerin voit ladata: http://rapid-i.com/
Microsoft SQL Server – Analysis Services Data Mining
Microsoftin tarjoama tiedonlouhintapaketti on kätevä ratkaisu niille, joilla on jo käytössään SQL Server-ohjelmisto (SSAS). Sinänsä tehokkaana tilastollisena työvälineenä ei tätä kyseistä pakettia voida pitää, eikä sitä tule hankkia ainoastaan tilastollisen analyysin tekemistä varten.
SSAS-DM:n vahvuudet:
- Integrointi; Koska Data Mining –paketti on osa kokonaisuutta (tietokanta, SSIS, SSAS, SSRS), niin erilaiset tiedon muokkaukset, ajoketjut ja raportointi onnistuvat vaivattomasti ja kehittäjän näkökulmasta loogisesti. Analytiikan tulokset on siis helppo ottaa käyttöön, ainakin Microsoftin omissa ympyröissä.
- Tuotetuki; Ohjelmiston käyttäjälle tarjolla tukea askarruttaviin tilanteisiin. Lisäksi ’data mining wizard’ auttaa käyttäjää analyysin tekemisessä askel askeleelta.
- Klusterointi ja association rules; Erityistä kiitosta voi antaa klusterointialgoritmista (esim. asiakassegmentointi) ja association rules-tyyppisistä (esim. ristiinmyynti, ostoskorianalyysi) analyyseistä, jotka voi suorittaa excelin kautta!
- Excel addon; Tämä lisäpiirre mahdollistaa useiden analyysien suorittamisen excelistä käsin siten, että käyttäjällä on myös data excelissä. Tulokset (esim. asiakassegmentit) luonnollisesti tulostuvat myös suoraan exceliin. Monissa tilanteissa tämä ominaisuus voisi toimia tavallisen business käyttäjän päivittäisenä työvälineenä.
- Hinta; Mikäli organisaatiossa on jo SQLServer, niin pakettia pääsee kokeilemaan ilman lisämaksuja. Kaikki ominaisuudet sisältävä paketti vaatii Enterprise version.
SSAS-DM:n heikkoudet:
- Monipuolisuus; Analyysityövälineet ja menetelmien määrä ovat suppeat (murto-osa muihin verrattuna), eikä niihin oikein pääse käsiksi. Täytyy vain valita menetelmä listasta ja toivoa parasta. Menetelmien algoritmeista on saatavana kuitenkin lyhyet kuvaukset.
- Perusjutut; Ei sisällä keinoja puuttuvien havaintojen (matemaattiseen) korvaamiseen tai edes outliereiden etsintään. Aikasarja-analyysissä itse ei voi säätää esim. ARIMA-mallien paremetrien määrää, sama juttu koskee myös neuroverkon parametreja.
- Kokonaisuus; Työhönsä vakavasti suhtautuvan data-analyytikon näkökulmasta SSAS-DM:ta ei voi pitää kiinnostavana työvälineenä, pl. eräät adhoc tyyppiset analyysit. Kokonaisuteena Microsoftilla lienee ollut tarkoitus rakentaa väline, joka yrittää päätellä ja tehdä kaiken itse. Ainakin toistaiseksi tuo tavoite on vielä valovuoden päässä.
Nämä arvioinnit perustuvat louhialaisten omiin henkilökohtaisiin kokemuksiin ko. ohjelmistojen käytöstä eri tilanteissa. Mikäli haluat tietää lisää, niin ota yhteyttä: mika.laukkanen@louhia.fi.