02.09.2014

Asiakaspoistuma-analyysin vaiheet RapidMinerilla

Kirjoitelma on jatkoa Asiakaspoistuma-analyysi ja miljoona lisämyyntiä blogiketjun avaukselle. Kirjoitelmassa käydään läpi asiakaspoistuma-analyysin suorittamisen vaiheet poikkileikkausaineiston tapauksessa. Yleisesti sanottakoon, että asiakaspoistuma-analyysin suorittaminen Rapidminerilla on melko vaivatonta ja nopeaa. Allekirjoittaneen mielestä Rapidminer lukeutuu markkinoiden parhaisiin ja nopeimmin oppittaviin analytiikkaohjelmistoihin erityisesti luokittelutyyppisien ongelmien osalta.

Esiteltävät poistuma-analyysin vaiheet eivät ole suinkaan ainoat mahdolliset, tarkoituksena on antaa yksi käyttökelpoinen runko analyysin suorittamiselle.

Poikkileikkausaineiston tapauksessa voidaan yleensä noudattaa seuraavaan kaavion mukaista etenemismallia:

kaavio

 

Esimerkkiaineisto sisältää tietoja teleoperaattorin asiakkaista (liittymistä). Lähdeaineiston yksittäinen rivi vastaa yhtä liittymää, liittymäkohtaisia selittäviä muuttujia ovat mm. kuukausitasolla keskimääräinen laskutus päivä-/ilta-/yöpuheluista, liittymän omistajan asiakkuuden kesto ja asuinalue, sekä soitot asiakaspalveluun (lukumäärä). Kiinnostuksen kohteena oleva vastemuuttuja Poistunut on binomiaalinen, joka siis kertoo onko asiakas poistunut, Kyllä/Ei. Emme ota kantaa siihen kuinka poistunut asiakas on tunnistettu poistuneeksi. Joillakin toimialoilla poistuman tunnistaminen saattaa olla hyvinkin haastavaa.

Asiakaspoistuma_datasetti

 

 

 

Seuraavaksi esitellään reseptinomainen 8 osainen ohje poistuma-analyysin suorittamisesta (poikkileikkausaineistosta) Rapidminerissä.

 

1. Tarkastele muuttujien(RM: attributesmetatietoja ja jakaumia tulosnäkymän avulla, kiinnitä huomiota seuraaviin seikkoihin

Esim 1. Luetaan poistuma-analyysiä varten muodostettu aineisto tietokannasta ja tarkastetaan aineiston metatiedot, sekä tehdään muuttujien metatietojen pohjalta tarvittavat tyyppien ja roolien korjaukset.

kuva1kuva2kuva3

  2. Tee vaiheen 1. mukaisien havaintojen perusteella korjauksia aineistoon

Esim 2. Esimerkkiaineistossa ei ilmene tarvittavia toimenpiteitä puuttuvien havaintojen osalta. Seuraavassa kuitenkin mainittuna operaattoreita, joita voisi hyödyntää mainituissa ongelmakohdissa:

Rapidminerissa operaattorikohtaisessa selosteessa on yleensä myös linkki esimerkkiprosessiin, josta voi ottaa mallia operaattoreiden käytöstä ja toiminnallisuudesta.

3. Pohdi mitkä muuttujat voisivat olla liiketoimintaongelmasi kannalta järkeviä/oleellisia ja tarkastele muuttujien välisiä korrelaatioita

Esim 3. Korreloituneiden selittävien muuttujien etsiminen ja aineiston selittävien muuttujien redusointi. Aineiston korrelaatiorakennetta tarkastettaessa huomataan, että puhutut minuutit ja puheluista kertyneet euromäärät korreloivat täysin keskenään (kaikilla liittymillä kiinteä minuuttihinta, ei sykäysmaksuja).

kuva4

 

4. Jaa aineisto opetus- ja testiaineistoksi

Esim 4. Jaetaan aineisto opetus- ja testiaineistoksi suhteessa 70%/30%. Käytetään split-data-operaattorin “stratified-sampling” ominaisuutta, joka pitää vastemuuttujan “Poistunut” jakauman samana molemmissa aineistoissa.

 

kuva5

 

 

5. Valitse kilpailevia mallinnusmenetelmiä 2-luokkaisen vasteeseen sovellettavien menetelmien joukosta

Esim 5. Koska luokitteluongelma on 2-luokkainen, valitaan kilpaileviksi malleiksi päätöspuu ja logistinen regressio (operaattorit W-J48 ja W-Logistic), joista molemmat menetelmät antavat tietoa selittävien muuttujien yksittäisistä vaikutuksista vasteeseen.

 

6. Suorita mallinvalinta ristiinvalidoinnin avulla

1. Halutaan arvioida ennustevirhe mahdollisimman tarkasti: Valitse suuri ristiinvalidoinnin osajoukkojen lukumäärä, X>=10

2. Halutaan opettaa mallit mahdollisimman hyvin: Valitse pieni ristiinvalidoinnin osajoukkojen lukumäärä, X<=10

3. Yleensä kultainen keskitie (“hiharavistus”), X=10

Esim 6. Compare-ROCs-operaattorin käyttäminen. Operaattori tekee automaattisesti ristiinvalidoinnin ja laskee keskimääräiset ROC-käyrät molempien menetelmien osalta. ROC-käyrien vertailun perusteella päätöspuulla on parempi luokittelukyky, joskin ennustetarkkuuden vaihtelu on suurempaa.

 

 

compare_rocs

Näkymä Compare ROCs-operaattorin sisältä

inside_compare_rocs

 

7. Laske mallin odotettutarkkuus testiaineiston avulla

kuva7

 

8. Tulkitse ja tallenna mallisi automatisoitua prosessia varten

Esim 8. Mallin voi tallentaa Store- tai Write Model-operaattoreilla ja mallin voi ladata Retrieve-operaattorilla repositorysta tai Read Model-operaattorilla erillisestä malli-tiedostosta. Kuvissa mallin soveltaminen uuteen aineistoon (oletus, että uudelle aineistolle on tehty jo vastaavat muuttujien muunnokset kuin opetusvaiheessa), estimoidun päätöspuun rakenne (tulkinta), sekä tulosnäkymä mallin sovelluksesta (luokkatodennäköisyydet/confidencet).

rm_applier
kuva8

Asiakaspoistuma_uudet_asiakkaat

 

Lista poistumatodennäköisyyksistä (confidence-sarake ja ID-sarake) voidaan viedä esimerkiksi CRM-järjestelmää, joka kertoo kontaktoitavien asiakkaiden prioriteetit. Todennäköisyyksien avulla pystytään lisäksi arvioimaan moniko asiakas tulee poistumaan summaamalla poistumatodennäköisyydet yhteen.

 

Share
Contact Person

Blog writer

Lasse Liukkonen