Aikasarjat
Aikasarjat monelle lienee tuttu käsite, aikasarjoja esiintyy viikottain esimerkiksi useissa lehdissä, webbisivuilla ja talousuutisissa. Jos kuitenkin aikasarjat eivät ole sinulle tuttuja voidaan lyhyesti sanoa, että aikasarja on jonkin ilmiön (esim. pörssikurssi) ilmenemistä ajan suhteen mitattuna. Itse aikasarja-analyysi on tilastotieteen osa-alue, jossa pääpainona on usein miten löytää tarkastelevan sarjan generoima yleisempi (stokastinen) prosessi, jonka teoreettisia ominaisuuksia tunnetaan entuudestaan. Kuitenkin businessmaailmassa pääpainona ovat ennusteiden tekeminen tulevaisuuteen, sekä ennusteiden uskottavuuden estimointi, hieman teorian antamien raamien ulkopuolella.
Jos olet kiinnostunut aikasarjan analysoimisesta ja ennustamisesta antaa tämä blogi sinulle muutamia alkuaskelia, sekä ymmärrystä yksinkertaisen aikasarjan rakenteesta. Blogin teoreettinen sisältö, eksaktius ja optimaalisuus on jätetty “kotikokki” tasolle.
Blogin tarkoitus on esitellä aikasarjan “AD HOC” dekomponointi, jolla saamme melko hyvän kuvan aikasarjan komponenttien rakenteesta; trendi, kausivaihtelu, jäännökset. Kätevimmin aikasarjan dekomponoinnin saa tehtyä valmiilla R-ohjelman funktiolla stl, joka tekee dekomponoinnin automaattisesti LOESS-menetelmän avulla.
Aikasarjan formulointi
Käsittelemme blogissa esimerkkiä, jonka aikasarja on additiivinen, joka koostuu seuraavasti komponenteista:
Y(t) = T(t) + S(t) + R(t), missä
- Y(t) on tarkasteltava aikasarja,
- T(t) on trendikomponentti,
- S(t) on kausikomponentti,
- R(t) on satunnaisvaihtelun komponentti, ajan hetkellä t.
Se miksi ylhäällä mainittua aikasarjaa Y(t) kutsutaan additiiviseksi johtuu siitä, että sillä on summamuotoinen rakenne. Lisäksi estimoinnissa oletamme, että komponentit ovat (likimain) riippumattomia toisistaan. Vertailun vuoksi mainittakoon multiplikatiivinen aikasarjan rakenne
M(t) = MT(t) * MS(t) * MR(t).
Multiplikatiivinen aikasarja tulee tunnistaa ennen aikasarjan tarkempaa analysointia, jolloin voimme aikasarjan alkuaskelissa tehdä esimerkiksi logaritminen-muunnos, joka palauttaa aikasarjan additiiviseksi
m(t)=log(M(t)) = log(MT(t)) + log(MS(t)) + log(MR(t)).
Pitääksemme kirjoituksen sisällön ymmärrettävällä tasolla, oletamme additiivisuuden lisäksi ettei aikasarja sisällä satunnaisia mainoskamppanjoiden vaikutuksia tai muita epäsäännöllisiä tekijöitä, jotka vaikuttavat aikasarjan ”luonnolliseen” käyttäytymiseen esim. virheellinen aineisto.
Seuraavassa kuvat blogissa käsiteltävästä aikasarjasta (vasemmalla), sekä esimerkki multiplikatiivisesta aikasarjasta (oikealla).
Graafit
Käsiteltävä aikasarja
“AD HOC”- ratkaisu
Tässä kappaleessa käymme läpi selkeän ja loogisen tavan estimoida tuntemattomat aikasarjan komponentit: T(t), S(t) (ja R(t)).
Askel 1:
Trendikomponentti T(t) voidaan estimoida aikasarjasta Y(t) esimerkiksi lineaarisen regression tai liikkuvan keskiarvon menetelmän avulla. Lineaarinen regressio tuottaa trendikomponentin suoran yhtälön muodossa, jolloin estimoitavana on suoran kulmakerroin ja lähtötaso. Mikäli aikasarjassa ei ole selkeää ”suuntaa” koko tarkasteluvälin ajan voi käyttää liikkuvan keskiarvon menetelmää. Liikkuvan keskiarvon menetelmän liukuma tulee määrittää aikasarjan “käytöksen” tai liiketoiminnan näkökannan avulla. Esimerkkiaineistomme muodostuu vuosittaisista kvartaaleista, joten luonnollinen valinta liukuvan keskiarvon liukumalle on 4 kvartaalia (4:n havaintopisteen liukuva keskiarvo, 1 vuosi).
Seuraavassa kuvat estimoiduista trendeistä; lineaarinen ennuste punainen ja liukuvan keskiarvon ennuste sininen. Käytämme jatkossa lineaarisen regression antamaa trendin ennustetta.
Askel 2:
Koska esimerkkiaineistossa oletimme, että aikasarjamme Y(t) on additiivinen, aloitamme kausikomponentin S(t) estimoinnin poistamalla aikasarjasta estimoidun trendin T*(t), jolloin jäljelle jäävät kausivaihtelu- ja jäännöskomponentti:
Y(t)-T*(t)=S(t) + R(t).
Nyt voimme helpoimmin estimoida kausivaihtelun ottamalla kvartaalittaiset keskiarvot (4 kpl sarakekeskiarvoja) ja toistamalla saatua keskiarvovektoria läpi tarkasteluajan. Tuloksena saamme kausivaihtelukomponentin (vuosittainen kausivaihtelu vakio läpi tarkasteluajan).
Askel 3:
Jäännöskomponentti saadaan jälleen vähentämällä aikasarjasta Y(t) jo estimoidut komponentit T*(t) ja S*(t)
Y(t) – T*(t) – S*(t) = R(t).
Alkuperäinen aikasarja saadaan summaamalla edellä estimoidut komponentit T*(t), S*(t), R*(t) keskenään (aikasarja additiivinen). Nyt kun aikasarjan komponentit on estimoitu on esimerkiksi lyhyiden myyntiennusteiden tekeminen helppoa. Esimerkiksi, jos haluaisimme ennustaa vuoden 1981 ensimmäisen kvartaalin Q1(1981) myyntiennusteen saadaan se seuraavasti (tässä oletuksena, että trendi on estimoitu lineaarisen regression avulla, huom! vaikuttaa myös muiden komponenttien estimaatin arvoihin).
T*(1981) =-325.5476 + 0.1668*1981 , S*(1981)=0.01090243
Y*(1981)=T*(1981) + S*(1981)=4.88,
vertailuna Y(1980)=4.79.
Vertailtavana dekomponointina R-ohjelman stl-funktion (LOESS-menetelmä) antamat graafit aikasarjan komponenttien estimaateista.
Mitä hyötyä ja etuja “AD HOC”/dekomponoinnista on?
- Helppo implementoida esimerkiksi EXCEL:iin,
- Antaa lisäymmärrystä aikasarjan komponenteista,
- Auttaa manuaalisten ennusteiden tekemisessä,
- Hyvä lähtökohta esimerkiksi ARIMA-mallien luomiselle.
EXTRA: Kuinka tarkistaa dekomponoinnin “onnistuminen” R-ohjelmalla?
Aikasarjan dekomponointi näyttää yleensä hyvältä silmämääräisesti, kuitenkin vasta tilastolliset tarkastelut kertovat todellisen komponoinnin onnistumisen. Tähän on R-ohjelmassa helposti käytettävät autokorrelaatioita laskevat funktiot acf ja pacf. Yleinen oletus tilastotieteessä on se, että jäännökset (tässä tapauksessa jäännöskomponentti) ovat korreloimattomia. Funktiot acf ja pacf laskevat autokorrelaatiot jäännöksistä erikokoisilla viiveillä, esimerkin tapauksessa riittänee 0-4 aikayksikköä. Mikäli acf- ja pacf-funktioiden antamista graafeista ilmenee, että autokorrelaatiot viiveillä 0.25,0.5,0.75,1 (kvartaalit) eivät ole tilastollisesti nollasta poikkeavia voidaan dekomponointia pitää hyvin onnistuneena. Huomioitavaa on, että yleensä tälläiseen optimaaliseen tilanteeseen ei päästä suoraan, eikä pidäkkään tuhlata merkittäviä työmääriä sen saavuttamiseen. Se kun on nyt vaan niin, että tosielämässä kaikki ei mene aina kuten Miedolla Innsbruckissa 1976.