Menetelmä­ku­vaus: Miten pääkaupun­ki­seu­dun asuinalueet segmentoitiin tekoälyn avulla

Ihmisten asuinaluevalintoihin liittyen, toteutimme yhteistyössä Kiinteistömaailman ja Avaran kanssa tutkimushankkeen, jossa ryhmittelimme nykyaikaisia koneoppimismenetelmiä hyödyntäen pääkaupunkiseudun asuinalueet seitsemään omaleimaiseen segmenttiin. Tutkimuksen mahdollisti Kiinteistömaailman ja Avaran koostama laaja ja hyvälaatuinen data-aineisto alueen muuttoliikkeistä. Aineisto käsitti yli 125 000 muuttoa 2000-luvun vaihteesta lähtien.

menetelmakuvaus-kiinteistomaailma-avara-ecraft.jpg

Tässä blogikirjoituksessa kuvataan tarkemmin hankkeessa käytetty menetelmä, jolla todelliseen muuttoliikenteeseen ja tilastoihin perustuen supistettiin pääkaupunkiseudun asuinalueet ensiksi listaksi numeroita ja sen jälkeen ryhmiteltiin osaksi seitsemänluokkaista asuinalueryhmittelyä.

Tavoitteena ryhmitellä pk-seudun asuinalueet tekoälyn avulla seitsemään omaleimaiseen luokkaan

Tavoitteena projektissa oli saada kone ryhmittelemään pääkaupunkiseudun asuinalueet seitsemään omaleimaiseen luokkaan, jossa yhden luokan sisällä olevat asuinalueet ovat keskenään samankaltaisia ja mahdollisimman erilaisia suhteessa muiden luokkien asuinalueisiin. Tämän ryhmittelyn tarkoituksena oli jäljitellä sitä, miten ihmiset todellisuudessa ryhmittelisivät asuinalueita.

Tämänlaista ryhmittelyä ei kuitenkaan ole mahdollista tehdä pelkän postinumeron perusteella, vaan ryhmittelyn täytyy perustua asuinalueen ominaisuuksiin, jotka ovat ihmisille asumisen kannalta merkityksellisiä. Esimerkkinä tällaisista asumisen kannalta merkityksellisistä ominaisuuksista, joiden merkitys ihmisille on olennaista, ovat vaikkapa lapsiperheiden määrä alueella ja alueen hintataso. Projektissa oli siis keksittävä tapa pisteyttää asuinalueiden eri ominaisuudet sen mukaan, miten tärkeitä yksittäiset ominaisuudet ovat muuttopäätöstä tehtäessä.

Mitä tietoa asuinalueiden ominaisuuksista sitten on saatavilla? Tilastokeskuksen ylläpitämä Paavo (Postinumeroalueittainen avoin tieto) -tietokanta pitää sisällään 104 postinumeroalueeseen liittyvää tilastoitua ominaisuutta. Nämä tilastoidut ominaisuudet sisältävät tietoja mm. alueen sijainnista kartalla, alueen väestön ikäjakaumasta, koulutustasosta, tulotasosta, talouksien tyypeistä, asumismuodoista, rakennuskannasta, työpaikoista ja ihmisten pääasiallisesta toiminnasta. Näiden tietojen lisäksi käytettiin eCraftin omaa tietokantaa postinumeroalueiden tarkemmasta rakennuskannasta ja alueen kiinteistöjen hintatasosta.

Opetettu koneoppimis­mal­li kertoo, mitkä asuinalueen ominaisuudet tärkeimpiä

Vaikka hankkeen ryhmittelyyn valitut asuinalueen ominaisuudet eivät varmasti ole kaiken kattavia, vaan niistä puuttuu useita monille henkilökohtaisesti tärkeitä asuinalueen ominaisuuksia, kuten esimerkiksi luonnonläheisyys, vesistöjen läheisyys, alueen palvelut, alueen ”brändi” ja muita vastaavia asioita. Tulimme kuitenkin siihen tulokseen, että näiden kahden lähteen ominaisuuksien pohjalta merkityksellinen luokittelu on mahdollista ja jokaisen asuinalueen luonne pystyttäisiin määrittelemään riittävällä tasolla.

Asuinalueen ominaisuuksien tärkeyden pisteytykseen ideoitiin erinäisiä menetelmiä eCraftin AI-tiimin kanssa. Lopulta päädyimme ratkaisuun, jossa opetetaan koneoppimismalli ensin ennustamaan muuttoja postinumeroalueiden välillä alueiden ominaisuuksien perusteella. Kun malli on koulutettu datalla ihmisten muuttoliikkeistä, malli osaa itse kertoa eri asuinalueiden ominaisuuksien tärkeyden muuttotapahtumien ennustamiselle. Malli siis kertoo, mitä asuinalueen ominaisuuksia se pitää kaikista tärkeimpinä ennustaessaan, muuttaako ihminen paikasta toiseen.

Kun asuinalueen ominaisuudet olivat pisteytetty sen perusteella, mikä näyttää vaikuttavan eniten ihmisten muuttoon alueelta toiselle, voitiin näitä pisteitä käyttää painokertoimina yksinkertaiselle K-means -klusterointialgoritmille. Tämä algoritmi ryhmitteli asuinalueet ominaisuuksien ja niiden painoarvon perusteella haluttuun määrään erilisiä luokkia.

Lähtökohtana tieto muuttoliik­keis­tä -asuinalueryh­mit­te­lyn työvaiheet ja tekninen toteutus

Koko hankkeen lähtökohtana oli Kiinteistömaailman ja Avaran hallinnoimat datamassat. Datamassojen avulla oli mahdollista selvittää merkittävä osa suomalaisten muuttoliikkeistä postinumeroalueelta toiselle viimeisimpien vuosikymmenien ajalta. Lähtödata sisälsi siis tiedon muuton lähtöpostinumeroalueesta sekä kohdepostinumeroalueesta.

 

Projekti sisälsi monta eri työvaihetta. Alla olevassa kuvassa on esitetty asuinalueryhmittelyn lopullisen toteutuksen työvaiheet.

Fellowmind_asuinalueryhmittelyn+työvaiheet.png

Data:

  • Koska lähtödatassamme oli vain toteutuneita muuttoja, niin sanottuja positiivisia tapauksia, täytyi meidän keksiä tapa generoida myös ei-toteutuneita muuttoja mallinnusvaihetta varten. Tämä toteutettiin yksinkertaisesti luomalla jokaista toteutunutta muuttoa kohden yksi ei-toteutunut muutto samalta lähtöalueelta, mutta valitsemalla kohdealueeksi satunnainen kohdealue koko toteutuneiden muuttojen datamassasta. Tämän seurauksena aikaansaatu data sisälsi noin 125 000 datapistettä todellisia muuttoja ja 125 000 datapistettä ei-toteutuneita muuttoja.

Ominaisuudet:

  • Seuraavassa vaiheessa alueiden postinumerot korvattiin aiemmin esitellyillä alueiden ominaisuuksilla. Nyt siis datassamme ei ollut enää jäljellä lainkaan tietoa, mikä on muuton lähtö- ja kohdepostinumero, vaan yhtä muuttoa alueelta toiselle kuvattiin noin 150 lähtöpostinumeroalueen ominaisuudella ja 150 kohdepostinumeroalueen ominaisuudella. Yhteensä siis noin 300 ominaisuutta kuvasi yhtä muuttotapahtumaa. Tämän lisäksi datassa oli merkintä siitä, oliko kyseinen tapahtuma toteutunut vai ei-toteutunut muutto.

  • Helpottaaksemme mallin työtä, suuri osa alkuperäisistä noin 300 ominaisuudesta korvattiin tapauskohtaisesti laskennallisilla erotus- ja suhdeominaisuuksilla. Kun esimerkiksi alkuperäisissä ominaisuuksissa lähtöalueen asuinrakennuksen keskimääräinen neliöhinta olisi voinut olla 3600 euroa ja kohdealueen neliöhinta 3721 euroa, olisi nämä korvattu ominaisuudella ”lähtö- ja kohdealueen neliöhintojen erotus”, jonka arvoksi tässä tapauksessa olisi tullut 121 euroa. Mikäli tässä tapauksessa ominaisuus ”lähtö- ja kohdealueen neliöhintojen suhde” olisi koettu sopivammaksi, olisi arvo ollut ( 3721 € )/(3600 €)= 1,034… . Tämän operaation seurauksena opetusdatamme ei enää siis sisältänyt absoluuttisia lähtö- ja kohdealueen ominaisuuksia, vaan lähtö- ja kohdealueiden välisten ominaisuuksien erotus- ja suhdelukuja.

Malli ja painoarvot:

  • Kun opetusdata oli valmis, annettiin se puupohjaisen LightGBM -mallin pureksittavaksi. Mallin tehtävänä oli aiemmin luodun opetusdatan perusteella oppia ennustamaan, miten todennäköisesti muutto yhdeltä postinumeroalueelta toiselle toteutuu. Malli pystyi noin 92–95 prosentin ennustetarkkuuksiin, käytettävistä mallinnusparametreista riippuen. Tässä tapauksessa emme kuitenkaan olleet kovin kiinnostuneita mallin ennustetarkkuudesta vaan ominaisuuksista, joiden perusteella malli luo ennusteensa. Oletimme, että samat ominaisuudet, jotka ovat mallille hyvin tärkeitä, kun se ennustaa tapahtuuko muutto alueelta toiselle, ovat tärkeitä myös muuttaville ihmisille.

  • LightGBM -mallin ominaisuuksien tärkeyspisteet, ”feature importance”, otettiin ulos mallista ja näistä valittiin noin 30 tärkeintä ominaisuutta luokittelua varten. Ominaisuuksien tärkeyspisteet skaalattiin välille 0–1, jolloin arvon 1 saanut ominaisuus oli mallille tärkein ja arvon 0 saanut ominaisuus täysin turha ennusteelle.

Klusterointi ja lopputulos:

  • Klusterointia, eli asuinalueiden ryhmittelyä, varten asuinalueiden alkuperäisistä ominaisuuksista valittiin vastaavat noin 30 tärkeintä ominaisuutta aiemmalle mallille. Esimerkiksi yksi tärkeimmistä ennustemallin ominaisuuksista oli ”lähtö- ja kohdealueen neliöhintojen suhde”, joten ryhmittelyyn valittiin ominaisuudeksi ”asuinalueen neliöhinta” alkuperäisistä ominaisuuksista.

  • Klusterointialgoritmia varten kaikki valitut ominaisuudet normalisoitiin standardinormaalijakaumaan. Tämän jälkeen ominaisuudet kerrottiin aiemmin määritellyillä tärkeyspisteillä. Data syötettiin K-means constrained -algoritmille, jonka tuloksena saatiin 7-jakoinen asuinalueluokittelu pääkaupunkiseudun postinumeroalueista.

Huomioita hankkeesta – oma nykyinen postinume­roa­lue tai sen läheisyys useimmiten houkuttelevin muuttokohde

Kuten aiemmin mainittiin, alkuperäisissä asuinalueiden ominaisuuksissa oli mukana myös asuinalueen sijainti karttakoordinaattien muodossa. Lähtö- ja kohdeasuinalueen etäisyys toisistaan nousi mallin kaikista tärkeimmäksi ominaisuudeksi muuttopäätöstä tehtäessä. Asiaa tarkemmin tutkittuamme huomasimme, että ihmiset muuttavat hyvin usein oman nykyisen postinumeroalueensa sisällä tai sen välittömään läheisyyteen.

Lopputulemana päädyimme poistamaan maantieteellisen sijainnin luokitteluominaisuuksista kokonaan. Näin pystyimme välttymään ilmiöltä, jossa asuinalueluokat olisivat muodostuneet lähes täysin maantieteellisen sijainnin mukaan. Toisaalta tämä mahdollisti kaukana toisistaan sijaitsevien, ”aidosti” samankaltaisten asuinalueiden luokittelun samaan ryhmään.

Hankkeessa käytetty data on lähtöisin Kiinteistömaailman ja Avaran ihmisten muuttoa käsittelevästä tilastotiedoista. Tämä vuoksi erityisesti omistusasujat ovat tässä otoksessa hyvin yliedustettuja, mikä saattaa vaikuttaa hankkeen tuloksiin. Tutkimuksen välituloksena määritettyjen asuinalueiden ominaisuuksien painoarvojen uskotaan pätevän myös tätä data-aineistoa laajemmassa populaatiossa.

Tekoäly samassa linjassa asiantunti­joi­den näkemysten kanssa

Asuinalueiden ryhmittely on aina hyvin subjektiivista, sillä asuinalueiden ominaisuuksilla on ihmisille erilaisia merkityksiä. Vaikka tässä tapauksessa ryhmittelyn on tehnyt kone, todellisten muuttotietojen ja asuinalueiden ominaisuuksien perusteella, on tämäkin ryhmittely vain yksi näkökulma muiden joukossa.

Tämän menetelmäkuvauksen aiheena olevan asuinalueryhmittelyn toteutus on vain yksi lukemattomista tavoista tehdä vastaava dataan pohjautuva asuinalueryhmittely. Tuloksena saatu ryhmittely on tarkoitettu lähinnä keskustelun herättämiseen aiheesta, eikä suinkaan objektiiviseksi totuudeksi siitä, miten asuinalueet pitäisi ryhmitellä – sellainen ei ole edes mahdollista.

Asuinalueiden ominaisuuspreferenssien louhiminen, Suomessa toteutuneiden muuttojen perusteella, oli hyvin mielenkiintoinen haaste ratkaistavaksi datalähtöisesti. Oli hienoa huomata, että saamamme tulokset olivat linjassa myös asiantuntijoiden näkemysten kanssa.

Kiitos kaikille mukana olleille, erityisesti Kiinteistömaailman ja Avaran asiantuntijoille, avusta matkan varrella ja tulosten validoinnissa!

Käy tutustumassa tarkempaan asuinaluelistaukseen ja tunnistettuihin omaleimaisiin asuinaluesegmentteihin Kiinteistömaailman kotisivuilta.

Lähteet ja linkit:

Samuli Heikkilä

Samuli työskentelee Data Scientistin roolissa osana Artificial Intelligence -tiimiä. Hänet saa innostumaan asiakkaiden liiketoiminnan ymmärtäminen sekä sen kehittäminen datan ja koneoppimisen avulla.

Ole yhteydessä Samuliin: samuli.heikkila@fellowmind.fi.