Svarta lådor och hallucinationer
Varför en maskininlärningsmodell ger ett visst svar kan vara mer eller mindre svårt att förstå. Komplexitet och mängden parametrar som algoritmerna nyttjar blir även i relativt små modeller snabbt omöjliga att överblicka eller förstå. Men det finns en rad verktyg att ta till för att undersöka hur modeller fungerar. För Evidens är att detta helt fundamentalt eftersom transparens och möjlighet att förklara orsak och verkan, kausalitet, nästan alltid är lika värdefullt som de analysresultat vi levererar. Efterfrågans storlek, priset, är lika viktigt som varför efterfrågan är på denna nivå.
En del metoder för att göra algoritmer mer transparenta är modellagnostiska, vilket betyder att de kan tillämpas oavsett typ av algoritm. Andra metoder är specifika för en viss sorts algoritmer och kräver ofta mer ingående förståelse för hur algoritmen fungerar för att enkelt beskrivas. Därför nöjer vi oss här med att översiktligt beskriva två modellagnostiska metoder.
Permutational importance
En första fråga att söka svar på är vilken betydelse olika variabler har för att förklara modellens resultat. En förhållandevis enkel metod är att analyser permutational importance. Antag att en regression görs med en maskininlärningsmodell där pris predikteras med elva variabler.
Första steget är att undersöka om modellen förklarar priset rimligt väl. Maskininlärningsmodeller utvärderar man helst på en delmängd av datasetet som modellen inte har tillgång till när den tränas, ett så kallat testdataset (detta görs ännu bättre med cross-validation). För testdatasetet kan modellens prediktiva förmåga undersökas genom beräkning av exempelvis R2 eller medelabsolutfel (mean absolut error, mae). Nästa steg är att slumpvis blanda alla rader för en våra indatavariabler. Därefter tränar vi på nytt modellen på vårt träningsdataset och beräknar modellens prestanda på testdatasetet. Nu kommer R2 visa att modellens prediktiva förmåga har försämrats. En stor försämring betyder att variabeln som blandades om var betydelsefull. Övriga tio variabler ges samma behandling, vilket resulterar i elva mätvärden, en per variabel, som i detta exempel visar deras betydelse för att prediktera pris. Vanligen görs den slumpmässiga omblandningen av en variabel flera gånger, vilket kan ge något olika resultat, där medelvärde och standardavvikelse ger bra bild av variablerna betydelse i modellen.
Partiella beroenden, partial dependence plot
Nästa metod för att göra den svarta lådan mer transparent försöker visa hur en förändring av en indatavariabel påverkar modellens prediktion. Likheter finns med hur koefficienterna i en linjär regression kan tolkas. Om allt annat är lika, om x förändras, vad händer då med y?
Antag ånyo att en regressionsmodell, valfri ML-algoritm eftersom metoden är modellagnostisk, förklarar pris mer tre variabler. Antag vidare att datasetet består av 50 000 observationer, vilket betyder 50 000 prisobservationer med tillhörande variabler som redovisar mätvärden för tillgänglighet, service och byggår. Första steget är att träna modellen med vårt dataset. Nästa steg är att iterativt prediktera pris med modellen för alla observationer i datasetet, men vi låter en variabel i taget anta alla värden som existerar i datsetet samtidigt som de övriga variablerna är låsta så som de ser ut i datsetet. Variabeln byggår kan till exempel variera i intervall från 1850 till 2023. För var och en av de 50 000 observationerna tillåts byggår variera i detta intervall. Resultatet är 50 000 linjer som beskriver variablernas partiella beroenden. Figuren som redovisar detta kallas för en partial dependence plot. Medelvärdet av dessa linjer är modellens partiella beroende för den undersökta variabeln. Metoden är beräkningsintensiv, men det finns smarta implementeringar som ger rimliga beräkningstider även för stora dataset.
Figuren visar det partiella beroendet mellan byggår och pris. Bilden stämmer väl med intuitionen. De minst attraktiva bostäderna har byggår från 1960 till 1980 och de högst är priserna är enligt grafen för sekelskiftes- och nyproduktionsbostäder.
Eftersom metoden är modellagnostisk kan den även tillämpas på en vanlig multipel linjär regression. Plottas det partiella sambandet för en linjär regressionsmodell går det att visa att linjes lutning, dess derivata, är nästan exakt koefficienten för variabeln i modellen.
Hallucinationer
Det är välkänt att generativ AI inte alltid är pålitlig. Ibland ges svar som presenteras som fakta men som uppenbarligen inte är sant. Fenomenet har kallats för hallucination.
Begreppet bidrar till att förmänskliga generativa AI-modeller, vilket kan ge felaktiga associationer. Enkelt förklarat är de märkliga resultaten orsakade av otillräckligt underlag för att träna modellen, mönster kan inte identifieras och ett nonsensresultat produceras. För regressionsmodeller som utvecklats med maskininlärning finns liknande problem. En prediktion med indata som ligger utanför det intervall som modellen har tränats med kan vara opålitligt. Vissa algoritmer fungerar mycket dåligt utanför kända intervall, andra något bättre. Det är alltså viktigt att känna till vilka scenarier som en modell hanterar bra och mindre bra eller till och med dåligt. Regressionsmodellen som predikterar pris i exemplet ovan, bör till exempel inte användas för att prediktera pris för bostäder med byggår efter 2023.
Relaterade uppdrag
Återbruk – En vägledning för fastighetsägare
Di: Mörka utsikter för bostadsbyggandet
Sparandetider för inträde på bostadsmarknaden – en undersökning i 15 kommuner
Bottenkänning med långsam återhämtning
Att stärka socioekonomiskt svagare stadsdelar genom breddat bostadsutbud
Åtgärder för ökat bostadsbyggande – potential för olika reformförslag
Avregleringen av hyresmarknaden i Finland
Prisfall och köpkraft på bostadsmarknaden
Överklagandet av detaljplaner
Bostadsmarknaden i ett skifte
Så bryter vi boendesegregationen
Di: Bokrisen hotar bli långdragen
Bostadsbyggandets betydelse för unga vuxna
Flyttkedjor och rörlighet på bostadsmarknaden i Skåne
Fritt fall? Stockholms bostadsbyggande de kommande åren
Politiskt ledarskap efterfrågas
Samhällseffekter av långa ledtider i plan- och bygglovsprocessen
Hem & Hyra: Stödet som ger miljonärer lägre hyra – så spenderades statens bostadsmiljarder
Tillväxt, bostadsbyggande och mark för verksamhetslokaler i Gävle
Marknadsdjup – Hur många bostäder kan man bygga?
Rapportserie ”Den svenska bostadsmarknaden”
Löpande omvärldsanalys: ”Abonnemang”
Analyser och beskrivningar till årsredovisningar
Uppföljning och utvärdering av översiktsplan
Betalningsvilja för bostäder
Marknadsanalys bostäder Kvarnholmen
Marknadsanalys Nacka
Sverigeförhandlingen
Barnkonsekvensanalys i södra Stockholm
Medborgardialog och barnkonsekvenser i Fagersjö
Vad kostar det att bygga en ny stadsdel?
Modell och principer för exploateringsersättning
Framgångsrik marktilldelning i Växjö
Ekonomiska förutsättningar vid stadsutveckling i Lund
Ekonomiska villkor och affärsupplägg
Strategi för utveckling av Karlslund
Strategi för utveckling av kvarteret Platinan
Marknadsföring mot investerarmarknaden
Utveckling av försäljningsprospekt
Varumärkesstudie för bostadsutvecklare
Varumärkesmätning bostadsområde
Hantering av konflikter och olikheter
Individuell ledarutveckling
Organisationsutveckling för ökat bostadsbyggande
Sammanslagning av organisationer
Förändringsledning med sammanslagning
Verksamhets- och kvalitetsutveckling i Stockholms stad
Ledarskapsutveckling för privat byggföretag
2016: Effekter av ytterligare kreditrestriktioner för hushållen
2016: Effekterna av ett skuldkvotstak
Affärsplan för fastighetsföretag
2016: Utvärdering av Riksbankens penningpolitik 2010-2015
2011: Staten som fastighetsägare och hyresgäst, SOU 2011:31
2014: Hushållens förväntningar på bostadsprisutvecklingen
Nöjd Stadsdels-Index, NSI
Ledningsstöd
2013: Har Sverige en bostadsbubbla?
2015: Utan finansiering stannar bostadsbyggandet
2015: Den bedrägliga skuldkvoten
Strategi för utvecklingen av Mariehäll i Bromma
Affärsplan för utveckling av fastighet på Lidingö
Intäktspotential vid stadsutveckling
Fotografiska – fastighetsutveckling
Stadsutvecklingsprocess för Wättingeområdet i Tyresö
2017: Långsiktiga effekter av att äga och hyra sin bostad
2017: Trångboddhet i Sverige
Nyproduktion av studentbostäder
Marknaden för studentbostäder
Strategi för ägarlägenheter
Val av nya geografiska marknader
Att outsourca eller inte?
Affärsplan med syfte att attrahera nya kunder
Affärsrådgivning till internationell investerare
Investeringsstrategi för institutionell fastighetsägare
Kundsegmentering
Strategi för ägandet av Lidingöhem
Betalningsvilja för våningshöjd
2015: EU och kommunernas bostadspolitik, SOU 2015:58
DN: Samhällsviktiga grupper har inte råd att bo i Stockholm
Flyttkedjor och rörlighet på bostadsmarknaden
DN Debatt: Sänk amorteringskraven så att unga får råd med villa
Nyproduktion i särskilt utsatt område gav positivt resultat
Politiken är kluven kring äldres boende
Bostadsmarknaden för äldre – rörlighet, preferenser och betalningsvilja
Hushållens värderingar av läges- och bostadskvaliteter på bostadsmarknaden i Stockholm
Di: Trendbrott på bostadsmarknaden – nu måste byggbolagen tänka nytt
Effekter av fri hyressättning i nyproduktionen i mindre och medelstora kommuner
Utvärdering av investeringsstöd till nya hyresbostäder
Megatrender och en svart svan
Di: Borallyts bittra baksida – de missade gräddfilen: ”Unga har drabbats hårt”
En halvering av p-talet kan öka nyproduktionen av bostäder i Stockholms län med 20%
Di: Hyresras när företagen överger kontoren: ”Orolig för en efterfrågechock”
Efterfrågan på nya bostäder i Stockholmsregionen
Gasa mer nu när det är kris
Bostadsglappet i Skåne. Analys av hushållens möjlighet att hyra eller köpa bostäder i Skåne.
Var det värt det?
Ny Evidens-rapport visar på mycket svagt samband mellan beviljat investeringsstöd och bostadsefterfrågans styrka
Missförstånd, överdrifter och rena felaktigheter
Modell för startlån – principer och effekter
Finansiella förutsättningar för ökat byggande av hyresbostäder
Modell för bostadsefterfrågan i Skåne
Effekter av kreditbegränsningar för unga förstagångsköpare
Vem skall finansiera framtidens bostäder?
Hur vill studenter bo, hur mycket vill de betala och hur många studentbostäder kan vi bygga?
Fortsatt realistiska förväntningar om prisutvecklingen på bostadsmarknaden – Sverige allt längre från en bostadsbubbla
Läge för kontorslokaler – Mölndal
Käppar i hjulet?!
JLL-Evidens Residential Market Index
Långsiktiga effekter av att äga och hyra sin bostad
Värdeskapande stadsutveckling – Stadskvalitetstudie i Göteborg
Trångboddhet i Sverige
Effekterna av ett skuldkvotstak
Den bedrägliga skuldkvoten
Utan fungerande finansiering stannar bostadsbyggandet
Är hushållens förväntningar på bostadsmarknaden orealistiska?
Om hushållens skuldsättning och bostadsmarknaden
Bostadsbubbla?
Värdering av stadskvaliteter – tre studier
Vill du veta mer om Svarta lådor och hallucinationer?
Vi berättar gärna mer om vårt affärsområde Svarta lådor och hallucinationer. Maila direkt via länken till höger.