Synteettinen data on mallinnuksen avulla tuotettua aineistoa, joka jäljittelee alkuperäisen datan keskeisiä ominaisuuksia ilman, että yksittäiset henkilöt ovat tunnistettavissa. Sitä voidaan hyödyntää muun muassa opetuksessa, menetelmien testauksessa ja tuotekehityksessä.
Tässä Statistiikan aalloilla -podcastin jaksossa studioisäntä Markus Riskumäki haastattelee väitöskirjatutkija Katariina Perkonojaa synteettisen potilasdatan mahdollisuuksista ja rajoitteista. Keskustelu keskittyy erityisesti pitkittäisaineistoihin, joissa samoja potilaita seurataan ja mitataan useaan otteeseen ajan kuluessa. Jaksossa pohditaan, miksi anonymisointi on keskeinen motiivi synteettisen datan käytölle sekä tarkastellaan kehityssuuntia ja uusia generointimenetelmiä, kuten kielimalleja.