We zijn verheugd aan te kondigen dat de paper Debiasing Synthetic Data Generated by Deep Generative Models, uitgevoerd als onderdeel van het SYNDARA-project, is geaccepteerd voor NeurIPS 2024! Dit gezamenlijke werk van dr. Alexander Decruyenaere, dr. Heidelinde Dehaene, beiden leden van HINT.GENT, en prof. Stijn Vansteelandt heeft bovendien de Best Poster Award gewonnen op de jaarlijkse bijeenkomst van de Royal Statistical Society of Belgium in 2024.
Naarmate de behoefte aan het delen van data toeneemt, met name in gezondheidsonderzoek, wordt ook de uitdaging om privacy te waarborgen steeds groter. Synthesische data, die de statistische eigenschappen van gevoelige datasets repliceren zonder individuele gegevens prijs te geven, zijn naar voren gekomen als een veelbelovende oplossing. Echter, deze data zijn niet zonder gebreken: wanneer ze worden gegenereerd met deep generative models (DGMs), kunnen aanzienlijke bias en onnauwkeurigheden hun betrouwbaarheid voor statistische analyses ondermijnen.
Belangrijke Uitdagingen bij Synthesische Data-analyse
In ons eerdere werk (uitgelicht op UAI 2024) hebben we aangetoond hoe DGMs substantiële bias en onnauwkeurigheid kunnen introduceren in de analyse van synthesische data, wat leidt tot verhoogde type 1 foutpercentages (oftewel meer valse positieven). Dit ondermijnt de inferentiële betrouwbaarheid van synthesische data in vergelijking met analyses op originele datasets. Bestaande methoden die de onzekerheid in synthesische data in rekening brengen, schieten vaak tekort omdat ze de effecten van regularisatiebias door DGMs over het hoofd zien.
Een Nieuwe Debiasing-strategie
Om deze uitdagingen aan te pakken, hebben we een innovatieve strategie ontwikkeld die specifiek gericht is op het corrigeren van bias in synthesische data gegenereerd door DGMs. Deze aanpak heeft tot doel de nauwkeurigheid van statistische analyses te herstellen, zelfs voor ogenschijnlijk eenvoudige parameters zoals het populatiegemiddelde.
Onze volledige bevindingen zijn beschikbaar in de paper op arXiv.
Over het SYNDARA-project
Dit werk maakt deel uit van het SYNDARA-project (SYNthetic DAta for Research Acceleration), een samenwerking tussen het Universitair Ziekenhuis Gent en de Universiteit Gent. Het project bundelt de expertise van het team Data-analyse en Statistische Wetenschappen en IDLab, ondersteund door een toegewijd onderzoeksteam (SYNDARA Team).
Door de beperkingen van huidige synthesische datamethoden aan te pakken, effent dit onderzoek het pad voor robuustere en privacyvriendelijke oplossingen in data-gedreven onderzoek. Blijf op de hoogte voor meer updates van SYNDARA!
