Login de en

Potenziale erschließen: Praktische Anwendungsfälle für quantitative synthetische Daten


Vom Konzept zur konkreten Anwendung – es wird deutlich, wie diese Technologie typische datenbezogene Herausforderungen der Marktforschung löst. Die Anwendungsfälle Imputation, Augmentation, Expansion und Creation zeigen, wie durch die Erzeugung statistisch belastbarer Daten klassische Forschungsmethoden sinnvoll erweitert und angereichert werden können.

Christoph Fritsch und Fatemeh Aarabi, Produkt + Markt
In unserem ersten Beitrag zum Thema „Quantitative synthetische Daten“ haben wir das Konzept der synthetischen Daten über den Hype hinaus beleuchtet und ihr Potenzial aufgezeigt. Nun wechseln wir von der Theorie zur Praxis. Dieser Beitrag untersucht vier leistungsstarke Anwendungsfälle – Imputation, Augmentation, Expansion und Creation –, die zeigen, wie diese Technologie zur Lösung konkreter, alltäglicher Herausforderungen in der Marktforschung eingesetzt werden kann.


Wir beginnen mit einem der häufigsten Probleme: fehlenden Daten.

Imputation: Datenlücken präzise schließen

Imputation bezeichnet das gezielte Ersetzen fehlender Werte in einem Datensatz. Bei jeder realen Datenerhebung sind Lücken unvermeidlich – sie entstehen durch Befragungsabbrüche, Ermüdung der Teilnehmenden oder die schlichte Weigerung, sensible Fragen zu beantworten (Item-Non-Response). Auch wenn es naheliegend erscheint, Fälle mit fehlenden Werten einfach zu löschen, kann dieser Ansatz die statistische Aussagekraft erheblich reduzieren und, was noch kritischer ist, zu signifikanten Verzerrungen (Bias) führen, falls die Antwortausfälle nicht rein zufällig sind. Einfache Methoden, wie das Ersetzen fehlender Werte durch den Mittelwert oder Median, füllen zwar die Lücken, schaffen aber oft neue Probleme, indem sie die natürliche Varianz der Daten verzerren und die Zusammenhänge zwischen den Variablen schwächen.

Eine weitaus anspruchsvollere Lösung bietet die moderne Imputation auf Basis maschinellen Lernens. Dabei wird ein ML-Modell auf den vollständigen Daten trainiert und lernt die komplexen, multivariaten Beziehungen zwischen allen Variablen. Auf der Grundlage dieser Erkenntnisse prognostiziert es anschließend für jeden fehlenden Eintrag den wahrscheinlichsten Wert auf Einzelfallbasis. Dies erhält die ursprüngliche Datenstruktur inklusive ihrer Varianz und Korrelationen und stellt sicher, dass nachfolgende Analysen sowohl stabil als auch valide sind.

Praktisches Anwendungsbeispiel:
Stellen Sie sich eine groß angelegte Trackingstudie zur Markengesundheit vor, in der der Net Promoter Score (NPS) eine zentrale Kennzahl ist. Ein kleiner, aber nicht unwesentlicher Teil der Befragten beantwortet alle Fragen zur Markenwahrnehmung und -nutzung, überspringt jedoch die finale NPS-Frage. Würde man diese Fälle ausschließen, gingen wertvolle Daten verloren. Mithilfe der Imputation kann ein Modell auf den vollständigen Antworten trainiert werden. Es lernt, wie verschiedene Wahrnehmungsaspekte mit den NPS-Werten der anderen Befragten korrelieren. Auf Basis der spezifischen Antworten zur Markenwahrnehmung kann das Modell anschließend einen statistisch plausiblen NPS-Wert für jene Teilnehmenden prognostizieren, die die Frage übersprungen haben. Dies rettet den gesamten Datensatz, stabilisiert die Datenbasis und stellt sicher, dass die finale NPS-Berechnung so repräsentativ wie möglich ist.

 

Während die Imputation die ideale Lösung zur Reparatur einzelner, unvollständiger Datenpunkte ist, steht die Marktforschung oft vor einer größeren Herausforderung: ganzen Untergruppen, die für eine verlässliche Analyse zu klein sind. Hier kommt der nächste leistungsstarke Anwendungsfall ins Spiel.

Augmentation: Die Herausforderung kleiner Fallzahlen meistern


Augmentation ist ein anspruchsvolles generatives Verfahren, das entwickelt wurde, um die kritische Herausforderung unzureichender Fallzahlen zu bewältigen, insbesondere innerhalb spezifischer Untergruppen eines Datensatzes. In der Marktforschung tritt häufig das „kleines N-Problem“ auf, bei dem ein zentrales Untersuchungssegment durch zu wenige Befragte repräsentiert wird oder ein Ungleichgewicht zwischen den Zielgruppen vorliegt. Diese Datenknappheit macht statistische Standardanalysen unzuverlässig und macht es praktisch unmöglich, robuste Schlussfolgerungen ziehen zu können.

Das Kernziel der Augmentation ist die Erzeugung neuer, synthetischer Datenpunkte mit so hoher Qualität, dass eine Unterscheidung von denen der echten unterrepräsentierten Gruppe statistisch nicht mehr möglich ist. Dies geht weit über einfache Methoden wie das Duplizieren von Datensätzen hinaus. Stattdessen lernt das Modell nicht nur die Eigenschaften jeder einzelnen Variable, sondern auch die komplexen, multivariaten Beziehungen und Abhängigkeiten zwischen allen Variablen gleichzeitig. Es lernt beispielsweise, wie Alter, geografische Lage und geäußerte Einstellungen das Kaufverhalten innerhalb dieser spezifischen Gruppe gemeinsam beeinflussen.

Der Augmentation-Prozess isoliert die realen Befragten der Zielgruppe oder des gesamten Datensatzes und trainiert ein generatives Modell ausschließlich auf deren Daten. Nach dem Training kann dieses Modell genutzt werden, um aus der gelernten Verteilung neue Datenpunkte zu ziehen. Dabei handelt es sich nicht um reine Duplikate der Originaldaten, sondern um völlig neuartige Kombinationen von Merkmalen, die den komplexen, vom Modell gelernten Mustern folgen. Jeder synthetische Fall ist somit ein plausibles, statistisch konsistentes neues Mitglied der Untergruppe. Die Kombination der augmentierten Daten mit dem Originaldatensatz ermöglicht aussagekräftigere und robustere multivariate Analysen, die andernfalls nicht möglich wären.

Praktisches Anwendungsbeispiel:
Ein Automobilhersteller führt eine Marktstudie für ein neues elektrisches Luxusfahrzeug durch. Innerhalb der 500 befragten Personen identifiziert er nur 50 Teilnehmende, die sowohl über ein hohes Einkommen verfügen als auch aktuell ein elektrisches Luxusfahrzeug eines Wettbewerbers besitzen – ein für die Neukunden-Gewinnung entscheidendes Segment. Diese Stichprobe von 50 Personen ist jedoch zu klein für eine umfassende Treiberanalyse, um zu verstehen, welche Merkmale zu einem Markenwechsel motivieren. Durch Augmentation wird ein Modell auf Basis dieser 50 realen Befragten trainiert. Anschließend generiert es 100 neue, synthetische Fälle, die dieselben demografischen, psychografischen und verhaltensbezogenen Schlüsselmerkmale aufweisen. Mit diesem auf 150 Fälle erweiterten Datensatz kann der Hersteller nun eine zuverlässigere Treiberanalyse durchführen.

 

Während die Augmentation einen Datensatz durch die synthetische Erzeugung von mehr Befragten anreichert, gibt es eine andere, leistungsstarke Form der Anreicherung, die anders funktioniert. Anstatt Personen hinzuzufügen, fügt die Expansion Wissen hinzu, indem sie jeden Fall um neue Variablen ergänzt, um einen ganzheitlicheren und aussagekräftigeren Datensatz zu schaffen.

Expansion: Tieferen Kontext durch neue Dimensionen gewinnen


Diese leistungsstarke Technik ermöglicht es Forschenden, über die reinen Antworten der Befragten hinauszugehen und tiefere, strategischere Einblicke zu gewinnen. Diese Anreicherung kann durch zwei unterschiedliche und wertvolle Ansätze erreicht werden. Der erste Ansatz generiert neue Variablen, indem er latente Strukturen innerhalb des bestehenden Datensatzes aufdeckt. Der zweite Ansatz verbindet den Datensatz mit einer externen Informationsquelle, um neues Wissen hinzuzufügen.

Interne Expansion – Neue Variablen aus bestehenden Daten generieren

Die aussagekräftigsten Erkenntnisse eines Datensatzes liegen oft nicht in den Antworten auf eine einzelne Frage, sondern im komplexen Zusammenspiel mehrerer Antworten. Die interne Expansion analysiert die Muster und Wechselbeziehungen zwischen mehreren bestehenden Variablen, um eine neue, zusammengesetzte Variable zu schaffen. Diese neue Variable repräsentiert typischerweise ein übergeordnetes Konzept oder ein latentes Konstrukt, das nicht oder nur schwer direkt messbar wäre.
 

Praktisches Anwendungsbeispiel:
Ein Finanzdienstleister verfügt über einen Datensatz aus einer großen Studie mit verschiedenen Fragen zur Kundenwahrnehmung (z.B. „bietet verlässlichen Service“, „hat transparente Gebühren“, „löst Probleme schnell“). Durch interne Expansion werden die Zusammenhänge zwischen diesen Variablen analysiert, um für jeden Befragten einen robusten Indexwert zu generieren.

 
Exkurs: Auch wenn die interne Expansion, wie beispielsweise die Bildung von Indizes, bereits lange bewährte Praxis in der Marktforschung ist (bereits auch im ersten Teil diskutiert), handelt es sich hier genau genommen ebenfalls um synthetische Daten. Der Unterschied zu moderneren Ansätzen liegt primär in der Komplexität der Berechnungsmethoden und den dahinterliegenden statistischen Modellen. Beide erzeugen jedoch neue Informationen, die in dieser Form nicht direkt erhoben wurden – eine wesentliche Gemeinsamkeit, die interne Expansion klar im Bereich synthetischer Datengenerierung verortet.

Externe Expansion – Datensätze mit externen Informationen verbinden

Dieser zweite Ansatz löst die bekannte Herausforderung von Datensilos, bei denen wertvolle Informationen über mehrere, unverbundene Studien verteilt sind. Die externe Expansion schafft eine statistische Brücke, um Wissen von einem Datensatz in einen anderen zu übertragen. Dies ermöglicht es Marktforschenden, einen primären Datensatz mit Variablen und Erkenntnissen aus einer völlig anderen Studie anzureichern, ohne diese Fragen den ursprünglichen Befragten jemals gestellt zu haben.
 

Praktisches Anwendungsbeispiel:
Ein Handelsunternehmen verfügt über Daten aus einer groß angelegten Kundenzufriedenheitsstudie, die detaillierte Angaben zu Kaufmotiven und Servicepräferenzen enthält. Unabhängig davon erhebt das Unternehmen regelmäßig Transaktionsdaten aus seinem CRM-System, die Kundenverhalten wie Einkaufsfrequenz und Ausgaben pro Einkauf erfassen, jedoch keine tieferen Einstellungsdaten enthalten. Mithilfe externer Expansion können die tiefergehenden Einstellungen der Zufriedenheitsstudie statistisch auf die Kundendaten aus dem CRM übertragen werden. Das Ergebnis ist ein umfassender, synthetisch angereicherter Datensatz, in dem reale Transaktionen um wertvolle psychografische und motivationale Dimensionen ergänzt sind. So erhält das Unternehmen ein ganzheitlicheres Kundenverständnis und kann gezielt personalisierte Marketing- und Vertriebsstrategien ableiten, ohne dass alle Kunden direkt befragt werden mussten.

 

Während alle bisher besprochenen Methoden mit einem primären, auf Befragten basierenden Datensatz beginnen, bricht die Creation mit diesem Muster. Diese Technik führt uns von der Veredelung realer Daten zur Simulation eines vollständigen virtuellen Marktes, indem sie Informationen aus mehreren Quellen synthetisiert, um Szenarien zu explorieren, die noch nicht eingetreten sind.

Creation: Märkte simulieren und Szenarien explorieren


Creation ist ein besonders ambitionierter Ansatz, dessen Nutzen jedoch mit Vorsicht zu betrachten ist, da er am weitesten von realen empirisch erhobenen Daten entfernt ist. Creation umfasst die vollständige Neuerzeugung eines synthetischen Datensatzes, um einen Markt oder eine Kundengruppe zu simulieren. Dieser Prozess stützt sich nicht auf einen einzelnen primären Datensatz, sondern synthetisiert Informationen aus mehreren, unterschiedlichen Quellen. Das Ergebnis ist eine virtuelle Umgebung, bevölkert von synthetischen Konsumenten, deren kollektives Verhalten versucht, die reale Welt widerzuspiegeln. Diese Simulationsumgebung ermöglicht es Unternehmen, risikofreie und kosteneffiziente „Was wäre wenn?“ Analysen durchzuführen, um strategische Entscheidungen zu testen, bevor sie in der realen Welt umgesetzt werden.

Dabei ist es jedoch entscheidend, sich an das Prinzip zu erinnern, das wir in unserem vorherigen Beitrag erörtert haben: Diese Modelle ermöglichen einen „retrospektiven Blick in die Zukunft“. Sie können nur Ergebnisse generieren, die auf den Mustern und Beziehungen der Daten basieren, mit denen sie trainiert wurden. Sie können in keiner Weise wirklich neuartige Markt-Shocks oder unvorhergesehene Verhaltensweisen von Konsumenten vorhersagen.

Praktisches Anwendungsbeispiel:
Ein Mobiltelefonhersteller möchte über die Ausstattung seines nächsten Flagship-Modells entscheiden. Er hat Erkenntnisse vorliegen zu Präferenzen der Konsumenten für verschiedene Merkmale (z. B. Kameraqualität, Akkulaufzeit, Bildschirmgröße) und deren Preissensibilität. Mittels Creation wird ein synthetischer Markt aufgebaut. Das Modell generiert eine Population synthetischer Konsumenten, deren demografische Verteilung dem Zielmarkt nachempfunden ist. Jedem synthetischen Konsumenten wird dabei ein Präferenz-Set zugewiesen, das mit den zugrundeliegenden Erkenntnissen übereinstimmt. Der Hersteller kann nun verschiedene virtuelle Telefonkonfigurationen in diesen simulierten Markt einführen, um seine Produktstrategie zu optimieren.

 

Fazit


Die Anwendung quantitativer synthetischer Daten bietet Marktforschenden eine Vielzahl wertvoller Möglichkeiten, ihre Analysen effektiver, tiefer und robuster zu gestalten. Bei Produkt + Markt fokussieren wir uns dabei bewusst auf die Anwendungsfelder Imputation, Augmentation und Expansion. Wir sind überzeugt, dass belastbare Erkenntnisse stets auf real erhobenen Grunddaten basieren sollten, um Realitätsbezug und Aktualität der gewonnenen Insights garantieren zu können. Aus diesem Grund sehen wir von rein virtuellen Simulationsansätzen ab, da diese, trotz ihrer methodischen Faszination, letztlich zu weit von empirisch verankerten Daten entfernt sind, um zuverlässige Entscheidungsgrundlagen für unsere Kunden zu gewährleisten.
 

Interesse an einem unverbindlichen Beratungsgespräch?


Sie möchten mehr über Synthetische Daten erfahren? Gerne stehen wir Ihnen in einem 30-minütigen, unverbindlichen Gespräch zur Verfügung!