Synthetische Daten in der Praxis: Methode mit Zukunft
Synthetische Daten – derzeit kontrovers diskutiert. Während einige sie als Gamechanger für die Marktforschung sehen, bleiben viele Fragen offen: Wie entstehen solche Daten? Wie belastbar sind sie? Und welchen Platz können sie realistisch im Methodenportfolio der betrieblichen Forschung einnehmen?
Eine sachliche Einordnung mit kritischem Blick auf Potenziale und Grenzen.

Ein Buzzword? Und die Fragen dahinter.
Das Thema „synthetische Daten“ rückt seit einiger Zeit wieder verstärkt in den Vordergrund der Marktforschungsdiskussion. Dabei handelt es sich keineswegs um einen völlig neuen Ansatz – vielmehr erlebt ein bereits länger bekanntes Konzept derzeit ein deutlich zunehmendes Interesse.
Dennoch herrscht vielerorts Unsicherheit darüber, was dieser Trend konkret für die Marktforschung bedeutet. Zwischen Interesse und Skepsis fragen sich viele Marktforschende, ob synthetische Daten traditionelle Methoden bald ergänzen oder gar ersetzen könnten. Gleichzeitig wird kritisch hinterfragt, ob künstlich erzeugte Datensätze tatsächlich die nötige Qualität aufweisen, um real erhobene Befragungen und Analysen sinnvoll zu erweitern.
Dennoch herrscht vielerorts Unsicherheit darüber, was dieser Trend konkret für die Marktforschung bedeutet. Zwischen Interesse und Skepsis fragen sich viele Marktforschende, ob synthetische Daten traditionelle Methoden bald ergänzen oder gar ersetzen könnten. Gleichzeitig wird kritisch hinterfragt, ob künstlich erzeugte Datensätze tatsächlich die nötige Qualität aufweisen, um real erhobene Befragungen und Analysen sinnvoll zu erweitern.
Für (betriebliche) Marktforschende stellen sich deshalb zentrale Fragen:
- Was genau sind synthetische Daten – jenseits des Hypes?
- Welche konkreten Vorteile bieten sie der Marktforschungspraxis?
- Wo liegen die Grenzen und Risiken dieser Methode?
- Brauchen wir bald keine klassische Marktforschung mehr – oder entstehen hier vielmehr ganz neue Chancen?
Synthetische Daten – eine kurze Einordnung
Synthetische Daten sind künstlich erzeugte Daten, die reale Daten nachbilden, ergänzen oder simulieren. Anders als herkömmliche Marktforschungsdaten entstehen sie nicht direkt durch Befragungen oder Beobachtungen realer Personen oder Vorgänge, sondern mithilfe statistischer Modelle, maschineller Lernverfahren oder spezieller Algorithmen.
Grundsätzlich wird zwischen qualitativen und quantitativen synthetischen Daten unterschieden: Qualitative Daten umfassen vor allem künstlich erzeugte Texte oder kategorische Merkmale, etwa typische Zielgruppenstatements, die häufig mit Large Language Models (LLMs) erzeugt werden. Quantitative synthetische Daten hingegen basieren auf Zahlen und statistischen Mustern. Sie dienen vor allem dazu, fehlende Werte in Datensätzen zu ersetzen, Stichproben zu erweitern oder hypothetische Szenarien („Was wäre, wenn...“) simulieren zu können.
In der betrieblichen Marktforschung bieten synthetische Daten vielfältige Einsatzmöglichkeiten, etwa um schwer erreichbare Zielgruppen effizient abzubilden, datenschutzkonforme Analysen durchzuführen oder erste Hypothesen schnell und kostengünstig zu testen, bevor aufwendige empirische Studien durchgeführt werden.
Wie synthetische Daten entstehen
Dabei ist ein Aspekt besonders wichtig: „Synthetisch“ bedeutet keineswegs „zufällig“ oder „beliebig“. Verantwortungsvoll erzeugte synthetische Daten folgen strengen methodischen Prinzipien. Sie entstehen aus statistisch abgesicherten Modellen, die reale Zusammenhänge und Strukturen zuverlässig nachbilden. Für die Marktforschung bedeutet das konkret, dass synthetische Daten reale Erhebungen nicht einfach ersetzen sollen, sondern vielmehr eine ergänzende Funktion erfüllen: Sie schließen gezielt Datenlücken, verbessern die Qualität kleiner Stichproben und erlauben die risikolose Exploration neuer Marktszenarien – und dies in einer Geschwindigkeit und Tiefe, die traditionelle Methoden allein nicht erreichen könnten.
Um dies zu gewährleisten, kommen unterschiedliche statistische, maschinelle und Deep Learning-Verfahren zum Einsatz. Allen gemeinsam ist die Idee, reale Datenstrukturen so präzise nachzubilden, dass die erzeugten Daten für Marktforschungszwecke belastbar und aussagekräftig sind.
Konkret lassen sich vier wesentliche Ansätze unterscheiden:
1. Klassische statistische Verfahren
Hier werden grundlegende statistische Kennwerte – beispielsweise Mittelwerte, Mediane oder Häufigkeiten – aus realen Daten abgeleitet. Diese Kennwerte bilden anschließend die Grundlage, um synthetische Daten zu erzeugen.
2. Generative Adversarial Networks (GANs)
GANs sind neuronale Netzwerke, bestehend aus zwei miteinander konkurrierenden Algorithmen.
3. Large Language Models (LLMs)
LLMs generieren synthetische Daten, indem sie sprachliche und textliche Strukturen erlernen und replizieren. Dabei eignen sich LLMs besonders zur Erzeugung qualitativer, kontextuell sinnvoller Daten, wie z. B. Zielgruppenstatements.
4. Machine-Learning-Verfahren (ML)
Maschinelle Lernmodelle identifizieren und lernen komplexe statistische Zusammenhänge innerhalb eines realen Datensatzes. Aus diesen Modellen lassen sich anschließend neue, synthetische Daten generieren, die den ursprünglichen statistischen Mustern sehr nahekommen.
Jeder dieser Ansätze hat spezifische Stärken und Schwächen hinsichtlich Komplexität, Kontrolle, Flexibilität und Aussagekraft. LLMs sind, wie der Name bereits verrät, primär auf sprachliche Aufgaben ausgerichtet und damit eine mächtige Technologie für zahlreiche Anwendungsfälle. Für die Erzeugung quantitativ belastbarer, statistisch kontrollierter synthetischer Daten stellen Machine-Learning-Verfahren einen vielversprechenden Weg dar.
Dieses Forum umfasst Mitglieder aus vielen unterschiedlichen Bereichen des Unternehmens – Techniker und Nicht-Techniker. Damit sind wir nah an den aktuellen, dynamischen Entwicklungen.
Chancen für die betriebliche Marktforschung
Synthetische Daten eröffnen in der betrieblichen Marktforschung eine Reihe konkreter Vorteile – besonders dort, wo klassische Methoden an praktische, zeitliche oder wirtschaftliche Grenzen stoßen.
Die Anwendungsfelder lassen sich wie folgt Clustern:
- Imputation bezeichnet das gezielte Ersetzen fehlender Werte auf Basis statistischer Muster im Datensatz
- Augmentation und Expansion meinen die synthetische Erweiterung vorhandener Stichproben (Datensätze und/oder Variablen), beispielsweise zur Steigerung die Modellierbarkeit, insbesondere bei Segmentierungs- und Zielgruppenanalysen.
- Creation umfasst das Erzeugen neuer Datensamples basierend auf (verschiedenen) Sekundärdaten.
Die Möglichkeit der Datensynthetisierung kann auch hinsichtlich datenschutzrechtlicher Anforderungen sehr hilfreich sein. Wenn reale Erhebungsdaten vollständig synthetisiert werden – also ein künstlicher Datensatz erzeugt wird, der statistisch vergleichbar ist, aber keine Originaldaten mehr enthält – können diese Daten an Dritte weitergegeben werden – ohne Risiko eines Personenbezugs.
Wo sind die Grenzen?
So vielfältig die Möglichkeiten synthetischer Daten auch sind – sie haben klare methodische, praktische und ethische Grenzen.
Ein zentrales Thema ist die Validität. Synthetische Daten bilden keine echten Antworten realer Personen ab, sondern basieren auf Mustern, Wahrscheinlichkeiten und Modellannahmen. Sie können nur so gut sein wie die Daten, auf denen sie beruhen – und nur das reproduzieren, was in den zugrunde liegenden Informationen bereits enthalten war. Wirklich neue, unvorhergesehene Erkenntnisse lassen sich daraus in der Regel nicht ableiten.
Auch Verzerrungen (Bias) können sich unbemerkt fortsetzen. Wenn das Ausgangsmaterial Schwächen oder strukturelle Schieflagen enthält, werden diese durch die Modellierung oft nicht korrigiert – sondern im Gegenteil noch systematisch verstärkt. Ohne sorgfältige Prüfung besteht die Gefahr, dass synthetische Daten ein trügerisches Bild von Repräsentativität vermitteln.
Ein weiterer Aspekt betrifft regulatorische Anforderungen. Auch wenn synthetische Daten häufig datenschutzrechtlich unbedenklich sind, ist dennoch Transparenz entscheidend: Woher stammen die Daten? Wie wurden sie erzeugt? Welche Annahmen liegen zugrunde? Auftraggeber und interne Stakeholder müssen nachvollziehen können, wie die Ergebnisse zustande kommen – insbesondere, wenn sie in strategische Entscheidungen einfließen.
Unser Ansatz bei Produkt + Markt – fundiert, differenziert, praxisnah
Bei Produkt + Markt setzen wir auf einen methodisch abgesicherten, praxiserprobten Umgang mit synthetischen Daten. Unser Ziel ist es, sie dort einzusetzen, wo sie echten Mehrwert für die betriebliche Marktforschung schaffen – in Ergänzung zur klassischen Empirie, nicht als Ersatz.
Im Bereich der quantitativen Daten basiert unseres Ansatzes auf dem Einsatz maschineller Lernverfahren. Wir arbeiten bewusst mit ML-Methoden, weil sie es erlauben, realitätsnahe, belastbare Datenstrukturen zu modellieren – ohne auf vollständig trainierte Deep Learning Modelle angewiesen zu sein und ohne die Gefahr des retrospektiven Blickes. Dieser Ansatz verbindet Flexibilität mit methodischer Transparenz und bietet eine belastbare Grundlage für vielfältige Fragestellungen in der Marktforschung.

Gern stehen wir Ihnen als Data Guides zur Seite und helfen,
das volle Potenzial für Ihre Projekte auszuschöpfen.
Fatemeh Aarabi – Data Scientist Produkt + Markt
Dabei verfolgen wir keinen starren Standardprozess. Vielmehr verstehen wir synthetische Daten als modularen Baustein innerhalb eines größeren methodischen Angebots: Flexibel einsetzbar, auf die jeweilige Studie abgestimmt und immer begleitet durch fachliche Beratung. Unsere Lösungen entstehen im engen Austausch mit Forschungsteams und Projektverantwortlichen – mit dem Anspruch, datenbasierte Entscheidungsprozesse sinnvoll zu unterstützen, nicht zu ersetzen.