Vorhersage des durchschnittlichen Reineinkommens in Schweizer Gemeinden anhand von Online-Konsumdaten

Vorhersage des durchschnittlichen  Reineinkommens in Schweizer Gemeinden  anhand von Online-Konsumdaten
Gemeindekarte: Clusterzuordnung (PAM)

Kontext
In einer zunehmend digitalen Konsumwelt hinterlassen Nutzerinnen und Nutzer täglich Spuren, die wertvolle sozioökonomische Informationen enthalten können. Besonders in der Schweiz fehlen jedoch aktuelle, kleinräumige Einkommensdaten für gezielte Analysen und Entscheidungen. Diese Arbeit untersucht, ob sich das durchschnittliche Reineinkommen von Gemeinden mithilfe aggregierter Online-Konsumdaten modellieren und vorhersagen lässt.

Ziel und Aufgaben
Ziel war es, auf Basis realer Transaktionsdaten des Online-Händlers Digitec ein datengetriebenes Modell zur Vorhersage des Reineinkommens auf Gemeindeebene zu entwickeln. Die zentralen Aufgaben waren:

  • Bereinigung, Aggregation und Segmentierung von über 160'000 Online-Käufen
  • Bildung konsumbasierter Cluster mittels unüberwachtem Lernen
  • Entwicklung und Test cluster-spezifischer Regressionsmodelle zur Einkommensvorhersage

Methoden
Die Analyse folgte einem datenwissenschaftlichen Workflow mit Fokus auf kombinierter Clusteranalyse und Supervised Learning (u. a. mit Random Forest und XGBoost). Die Datengrundlage bildeten Online-Käufe (inkl. Marken- und Preissegmente), Bevölkerungszahlen sowie Reineinkommensdaten des Bundesamts für Statistik. Gemeinden wurden in drei Konsumtypen segmentiert, für die jeweils eigene Modelle trainiert wurden.

Ergebnisse
Die Konsummuster wiesen teils deutliche Unterschiede im Kaufverhalten auf, insbesondere bei Warenkorbwert und Kaufhäufigkeit. In einem der Cluster zeigte sich ein inhaltlich plausibler Zusammenhang zwischen Konsum und Einkommen. Dennoch blieben die Vorhersagegüten der Modelle insgesamt gering: Die erklärten Varianzanteile (R²) lagen nahe null und die Fehlerkennzahlen (MAE, RMSE) waren hoch.

Fazit
Obwohl digitale Konsummuster wertvolle Hinweise auf sozioökonomische Unterschiede liefern, reichen sie allein nicht aus, um Reineinkommen verlässlich zu prognostizieren. Die Arbeit zeigt aber auf, dass ein datenbasierter Zugang neue Perspektiven für die Regionalforschung bietet – vorausgesetzt, er wird durch zusätzliche Kontextvariablen ergänzt.