Multivariate Datenanalyse mit Python

Beschreibung

In der fünftägigen Seminar Multivariate Datenanalyse mit Python werden in den ersten drei Tagen die multiple Regressionsanalyse und die logistische Regressionsanalyse behandelt. In den letzten beiden Tagen werden die strukturentdeckenden Verfahren behandelt. Dazu gehören die Zeitreihenanalyse, die Clusteranalyse und die explorative Faktorenanalyse, dazu ergänzend die Reliabilitätsanalyse.

Zielgruppe: Anwender, Fachkräfte und Studierende aus den Bereichen der Sozial- und Marktforschung, den Wirtschaftswissenschaften und der Betriebswirtschaft (Business Intelligence, Marketing, Controlling, Qualitätskontrolle) und der psychologischen, klinischen und pharmazeutischen Forschung

Voraussetzungen: Erfahrungen mit Python und die Inhalte des Seminars Grundlagen der Statistik mit Python (Interpretation von Korrelationskoeffizienten wie Pearsons r und Signifikanztests wie dem t-Test sollten bekannt sein). Grundlegende Fertigkeiten im Umgang mit Python – wie Datenimport, Datenaufbereitung, Grafikerstellung und statistische Standardverfahren – werden vorausgesetzt, ständig angewendet und vertieft. Wenn der Umgang mit Python nicht vertraut sein sollte, empfiehlt es sich, vorher einen der beiden genannten Grundlagen-Seminare zu besuchen. Der Unterricht des Aufbaukurses setzt außerdem die Kenntnis der Regressionsanalyse voraus.

Lernziele: fortgeschrittene Funktionen von Python kennen lernen, Daten mit Hilfe von multivariaten Verfahren auswerten können, Ergebnisse von multivariaten Datenanalysen grafisch darstellen, erläutern und interpretieren können, aufgrund einer Fragestellung das geeignete multivariate Verfahren identifizieren und anwenden können

Übungen: Die Beispiele und Übungsaufgaben erfolgen in der Python Schulung mit der Programmiersprache Python und der Entwicklungsumgebung Spyder aus der Python Anaconda Distribution. Falls Sie Spyder nicht kennen sollten, können Sie entweder an dem Kurs mit einer anderen Entwicklungsumgebung teilnehmen oder alternativ sich in die Entwicklungsumgebung Spyder einarbeiten: Dokumentation zu Spyder und Tutorial zu Spyder.

Leistungen: ganztägiger Intensiv-Unterricht in Kleingruppen (9-17 Uhr, max. 10 Personen), gedrucktes Schulungszertifikat; Online-Veranstaltungen: digitale Schulungsunterlagen (gegen Aufpreis: gedruckte Schulungsunterlagen und/oder Fernzugang zu einem Schulungslaptop mit installierter Software); Präsenz-Veranstaltungen: Schulungsräume in zentraler Lage, Getränke in den Pausen, Schulungslaptop mit installierter Software, gedruckte Schulungsunterlagen

Aufbau: Die 5-tägige Komplett-Schulung Multivariate Datenanalyse mit Python besteht aus einer 3-tägigen Basis-Schulung und einer anschließenden 2-tägigen Aufbau-Schulung, die auch einzeln gebucht werden können.

Ausführliche Informationen und Buchungsmöglichkeiten finden Sie auf der → Veranstaltungsseite zum Seminar.

Inhalte des 5-tägigen Komplett-Trainings Multivariate Datenanalyse mit Python

3-tägiges Basis-Training: Strukturenprüfende Verfahren
- Regressionsanalyse: Regressionsmodelle für kontinuierliche Variablen mit linearen und nicht-linearen Effekten, Moderationseffekten (Wechselwirkungen), Suppressionseffekten (Kontrolle von Störeinflüssen) und Interaktionseffekten zwischen kontinuierlichen und kategorialen Einflussgrößen (Populationsunterschiede); Verfahren zur Auswahl von Prognosevariablen (Betagewichte, Toleranzen) und der Ermittlung des am besten an die Daten angepassten Modells (schrittweise Regression mit AIC/BIC); Residualdiagnostik, Prüfung der Modellprämissen (Angemessenheit des Modells, Multikollinearität, Homoskedastizität und Normalverteilung der Residuen, Erkennung von einflussreichen Datenpunkten) und Maßnahmen bei Verletzungen (Ausschluss ungeeigneter Fälle, Selektion und Aggregation von Variablen)
- Logistische Regression: Regressionsmodelle für kategoriale Variablen, Interpretation der Koeffizienten der logistischen Regressionsfunktion (Logits, Odds und Wahrscheinlichkeiten), Berechnung von Odds Ratio und relatives Risiko; Konfusionstabellen mit Trefferquote, Spezifität und Sensitivität, ROC-Kurven und Ermittlung des optimalen Trennwerts; Prüfung des Gesamtmodells und der Merkmalsvariablen (AUC, Likelihood-Ratio-Test und Pseudo R-Quadrat-Statistiken)

2-tägiges Aufbau-Training: Strukturentdeckende Verfahren
- Zeitreihenanalyse: Glättungsmethoden und LOESS-Dekomposition von Trend- und Saison-Komponenten, ARIMA-Modelle, Erstellung von Prognosen, Beurteilung der Modellgüte und Prognosegüte, grafische Darstellung von Zeitreihen
- Clusteranalyse: hierarchische Clusteranalyse (Distanz- und Ähnlichkeitsmaße, Fusionierungs-Algorithmen: Single-Linkage, Complete-Linkage und Ward-Verfahren), partitionierende Clusteranalyse (k-Means-Clusteranalyse)
- Dimensionsreduzierende Verfahren: Faktorenanalyse (EFA, Explorative Factor Analysis) und Hauptkomponentenanalyse (PCA, Principal Component Analysis), Variablenauswahl, Extraktion und Rotation der Dimensionen, Berechnung von Faktorwerten