Beschreibung
In dem Seminar Multivariate Datenanalyse mit R werden abwechselnd verschiedene multivariate Verfahren behandelt: die multiple Regressionsanalyse, die logistische Regression, die Clusteranalyse, die Faktorenanalyse und die Zeitreihenanalyse.
Zielgruppe: Anwender, Fachkräfte und Studierende aus den Bereichen der Sozial- und Marktforschung, der Betriebswirtschaft (Marketing, Controlling, Qualitätskontrolle) und der psychologischen, klinischen und pharmazeutischen Forschung
Voraussetzungen: Erfahrungen mit R unter Verwendung von RStudio und die Inhalte des Seminars Grundlagen der Statistik mit R (oder eines vergleichbaren Seminars: Interpretation von Korrelationskoeffizienten wie Pearsons r und Signifikanztests wie dem t-Test sollten bekannt sein). Grundlegende Fertigkeiten im Umgang mit R/RStudio, wie Datenimport, Datenaufbereitung, Grafikerstellung und statistische Standardverfahren, werden vorausgesetzt, ständig angewendet und vertieft. Wenn der Umgang mit R/RStudio nicht vertraut sein sollte, empfiehlt es sich, vorher ein R/RStudio-Training mit den Grundlagen oder ein vergleichbares Seminar zu besuchen.
Lernziele: fortgeschrittene Funktionen von R kennen lernen, Daten mit Hilfe von multivariaten Verfahren auswerten können, Ergebnisse von multivariaten Datenanalysen grafisch darstellen, erläutern und interpretieren können, aufgrund einer Fragestellung das geeignete multivariate Verfahren identifizieren und anwenden können
Übungen: Die Beispiele und Übungsaufgaben erfolgen in der R Schulung mit der statistischen Programmiersprache R und der Entwicklungsumgebung RStudio.
Leistungen: ganztägiger Intensiv-Unterricht in Kleingruppen (9-17 Uhr, max. 10 Personen), gedrucktes Schulungszertifikat; Online-Veranstaltungen: digitale Schulungsunterlagen (gegen Aufpreis: gedruckte Schulungsunterlagen und/oder Fernzugang zu einem Schulungslaptop mit installierter Software); Präsenz-Veranstaltungen: Schulungsräume in zentraler Lage, Getränke in den Pausen, Schulungslaptop mit installierter Software, gedruckte Schulungsunterlagen
Aufbau: Die 5-tägige Komplett-Schulung Multivariate Datenanalyse mit R besteht aus einer 3-tägigen Basis-Schulung und einer anschließenden 2-tägigen Aufbau-Schulung, die auch einzeln gebucht werden können.
Ausführliche Informationen und Buchungsmöglichkeiten finden Sie auf der → Veranstaltungsseite zum Seminar.
Inhalte des 5-tägigen Komplett-Trainings Multivariate Datenanalyse mit R
Der Kurs beinhaltet wechselnde Inhalte, bestehend aus den folgenden Basis- und Aufbautrainings:
-
3-tägiges Basis-Training: Inhalte beim Aufbauseminar Varianzanalyse oder Cluster-/Faktoranalyse
- Multiple Regressionsanalyse
Regressionsmodelle für kontinuierliche und kategoriale Variablen mit Suppressionseffekten (Suppressoranalyse), Moderationseffekten (Moderatoranalyse), nicht-linearen Effekten (polynomiale Regression) und Interaktionseffekten zwischen kategorialen und kontinuierlichen Variablen (dummykodierte Regressionsanalyse); Verfahren zur Auswahl von Prognosevariablen (Betagewichte, Toleranzen) und der Ermittlung des am besten an die Daten angepassten Modells (schrittweise Regression mit AIC/BIC, best subset regression); Residualdiagnostik und Prüfung der Modellprämissen (Angemessenheit des Modells, Unabhängigkeit der Daten, Multikollinearität, Homoskedastizität und Normalverteilung der Residuen, Erkennung von einflussreichen Datenpunkten); 2D- und 3D-Grafiken von Regressionsmodellen - Logistische Regression
Schätzung der logistischen Regressionsfunktion, Interpretation der Koeffizienten (Logits, Odds und Wahrscheinlichkeiten), Berechnung von Odds Ratio und relatives Risiko, Konfusionstabellen mit Trefferquote, Spezifität und Sensitivität, ROC-Kurven und automatisierte Verfahren zur Ermittlung des optimalen Trennwerts, automatisierte Auswahl von Prognosevariablen, Prüfung des Gesamtmodells und der Merkmalsvariablen (AUC, Likelihood-Ratio-Test und Pseudo R-Quadrat-Statistiken)
- Multiple Regressionsanalyse
-
3-tägiges Basis-Training: Inhalte beim Aufbauseminar Zeitreihenanalyse
- Multiple Regressionsanalyse
Regressionsmodelle für kontinuierliche und kategoriale Variablen mit Suppressionseffekten (Suppressoranalyse), Moderationseffekten (Moderatoranalyse), nicht-linearen Effekten (polynomiale Regression) und Interaktionseffekten zwischen kategorialen und kontinuierlichen Variablen (dummykodierte Regressionsanalyse); Verfahren zur Auswahl von Prognosevariablen (Betagewichte, Toleranzen) und der Ermittlung des am besten an die Daten angepassten Modells (schrittweise Regression mit AIC/BIC, best subset regression); Residualdiagnostik und Prüfung der Modellprämissen (Angemessenheit des Modells, Unabhängigkeit der Daten, Multikollinearität, Homoskedastizität und Normalverteilung der Residuen, Erkennung von einflussreichen Datenpunkten); 2D- und 3D-Grafiken von Regressionsmodellen - Zeitreihenregression
Zeitreihenmodelle mit Trend- und Saisonkomponenten, lineare/nichtlineare Trendmodelle mit Berücksichtigung von zyklischen Schwankungen und Strukturbrüchen, Extrapolationsmodelle und Strukturmodelle, Erstellung von Prognosen, Beurteilung der Modellgüte und Prognosegüte
- Multiple Regressionsanalyse
-
2-tägiges Aufbau-Training: Varianzanalyse
- ein-, zwei- und mehrfaktorielle Varianzanalyse (ANOVA)
- Kontrolle von metrischen Störeinflüssen (ANCOVA)
- Messwiederholungsdesigns (mixed ANOVA/ANCOVA)
- robuste Standardfehler bei fehlender Varianzhomogenität
- Effektstärkemaß: generalisiertes Eta-Quadrat
- Post-hoc-Tests: Tukey’s HSD und Games-Howell
- Einzelvergleiche mit Alphafehler-Korrektur: Bonferroni, Holm und Jianjun Li
- Interaktionsanalyse: ordinale, disordinale und hybride Effekte (Wechselwirkungen)
- Prüfung der Wirksamkeit von Maßnahmen und Interventionen: Statistische Auswertung von Pretest-Posttest-Designs mit Varianzanalysen
-
2-tägiges Aufbau-Training: Cluster- und Faktorenanalyse
- Clusteranalyse:
- hierarchische Clusteranalyse: Distanz- und Ähnlichkeitsmaße, Fusionierungs-Algorithmen (Single-Linkage, Complete-Linkage, Ward-Verfahren)
- partitionierende Clusteranalysen: k-Means-Clusteranalyse, k-Medoids-Clusteranalyse, CLARA (Clustering Large Applications)
- Dimensionsreduktion:
- Faktorenanalyse (EFA, Explorative Factor Analysis): Variablenauswahl, Extraktion und Rotation der Faktoren, Berechnung von Faktorwerten, Hauptachsen- und Reliabilitätsanalyse zur Bewertung der Güte eines Fragebogens
- Hauptkomponentenanalyse (PCA, Principal Component Analysis): Variablenauswahl, Extraktion und Rotation der Komponenten, Hauptkomponentenanalyse für gemischte Daten (FAMD, Factor Analysis of Mixed Data), multiple Hauptkomponentenanalyse (MFA, Multiple Factor Analysis), hierarchische Clusteranalyse von Hauptkomponenten (HCPC, Hierarchical Clustering on Principal Component)
- Clusteranalyse:
-
2-tägiges Aufbau-Training: Zeitreihenanalyse
- Dekomposition von Trend- und Saison-Komponenten
- Detektion von Random-Walk-Prozessen
- Exponentielle Prognosemodelle (State-Space-Modelle)
- ARIMA-Modelle: Zeitreihen ohne Saisonalität
- SARIMA-Modelle: Zeitreihen mit Saisonalität
- ARIMAX-Modelle: Zeitreihen mit Einflussgrößen
- SARIMAX-Modelle: Zeitreihen mit Saisonalität und Einflussgrößen
- VARMAX-Modelle: Multivariate Zeitreihenmodelle
Ausführliche Informationen und Buchungsmöglichkeiten zu den Teilkursen finden Sie auf der → Veranstaltungsseite zum Seminar.