Modulelemente
Zwischen den Präsenztagen erhalten die Teilnehmenden Übungsaufgaben, in denen die Reflexions- und Transferfähigkeit im Vordergrund steht, zur eigenständigen Bearbeitung.
Modulinhalte
Datenbanken & Data Governance
- Begriff Datenbanksysteme
- Relationales Datenmodell
- SQL - Structured Query Language
- Data Warehousing: Architektur, Entwicklungsprozess, Bus Matrix
- Modellierung mittels Star Schema, Fakten, Dimensionen
- Anfragen an Star Schemata mit SQL und mit SQL OLAP-Erweiterungen
- No-SQL Systeme: MapReduce, Anfragesprachen für MapReduce-Systeme
Datenanalyse mit R und Python
- Daten- und Kontrollstrukturen
- Ein- und Ausgabe größerer Datenmengen
- Datenbankanbindungen
- Parallelisierung durch funktionale Programmierung
Visualisierung von Datensätzen
Grundlagen der Visualisierung
- Grundlagen zur Visualisierung in R
- Graphische Darstellungsformen und Menschliche Wahrnehmung
- Grundlagen der statischen und interaktiven Visualisierungen
- Farben und geeignete Einsatzmöglichkeiten in der Visualisierung
Visualisierung von Merkmalen
- Darstellung quantitativer Merkmale
- Darstellung qualitativer Merkmale
- Kategorielle Merkmale als bedingende Variablen
Visualisierung bei wachsenden Stichprobengrößen
- Möglichkeiten der Darstellung bei kleinen, mittleren und großen Stichprobengrößen
- Darstellung zeitlicher Verläufe
- Vergleich mehrerer Stichproben
Visualisierung bei wachsender Anzahl an Variablen
- Darstellung zwei- und dreidimensionaler Datensätze
- Visualisierung höher- und hochdimensionaler Datensätze
Export und Reproduzierbarkeit von Graphiken
- Graphiken zur Exploration und zur Präsentation
- Reproduzierbarer Export von Graphiken in R
Selbstlernmaterialien zu deskriptiver Statistik und Clusterverfahren
Statistische Grundlagen der deskriptiven Datenanalyse:
- Univariate Merkmale
- Bivariate Merkmale
- Verteilungsfunktionen
- Schätzen und Testen
Clusteranalyse
- Distanz- und Ähnlichkeitsmaße
- Hierarchische und partitionierende Clusteralgorithmen
- Bestimmung der Clusteranzahlen
- Clustern großer Datenmengen
Datenanalyse - Regression
- Lineare Modelle, Verallgemeinerte Lineare Modelle
- Schätzverfahren
- Residualanalyse
- Diagnostische Plots
- Variablenselektion
- Interpretation
- Big Data Analysen: penalisierte Regressionsverfahren (Ridge Regression, LASSO), Bayes-Verfahren, Unterraumeinbettung und Sampling
- Evaluation: Vorhersage, Qualitätsmaße (AIC, BIC, WAIC, Fehlerraten), Test
Datenanalyse - Klassifikation
- Datenunabhängige Verfahren
- Bayes-Verfahren
- Diskriminanzanalyse
- Logistische Regression
- Entscheidungsbäume
- SVM
- Ensemble Verfahren
- Evaluation: Resampling, Interpretation, Vorhersage, Konfusionsmaße, Tuning, Variablenselektion, Dimensionsreduktion, Modellselektion
Zeitreihenanalyse
- Grundlagen der Zeitreihenanalyse: Zeitreihenzerlegung, Modellierung von Trends und Periodizitäten, Glättungsverfahren und naïve Prognosemethoden
- Klassische Zeitreihenmodelle: ARIMA Modelle (Identifikation und Modellanpassung, Vorhersagen, Stationarität und Einheitswurzel, Erweiterungen)
- Volatilitätsmodelle: ARCH, GARCH Modelle
- Spezialthemen: Überblick über weiterführende Verfahren (ML Methoden, probabilistische Vorhersagen, Anomalieerkennung)
Versuchsplanung
- Zusammenhang zur Regressionsanalyse und der Erstellung von repräsentativen Stichproben als Basis für das Trainieren von Machine-Learning-Verfahren
- wichtigste Prinzipien der experimentellen Versuchsplanung und deren Analyse
- Vermittlung grundlegender Verfahren und Modelle für die Planung von Experimenten wie z.B.: sequentielle Versuchspläne, voll-faktorielle Versuchspläne, Randomisierung, Blockbildung)
- Anwendungen von Machine-Learning Verfahren in der statistischen Versuchsplanung.
- Fallzahlplanung auf Basis statistischer Testtheorien für anschließende statistische Analysemethoden
Neuronale Netze
- Mehrschichtnetze, Koeffizientenschätzung, Identifizierbarkeit
- Neuronale Netze in Regression und Klassifikation
- nichtlineare Vorhersage, Modellwahl
- tiefe neuronale Netze (Deep Learning)
- Beispiele
Fallstudie mit realem Datensatz
- Überblick über das CRISP-DM Prozessmodell: Warum ein standardisiertes Vorgehen Fehler vermeidet und Kreativität fördert
- Einführung in die Fallstudie
- Vorstellung der Daten
- Aufbereitung der Daten
- Analyse-Algorithmus mit Maschinellen Lernverfahren
Praxisnahe Fallstudie zu Deep Learning
- Einführung in die Fallstudie
- Vorstellung und Aufbereitung der Daten
- Deep Learning mit Neuronalen Netzen
Wissenschaftliches Arbeiten
- Schreiben eines Fallstudienberichts und einer Abschlussarbeit
Analyse der Fallstudienergebnisse
- Diskussion der Ergebnisse der Fallstudie
- Identifikation eines relevanten und umfangreichen eigenen Datensatzes für die Abschlussarbeit
- Verfassen der Abschlussarbeit (maximal 30 Seiten)
- Präsentation und Diskussion der Arbeit