Modulelemente

Modulelement 1 - Datenmanagement & -exploration

Datenbanken & Data Governance

Begriff Datenbanksysteme
Relationales Datenmodell
SQL - Structured Query Language
Data Warehousing: Architektur, Entwicklungsprozess, Bus Matrix
Modellierung mittels Star Schema, Fakten, Dimensionen
Anfragen an Star Schemata mit SQL und mit SQL OLAP-Erweiterungen
No-SQL Systeme: MapReduce, Anfragesprachen für MapReduce-Systeme

Datenanalyse mit R und Python

Daten- und Kontrollstrukturen
Ein- und Ausgabe größerer Datenmengen
Datenbankanbindungen
Parallelisierung durch funktionale Programmierung

Visualisierung von Datensätzen

Grundlagen der Visualisierung

Grundlagen zur Visualisierung in R
Graphische Darstellungsformen und Menschliche Wahrnehmung
Grundlagen der statischen und interaktiven Visualisierungen
Farben und geeignete Einsatzmöglichkeiten in der Visualisierung

Visualisierung von Merkmalen

Darstellung quantitativer Merkmale
Darstellung qualitativer Merkmale
Kategorielle Merkmale als bedingende Variablen

Visualisierung bei wachsenden Stichprobengrößen

Möglichkeiten der Darstellung bei kleinen, mittleren und großen Stichprobengrößen
Darstellung zeitlicher Verläufe
Vergleich mehrerer Stichproben

Visualisierung bei wachsender Anzahl an Variablen

Darstellung zwei- und dreidimensionaler Datensätze
Visualisierung höher- und hochdimensionaler Datensätze

Export und Reproduzierbarkeit von Graphiken

Graphiken zur Exploration und zur Präsentation
Reproduzierbarer Export von Graphiken in R

Modulelement 2 - Maschinelles Lernen und statistische Methoden

Selbstlernmaterialien zu deskriptiver Statistik und Clusterverfahren

Statistische Grundlagen der deskriptiven Datenanalyse:

Univariate Merkmale
Bivariate Merkmale
Verteilungsfunktionen
Schätzen und Testen

Clusteranalyse

Distanz- und Ähnlichkeitsmaße
Hierarchische und partitionierende Clusteralgorithmen
Bestimmung der Clusteranzahlen
Clustern großer Datenmengen

Datenanalyse - Regression

Lineare Modelle, Verallgemeinerte Lineare Modelle
Schätzverfahren
Residualanalyse
Diagnostische Plots
Variablenselektion
Interpretation
Big Data Analysen: penalisierte Regressionsverfahren (Ridge Regression, LASSO), Bayes-Verfahren, Unterraumeinbettung und Sampling
Evaluation: Vorhersage, Qualitätsmaße (AIC, BIC, WAIC, Fehlerraten), Test

Datenanalyse - Klassifikation

Datenunabhängige Verfahren
Bayes-Verfahren
Diskriminanzanalyse
Logistische Regression
Entscheidungsbäume
SVM
Ensemble Verfahren
Evaluation: Resampling, Interpretation, Vorhersage, Konfusionsmaße, Tuning, Variablenselektion, Dimensionsreduktion, Modellselektion

Zeitreihenanalyse

Grundlagen der Zeitreihenanalyse: Zeitreihenzerlegung, Modellierung von Trends und Periodizitäten, Glättungsverfahren und naïve Prognosemethoden
Klassische Zeitreihenmodelle: ARIMA Modelle (Identifikation und Modellanpassung, Vorhersagen, Stationarität und Einheitswurzel, Erweiterungen)
Volatilitätsmodelle: ARCH, GARCH Modelle
Spezialthemen: Überblick über weiterführende Verfahren (ML Methoden, probabilistische Vorhersagen, Anomalieerkennung)

Versuchsplanung

Zusammenhang zur Regressionsanalyse und der Erstellung von repräsentativen Stichproben als Basis für das Trainieren von Machine-Learning-Verfahren
wichtigste Prinzipien der experimentellen Versuchsplanung und deren Analyse
Vermittlung grundlegender Verfahren und Modelle für die Planung von Experimenten wie z.B.: sequentielle Versuchspläne, voll-faktorielle Versuchspläne, Randomisierung, Blockbildung)
Anwendungen von Machine-Learning Verfahren in der statistischen Versuchsplanung.
Fallzahlplanung auf Basis statistischer Testtheorien für anschließende statistische Analysemethoden

Neuronale Netze

Mehrschichtnetze, Koeffizientenschätzung, Identifizierbarkeit
Neuronale Netze in Regression und Klassifikation
nichtlineare Vorhersage, Modellwahl
tiefe neuronale Netze (Deep Learning)
Beispiele

Modulelement 3 - Präsentation und Praxis

Fallstudie mit realem Datensatz

Überblick über das CRISP-DM Prozessmodell: Warum ein standardisiertes Vorgehen Fehler vermeidet und Kreativität fördert
Einführung in die Fallstudie
Vorstellung der Daten
Aufbereitung der Daten
Analyse-Algorithmus mit Maschinellen Lernverfahren

Praxisnahe Fallstudie zu Deep Learning

Einführung in die Fallstudie
Vorstellung und Aufbereitung der Daten
Deep Learning mit Neuronalen Netzen

Wissenschaftliches Arbeiten

Schreiben eines Fallstudienberichts und einer Abschlussarbeit

Analyse der Fallstudienergebnisse

Diskussion der Ergebnisse der Fallstudie

Modulelement 4 - Abschlussprüfung

Identifikation eines relevanten und umfangreichen eigenen Datensatzes für die Abschlussarbeit
Verfassen der Abschlussarbeit (maximal 30 Seiten)
Präsentation und Diskussion der Arbeit

Mit dem Auto

Mit Bus und Bahn

Die H-Bahn

Mit dem Flugzeug

Lageplan