Zum Inhalt
Zentrum für HochschulBildung

Modulelemente

Zwischen den Präsenztagen erhalten die Teilnehmenden Übungsaufgaben, in denen die Reflexions- und Transferfähigkeit im Vordergrund steht, zur eigenständigen Bearbeitung.

Modulinhalte

Datenbanken & Data Governance

  • Begriff Datenbanksysteme
  • Relationales Datenmodell
  • SQL - Structured Query Language
  • Data Warehousing: Architektur, Entwicklungsprozess, Bus Matrix
  • Modellierung mittels Star Schema, Fakten, Dimensionen
  • Anfragen an Star Schemata mit SQL und mit SQL OLAP-Erweiterungen
  • No-SQL Systeme: MapReduce, Anfragesprachen für MapReduce-Systeme

Datenanalyse mit R und Python

  • Daten- und Kontrollstrukturen
  • Ein- und Ausgabe größerer Datenmengen
  • Datenbankanbindungen
  • Parallelisierung durch funktionale Programmierung

Visualisierung von Datensätzen

Grundlagen der Visualisierung

  • Grundlagen zur Visualisierung in R
  • Graphische Darstellungsformen und Menschliche Wahrnehmung
  • Grundlagen der statischen und interaktiven Visualisierungen
  • Farben und geeignete Einsatzmöglichkeiten in der Visualisierung

Visualisierung von Merkmalen

  • Darstellung quantitativer Merkmale
  • Darstellung qualitativer Merkmale
  • Kategorielle Merkmale als bedingende Variablen

Visualisierung bei wachsenden Stichprobengrößen

  • Möglichkeiten der Darstellung bei kleinen, mittleren und großen Stichprobengrößen
  • Darstellung zeitlicher Verläufe
  • Vergleich mehrerer Stichproben

Visualisierung bei wachsender Anzahl an Variablen

  • Darstellung zwei- und dreidimensionaler Datensätze
  • Visualisierung höher- und hochdimensionaler Datensätze

Export und Reproduzierbarkeit von Graphiken

  • Graphiken zur Exploration und zur Präsentation
  • Reproduzierbarer Export von Graphiken in R

Selbstlernmaterialien zu deskriptiver Statistik und Clusterverfahren

Statistische Grundlagen der deskriptiven Datenanalyse:

  • Univariate Merkmale
  • Bivariate Merkmale
  • Verteilungsfunktionen
  • Schätzen und Testen

Clusteranalyse

  • Distanz- und Ähnlichkeitsmaße
  • Hierarchische und partitionierende Clusteralgorithmen
  • Bestimmung der Clusteranzahlen
  • Clustern großer Datenmengen

Datenanalyse - Regression

  • Lineare Modelle, Verallgemeinerte Lineare Modelle
  • Schätzverfahren
  • Residualanalyse
  • Diagnostische Plots
  • Variablenselektion
  • Interpretation
  • Big Data Analysen: penalisierte Regressionsverfahren (Ridge Regression, LASSO), Bayes-Verfahren, Unterraumeinbettung und Sampling
  • Evaluation: Vorhersage, Qualitätsmaße (AIC, BIC, WAIC, Fehlerraten), Test

Datenanalyse - Klassifikation

  • Datenunabhängige Verfahren
  • Bayes-Verfahren
  • Diskriminanzanalyse
  • Logistische Regression
  • Entscheidungsbäume
  • SVM
  • Ensemble Verfahren
  • Evaluation: Resampling, Interpretation, Vorhersage, Konfusionsmaße, Tuning, Variablenselektion, Dimensionsreduktion, Modellselektion
  • Big Data: viele Variablen (Probleme klassischer Verfahren), viele Beobachtungen (Sampling-Verfahren)

Zeitreihenanalyse

  • Grundlagen der Zeitreihenanalyse: Zeitreihenzerlegung, Modellierung von Trends und Periodizitäten, Glättungsverfahren und naïve Prognosemethoden
  • Klassische Zeitreihenmodelle: ARIMA Modelle (Identifikation und Modellanpassung, Vorhersagen, Stationarität und Einheitswurzel, Erweiterungen)
  • Volatilitätsmodelle: ARCH, GARCH Modelle
  • Spezialthemen: Überblick über weiterführende Verfahren (ML Methoden, probabilistische Vorhersagen, Anomalieerkennung)

Versuchsplanung

  • Zusammenhang zur Regressionsanalyse und der Erstellung von repräsentativen Stichproben als Basis für das Trainieren von Machine-Learning-Verfahren
  • wichtigste Prinzipien der experimentellen Versuchsplanung und deren Analyse
  • Vermittlung grundlegender Verfahren und Modelle für die Planung von Experimenten wie z.B.: sequentielle Versuchspläne, voll-faktorielle Versuchspläne, Randomisierung, Blockbildung)
  • Anwendungen von Machine-Learning Verfahren in der statistischen Versuchsplanung.
  • Fallzahlplanung auf Basis statistischer Testtheorien für anschließende statistische Analysemethoden

Neuronale Netze

  • Mehrschichtnetze, Koeffizientenschätzung, Identifizierbarkeit
  • Neuronale Netze in Regression und Klassifikation
  • nichtlineare Vorhersage, Modellwahl
  • tiefe neuronale Netze (Deep Learning)
  • Beispiele

Fallstudie mit realem Datensatz

  • Überblick über das CRISP-DM Prozessmodell: Warum ein standardisiertes Vorgehen Fehler vermeidet und Kreativität fördert
  • Einführung in die Fallstudie
  • Vorstellung der Daten
  • Aufbereitung der Daten
  • Analyse-Algorithmus mit Maschinellen Lernverfahren

Praxisnahe Fallstudie zu Deep Learning

  • Einführung in die Fallstudie
  • Vorstellung und Aufbereitung der Daten
  • Deep Learning mit Neuronalen Netzen

Wissenschaftliches Arbeiten

  • Schreiben eines Fallstudienberichts und einer Abschlussarbeit

Analyse der Fallstudienergebnisse

  • Diskussion der Ergebnisse der Fallstudie
  • Identifikation eines relevanten und umfangreichen eigenen Datensatzes für die Abschlussarbeit
  • Verfassen der Abschlussarbeit (maximal 30 Seiten)
  • Präsentation und Diskussion der Arbeit