Modulübersicht
Zwischen den Präsenztagen erhalten die Teilnehmenden Übungsaufgaben, in denen die Reflexions- und Transferfähigkeit der Teilnehmenden im Vordergrund steht, zur eigenständigen Bearbeitung
Weitere Informationen finden Sie in diesem Modulhandbuch.
Modulinhalte
Tag 1: Informationssysteme
- Begriff Datenbanksysteme
- Relationales Datenmodell
- SQL - Structured Query Language
- Data Warehousing: Architektur, Entwicklungsprozess, Bus Matrix
- Modellierung mittels Star Schema, Fakten, Dimensionen
- Anfragen an Star Schemata mit SQL und mit SQL OLAP-Erweiterungen
- No-SQL Systeme: MapReduce, Anfragesprachen für MapReduce-Systeme
Dozenten: Prof. Dr. Claus Weihs, Prof. Dr. Jens Teubner
Tag 2: Bearbeitung großer Datenmengen in R
- Kurzeinführung in die Software R und Rstudio
- Daten- und Kontrollstrukturen
- Ein- und Ausgabe größerer Datenmengen
- Datenbankanbindungen
- Analyse großer Daten mit dem Paket data.tabl
- Funktionale Programmierung: MapReduce
- Explizte Parallelisierung mit Paketen parallel und snow
- Parallelisierung auf HPC Clustern
Dozenten: Dr. Michel Lang, Dr. Dirk Surmann
Tag 3: Übung zu Modulinhalten
Dozenten: Vormittag: Prof. Dr. Jens Teubner, Nachmittag: Dr. Michel Lang, Dr. Dirk Surmann
Tag 4: Datenanalyse Clusteranalyse
- Statistische Grundlagen der deskriptiven Datenanalyse
- Abgrenzung Clusteranalyse - Klassifikation
- Distanzmaße und Ähnlichkeitsmaße
- Hierarchisches Clustern
- Partitionierende Clusteralgorithmen
- Bestimmung der Clusteranzahl
- Variablenselektion
- Big Data Analysen: Clustern großer Datenmengen, CAST und DBSCAN
Dozentin: Prof. Dr. Katja Ickstadt
Datenanalyse Regression
- Lineare Modelle, Verallgemeinerte Lineare Modelle
- Schätzverfahren
- Residualanalyse
- Diagnostische Plots
- Variablenselektion
- Interpretation
- Big Data Analysen: penalisierte Regressionsverfahren, Bayes-Verfahren, Unterraumeinbettung und Sampling
- Evaluation: Vorhersage, Qualitätsmaße, Test
Dozent: Nachmittag: Rahnenführer
Tag 5: Datenanalyse Klassifikation
- Datenunabhängige Verfahren
- Bayes-Verfahren
- Diskriminanzanalyse
- Logistische Regression
- Entscheidungsbäume
- SVM
- Ensemble Verfahren
- Evaluation: Resampling, Interpretation, Vorhersage, Konfusionsmaße, Tuning, Variablenselektion, Dimensionsreduktion, Modellselektion
- Big Data: viele Variablen, viele Beobachtungen
Dozenten: Prof. Dr. Claus Weihs (Unterstützung Dr. Daniel Horn)
Tag 6: Übung zu Modulinhalten
Dozierende: Vormittag Prof. Dr. Katja Ickstadt, Nachmittag: Dr. Daniel Horn
Tag 7: Visualisierung
- Grundlagen
- Visualisierung metrisch skalierter Merkmale
- Visualisierung kategorieller Merkmale
- Visualisierung räumlicher Strukturen
- Visualisierung von Zusammenhängen
- Visualisierung bei großen Datensätzen
Statistische Versuchsplanung
- wichtigste Prinzipien der experimentellen Versuchsplanung und deren Analyse
- Vermittlung grundlegender Verfahren und Modelle für die Planung von Experimenten
- Fallzahlplanung für eine ausreichende Power und anschließende statistische Analysemethoden
- allgemeine Guidelines (faktorielles Prinzip, Randomisierung, Blockbildung) zur Planung von Experimenten
Dozenten: Vormittags: Prof. Dr. Markus Pauly oder M.Sc Burim Ramosaj, Nachmittags Dr. Leo Geppert
Tag 8: Fallstudie mit großem Datensatz
- Analyse eines Datensatzes mit CRISP-DM Prozessmodell
- Strategien und Technologien zur Analyse riesiger Datenmengen
Dozierende: Prof. Dr. Katja Ickstadt & Prof. Dr. Claus Weihs
Tag 9: Übung: Besprechung der Fallstudie
Dozierende: Vormittag: M.Sc Burim Ramosaj, Dr. Leo Geppert, Nachmittag: Prof. Dr. Katja Ickstadt
Zertifikatsarbeit (bring your own data), schriftliche Ausarbeitung eines Big-Data Falls und mündliche Disputation mit anschließender Diskussion
Dozenten: Betreuer (Professoren der TU)
Zwischen den Präsenztagen: Übungsaufgaben zur eigenständigen Bearbeitung
Reflexions- und Transferfähigkeit der Teilnehmenden steht im Vordergrund