Zum Inhalt

Modulübersicht

Zwischen den Präsenztagen erhalten die Teilnehmenden Übungsaufgaben, in denen die Reflexions- und Transferfähigkeit der Teilnehmenden im Vordergrund steht, zur eigenständigen Bearbeitung

Weitere In­for­ma­ti­onen finden Sie in diesem Modulhandbuch.

Modulinhalte

Tag 1: Informationssysteme

  • Begriff Datenbanksysteme
  • Relationales Datenmodell
  • SQL - Structured Query Language
  • Data Warehousing: Architektur, Entwicklungsprozess, Bus Matrix
  • Modellierung mittels Star Schema, Fakten, Dimensionen
  • Anfragen an Star Schemata mit SQL und mit SQL OLAP-Erweiterungen
  • No-SQL Systeme: MapReduce, Anfragesprachen für MapReduce-Systeme

Dozenten: Prof. Dr. Claus Weihs, Prof. Dr. Jens Teubner

Tag 2: Bearbeitung großer Datenmengen in R

  • Kurzeinführung in die Software R und Rstudio
  • Daten- und Kontrollstrukturen
  • Ein- und Ausgabe größerer Datenmengen
  • Datenbankanbindungen
  • Analyse großer Daten mit dem Paket data.tabl
  • Funktionale Programmierung: MapReduce
  • Explizte Parallelisierung mit Paketen parallel und snow
  • Parallelisierung auf HPC Clustern

Dozenten: Dr. Michel Lang, Dr. Dirk Surmann

Tag 3: Übung zu Modulinhalten

Dozenten: Vormittag: Prof. Dr. Jens Teubner, Nachmittag: Dr. Michel Lang, Dr. Dirk Surmann

Tag 4: Datenanalyse Clusteranalyse

  • Statistische Grundlagen der deskriptiven Datenanalyse
  • Abgrenzung Clusteranalyse - Klassifikation
  • Distanzmaße und Ähnlichkeitsmaße
  • Hierarchisches Clustern
  • Partitionierende Clusteralgorithmen
  • Bestimmung der Clusteranzahl
  • Variablenselektion
  • Big Data Analysen: Clustern großer Datenmengen, CAST und DBSCAN

Dozentin: Prof. Dr. Katja Ickstadt

Datenanalyse Regression

  • Lineare Modelle, Verallgemeinerte Lineare Modelle
  • Schätzverfahren
  • Residualanalyse
  • Diagnostische Plots
  • Variablenselektion
  • Interpretation
  • Big Data Analysen: penalisierte Regressionsverfahren, Bayes-Verfahren, Unterraumeinbettung und Sampling
  • Evaluation: Vorhersage, Qualitätsmaße, Test

Dozent: Nachmittag: Rahnenführer

Tag 5: Datenanalyse Klassifikation

  • Datenunabhängige Verfahren
  • Bayes-Verfahren
  • Diskriminanzanalyse
  • Logistische Regression
  • Entscheidungsbäume
  • SVM
  • Ensemble Verfahren
  • Evaluation: Resampling, Interpretation, Vorhersage, Konfusionsmaße, Tuning, Variablenselektion, Dimensionsreduktion, Modellselektion
  • Big Data: viele Variablen, viele Beobachtungen

Dozenten: Prof. Dr. Claus Weihs (Unterstützung Dr. Daniel Horn)

Tag 6: Übung zu Modulinhalten

Dozierende:  Vormittag Prof. Dr. Katja Ickstadt, Nachmittag: Dr. Daniel Horn

Tag 7: Visualisierung

  • Grundlagen
  • Visualisierung metrisch skalierter Merkmale
  • Visualisierung kategorieller Merkmale
  • Visualisierung räumlicher Strukturen
  • Visualisierung von Zusammenhängen
  • Visualisierung bei großen Datensätzen

Statistische Versuchsplanung

  • wichtigste Prinzipien der experimentellen Versuchsplanung und deren Analyse
  • Vermittlung grundlegender Verfahren und Modelle für die Planung von Experimenten
  • Fallzahlplanung für eine ausreichende Power und anschließende statistische Analysemethoden
  • allgemeine Guidelines (faktorielles Prinzip, Randomisierung, Blockbildung) zur Planung von Experimenten

Dozenten:  Vormittags: Prof. Dr. Markus Pauly oder M.Sc Burim Ra­mo­saj, Nachmittags Dr. Leo Geppert
 

Tag 8: Fallstudie mit großem Datensatz

  • Analyse eines Datensatzes mit CRISP-DM Prozessmodell
  • Strategien und Technologien zur Analyse riesiger Datenmengen

Dozierende: Prof. Dr. Katja Ickstadt & Prof. Dr. Claus Weihs

Tag 9: Übung: Besprechung der Fallstudie

Dozierende: Vormittag: M.Sc Burim Ra­mo­saj, Dr. Leo Geppert, Nachmittag: Prof. Dr. Katja Ickstadt

Zertifikatsarbeit (bring your own data), schriftliche Ausarbeitung eines Big-Data Falls und mündliche Disputation mit anschließender Diskussion

Dozenten: Betreuer (Pro­fes­soren der TU)

Zwischen den Präsenztagen: Übungsaufgaben zur eigenständigen Bearbeitung
Reflexions- und Transferfähigkeit der Teilnehmenden steht im Vordergrund

Anfahrt & Lageplan

Der Campus der Technischen Universität Dortmund liegt in der Nähe des Autobahnkreuzes Dortmund West, wo die Sauerlandlinie A45 den Ruhrschnellweg B1/A40 kreuzt. Die Abfahrt Dortmund-Eichlinghofen auf der A45 führt zum Campus Süd, die Abfahrt Dortmund-Dorstfeld auf der A40 zum Campus-Nord. An beiden Ausfahrten ist die Universität ausgeschildert.

Direkt auf dem Campus Nord befindet sich die S-Bahn-Station „Dortmund Universität“. Von dort fährt die S-Bahn-Linie S1 im 20- oder 30-Minuten-Takt zum Hauptbahnhof Dortmund und in der Gegenrichtung zum Hauptbahnhof Düsseldorf über Bochum, Essen und Duisburg. Außerdem ist die Universität mit den Buslinien 445, 447 und 462 zu erreichen. Eine Fahrplanauskunft findet sich auf der Homepage des Verkehrsverbundes Rhein-Ruhr, außerdem bieten die DSW21 einen interaktiven Liniennetzplan an.
 

Zu den Wahrzeichen der TU Dortmund gehört die H-Bahn. Linie 1 verkehrt im 10-Minuten-Takt zwischen Dortmund Eichlinghofen und dem Technologiezentrum über Campus Süd und Dortmund Universität S, Linie 2 pendelt im 5-Minuten-Takt zwischen Campus Nord und Campus Süd. Diese Strecke legt sie in zwei Minuten zurück.

Vom Flughafen Dortmund aus gelangt man mit dem AirportExpress innerhalb von gut 20 Minuten zum Dortmunder Hauptbahnhof und von dort mit der S-Bahn zur Universität. Ein größeres Angebot an internationalen Flugverbindungen bietet der etwa 60 Kilometer entfernte Flughafen Düsseldorf, der direkt mit der S-Bahn vom Bahnhof der Universität zu erreichen ist.

Die Einrichtungen der TU Dortmund verteilen sich auf den größeren Campus Nord und den kleineren Campus Süd. Zudem befinden sich einige Bereiche der Hochschule im angrenzenden Technologiepark. Genauere Informationen können Sie den Lageplänen entnehmen.