Data Science und Big Data

Posted on
Print Friendly, PDF & Email
Big Data Analytics ist der oft komplexe Prozess der Untersuchung großer und vielfältiger Datensätze – oder großer Datenmengen -, um Informationen wie versteckte Muster, unbekannte Zusammenhänge, Markttrends und Kundenpräferenzen aufzudecken, die Unternehmen helfen können, fundierte Geschäftsentscheidungen zu treffen.
Machine Learning wird heute im Wesentlichen in allen datenbasierten Bereichen eingesetzt. Big Data ist allgegenwärtig, von der Privatwirtschaft bis hin zu staatlichen Organisationen. Es ist ein neuer Ansatz zur Problemlösung und obwohl das Potenzial oft übertrieben ist, eröffnet Machine Learning in der Tat spannende neue Möglichkeiten, stellt aber auch einige sehr reale Herausforderungen dar. Die Fähigkeit, große Datenmengen aus verschiedenen Quellen zu analysieren und zu kombinieren, hat offensichtlich breite Anwendungen. Die mangelnde Qualität der Daten in Verbindung mit einer hohen Varianz führt jedoch dazu, dass herkömmliche Analysen oft scheitern. Um dem entgegenzuwirken, bedarf es einer angemessenen Schulung in der korrekten Anwendung von Machine Learning Algorithmen.

Big Data ist ein riesiger Bereich, der Elemente aus den Bereichen Technologie, Statistik, Visualisierung, Business Intelligence und vielen anderen Bereichen umfasst. Um aus Daten, die oft aufgrund von Volumen- oder technischen Einschränkungen nicht leicht zugänglich sind, einen echten Mehrwert zu ziehen, müssen Unternehmen sowohl auf Software- als auch auf Hardwareebene auf geeignete Tools zurückgreifen.

Daten wurden als neue globale Währung bezeichnet, und ihr rasanter Aufstieg verändert ganze Branchen und treibt die Nachfrage nach Praktikern. Von Gesundheitsversorgung und Finanzen bis hin zu Unterhaltung, Cybersicherheit und darüber hinaus wächst der Bedarf an Datenwissenschaftlern weiter und zwar parallel zu den Möglichkeiten zur beruflichen Weiterentwicklung in diesem Bereich.

Zielgruppe für das Seminar

Dieser Kurs eignet sich für alle, die sich für Big Data, Hadoop und Data Science interessieren. Das einzige Kriterium ist die Lernbereitschaft. Er wird für einen Ingenieurabsolventen ebenso nützlich sein wie für einen Betriebswirt und ist so konzipiert und gestaltet, dass es den Wissensanforderungen sowohl eines IT-Mitarbeiters als auch eines Anwenders problemlos gerecht wird.

Voraussetzungen für das Seminar

Sie sollten Interesse an Datentechnik und Kenntnisse der Programmiersprache R oder Python haben und mit den grundlegenden Konzepten der Mathematik wie Statistik, Linearer Algebra und Wahrscheinlichkeitsrechnung vertraut sein. Ohne Vorkenntnisse besuchen Sie bitte unser fünftägiges Training → Grundlagen der Statistik mit Python und bei geringen Vorkenntnissen entweder das dreitägige Basis-Training → Multivariate Datenanalyse mit Python oder das dreitägige Training → Data Mining mit Python.

Lernziele des Seminars

Sie werden in der Lage sein, eine grundlegende Maschinelle Lernanalyse von Anfang bis Ende einzurichten: Vom Abrufen und Reinigen der Daten, das Extrahieren von Mustern und das Auffinden von Ausreißern bis hin zum Erstellen der notwendigen Daten. Sie lernen eine Reihe von fortschrittlichen Tools zur Datenreinigung, statistischen Analyse sehr großer Datensätze, Datenstromanalyse, Auffinden von Mustern und Ausreißern in Big Data.

Dauer des Seminars

  • Rahmen: 5 Tage mit 40 Stunden Präsenzschulung (täglich 8 Stunden, 9-17 Uhr)
  • Aufteilung Theorie/Praxis: 70% Vorlesung + 30 % Praxis, Übungen und Demos

Inhalte des Seminars

Data Science und Big Data
pro Person in Köln, Berlin oder Frankfurt
2.800 Euro
(3.332,00 Euro inkl. 19% MwSt.)
Inhalte
  • Arten von digitalen Daten (strukturiert, unstrukturiert)
  • Big Data Analytics
  • Big Data Technologie-Landschaft
  • Einführung in Hadoop, MongoDB, Cassandra, MAPREDUCE Programmierung, Hive, Pig
  • Einführung in das Maschinelle Lernen
    • Regressions-Modelle
    • Clustering
    • Collaborative Filtering
    • Association Rule Mining
    • Decision Tree
    • Random Forest
    • Support Vector Machines
    • Neuronale Netze
Voraussetzungen
  • Kenntnisse über grundlegende Konzepte der Statistik, der linearen Algebra und der Wahrscheinlichkeitsrechnung
  • Kenntnisse der Programmiersprachen R oder Python und Interesse an Datentechnik

Ohne Vorkenntnisse besuchen Sie bitte unser fünftägiges Training → Grundlagen der Statistik mit Python und bei geringen Vorkenntnissen entweder das dreitägige Basis-Training → Multivariate Datenanalyse mit Python oder das dreitägige Training → Data Mining mit Python.

Seminartyp und Dauer
  • offene 5-Tages-Schulung mit 2-10 Teilnehmer
  • Unterricht 9-17 Uhr mit angemessenen Pausen
  • 40 Stunden Präsenzschulung, d.h. 8 Stunden täglich
  • 70% Vorlesung + 30 % Praxis, Übungen und Demos