Datenmanipulation im großen Maßstab: Systeme und Algorithmen

Beschreibung

Die Datenanalyse hat die Datenerfassung als Engpass bei der evidenzbasierten Entscheidungsfindung abgelöst – wir ertrinken darin. Das Extrahieren von Wissen aus großen, heterogenen und verrauschten Datensätzen erfordert nicht nur leistungsstarke Rechenressourcen, sondern auch die Programmierabstraktionen, um diese effektiv zu nutzen. Die im letzten Jahrzehnt entstandenen Abstraktionen verschmelzen Ideen aus parallelen Datenbanken, verteilten Systemen und Programmiersprachen, um eine neue Klasse skalierbarer Datenanalyseplattformen zu schaffen, die die Grundlage für Datenwissenschaft in realistischen Maßstäben bilden.

In diesem Kurs lernen Sie die Landschaft relevanter Systeme kennen, die Prinzipien, auf denen sie basieren, ihre Kompromisse und wie Sie ihren Nutzen anhand Ihrer Anforderungen bewerten. Sie erfahren, wie praktische Systeme aus den Grenzen der Informatikforschung abgeleitet wurden und welche Systeme am Horizont auftauchen. Behandelt werden Cloud Computing, SQL- und NoSQL-Datenbanken, MapReduce und das daraus entstandene Ökosystem, Spark und seine Zeitgenossen sowie spezielle Systeme für Diagramme und Arrays.

Sie lernen außerdem die Geschichte und den Kontext von Data Science, die Fähigkeiten, Herausforderungen und Methoden kennen, die der Begriff impliziert, und wie Sie ein Data Science-Projekt strukturieren. Am Ende dieses Kurses werden Sie in der Lage sein:

Lernziele:
1. Beschreiben Sie gemeinsame Muster, Herausforderungen und Ansätze im Zusammenhang mit Data-Science-Projekten und was sie von Projekten in verwandten Bereichen unterscheidet.
2. Identifizieren und verwenden Sie die Programmiermodelle, die mit der skalierbaren Datenmanipulation verbunden sind, einschließlich relationaler Algebra, Mapreduce und anderer Datenflussmodelle.
3. Nutzen Sie Datenbanktechnologien, die für groß angelegte Analysen geeignet sind, einschließlich der Konzepte für parallele Datenbanken, parallele Abfrageverarbeitung und datenbankinterne Analysen
4. Bewerten Sie Schlüsselwertspeicher und NoSQL-Systeme, beschreiben Sie ihre Kompromisse mit vergleichbaren Systemen, die Details wichtiger Beispiele in diesem Bereich und zukünftige Trends.
5. „Denken“ Sie in MapReduce, um effektiv Algorithmen für Systeme wie Hadoop und Spark zu schreiben. Sie werden ihre Einschränkungen, Designdetails, ihre Beziehung zu Datenbanken und das damit verbundene Ökosystem aus Algorithmen, Erweiterungen und Sprachen verstehen.
Schreiben Sie Programme in Spark
6. Beschreiben Sie die Landschaft spezialisierter Big-Data-Systeme für Diagramme, Arrays und Streams