Datenmanipulation im Maßstab: Systeme und Algorithmen

Datenmanipulation im Maßstab: Systeme und Algorithmen

Beschreibung

Die Datenanalyse hat die Datenerfassung als Engpass bei evidenzbasierten Entscheidungen abgelöst - wir ertrinken darin. Das Extrahieren von Wissen aus großen, heterogenen und verrauschten Datensätzen erfordert nicht nur leistungsstarke Computerressourcen, sondern auch die Programmierabstraktionen, um sie effektiv zu nutzen. Die Abstraktionen, die im letzten Jahrzehnt entstanden sind, kombinieren Ideen aus parallelen Datenbanken, verteilten Systemen und Programmiersprachen, um eine neue Klasse skalierbarer Datenanalyseplattformen zu schaffen, die die Grundlage für die Datenwissenschaft in realistischen Maßstäben bilden.

In diesem Kurs lernen Sie die Landschaft relevanter Systeme, die Prinzipien, auf denen sie beruhen, ihre Kompromisse und wie Sie ihren Nutzen anhand Ihrer Anforderungen bewerten können. Sie erfahren, wie praktische Systeme aus den Grenzen der Informatikforschung abgeleitet wurden und welche Systeme sich am Horizont abzeichnen. Cloud Computing, SQL- und NoSQL-Datenbanken, MapReduce und das von ihm hervorgebrachte Ökosystem, Spark und seine Zeitgenossen sowie spezialisierte Systeme für Grafiken und Arrays werden behandelt.

Sie lernen auch die Geschichte und den Kontext der Datenwissenschaft, die Fähigkeiten, Herausforderungen und Methoden des Begriffs sowie die Strukturierung eines datenwissenschaftlichen Projekts kennen. Am Ende dieses Kurses können Sie:

Lernziele:
1. Beschreiben Sie allgemeine Muster, Herausforderungen und Ansätze, die mit datenwissenschaftlichen Projekten verbunden sind, und was sie von Projekten in verwandten Bereichen unterscheidet.
2. Identifizieren und verwenden Sie die Programmiermodelle, die mit skalierbaren Datenmanipulationen verbunden sind, einschließlich relationaler Algebra, Mapreduce und anderer Datenflussmodelle.
3. Verwenden Sie eine Datenbanktechnologie, die für umfangreiche Analysen angepasst ist, einschließlich der Konzepte für parallele Datenbanken, parallele Abfrageverarbeitung und datenbankinterne Analysen
4. Bewerten Sie Schlüsselwertspeicher und NoSQL-Systeme, beschreiben Sie deren Kompromisse mit vergleichbaren Systemen, die Details wichtiger Beispiele im Raum und zukünftige Trends.
5. Denken Sie in MapReduce, um Algorithmen für Systeme wie Hadoop und Spark effektiv zu schreiben. Sie werden ihre Einschränkungen, Designdetails, ihre Beziehung zu Datenbanken und das damit verbundene Ökosystem von Algorithmen, Erweiterungen und Sprachen verstehen.
Schreiben Sie Programme in Spark
6. Beschreiben Sie die Landschaft spezialisierter Big Data-Systeme für Diagramme, Arrays und Streams

Preis: Kostenlos anmelden!

Sprache: Englisch

Untertitel: Englisch

Datenmanipulation im Maßstab: Systeme und Algorithmen - Universität von Washington