Big Data Analytics mit Spark | Das Universitätsnetzwerk

Beschreibung

In der Datenwissenschaft werden Daten als „groß“ bezeichnet, wenn sie nicht in den Speicher eines einzelnen Standard-Laptops oder einer einzelnen Workstation passen. Die Analyse großer Datenmengen erfordert die Verwendung eines Clusters von zehn, Hunderten oder Tausenden von Computern. Die effektive Verwendung solcher Cluster erfordert die Verwendung verteilter Dateisysteme wie des Hadoop Distributed File System (HDFS) und entsprechender Rechenmodelle wie Hadoop, MapReduce und Spark. In diesem Kurs, der Teil des Data Science MicroMasters-Programms ist, erfahren Sie, welche Engpässe bei der massiven parallelen Berechnung auftreten und wie Sie diese Engpässe mithilfe von Funken minimieren können. Mithilfe der Machine Learning Library (MLlib) lernen Sie, wie Sie überwachtes und unbeaufsichtigtes maschinelles Lernen an umfangreichen Datensätzen durchführen. In diesem Kurs sammeln Sie wie in den anderen Kursen in diesem MicroMasters-Programm praktische Erfahrungen mit PySpark in der Jupyter-Notebook-Umgebung.