Skalierbares maschinelles Lernen auf Big Data mit Apache Spark

Beschreibung

Dieser Kurs vermittelt Ihnen die Fähigkeit, Data Science- und Machine Learning (ML) -Aufgaben für Big Data-Sets mit Apache Spark zu skalieren. Die meisten realen maschinellen Lernarbeiten umfassen sehr große Datenmengen, die über die CPU-, Speicher- und Speicherbeschränkungen eines einzelnen Computers hinausgehen.

Apache Spark ist ein Open Source-Framework, das Cluster-Computing und verteilten Speicher nutzt, um extrem große Datenmengen effizient und kostengünstig zu verarbeiten. Daher ist ein angewandtes Wissen über die Arbeit mit Apache Spark ein großer Vorteil und ein potenzielles Unterscheidungsmerkmal für einen Ingenieur für maschinelles Lernen.

Nach Abschluss dieses Kurses können Sie:
- ein praktisches Verständnis von Apache Spark erlangen und es anwenden, um Probleme des maschinellen Lernens zu lösen, die sowohl kleine als auch große Datenmengen betreffen
- verstehen, wie paralleler Code geschrieben wird, der auf Tausenden von CPUs ausgeführt werden kann.
- Verwenden Sie große Rechencluster, um Algorithmen für maschinelles Lernen auf Petabytes an Daten mithilfe von Apache SparkML-Pipelines anzuwenden.
- Beseitigen Sie Speicherfehler, die durch herkömmliche Frameworks für maschinelles Lernen verursacht werden, wenn Daten nicht in den Hauptspeicher eines Computers passen
- Testen Sie Tausende verschiedener ML-Modelle parallel, um das leistungsstärkste zu finden - eine Technik, die von vielen erfolgreichen Kagglern verwendet wird
- (Optional) Ausführen von SQL-Anweisungen für sehr große Datenmengen mit Apache SparkSQL und der Apache Spark DataFrame-API.

Melden Sie sich jetzt an, um die Techniken des maschinellen Lernens für die Arbeit mit Big Data zu erlernen, die von Unternehmen wie Alibaba, Apple, Amazon, Baidu, eBay, IBM, der NASA, Samsung, SAP, TripAdvisor, Yahoo! Zalando und vielen anderen erfolgreich angewendet wurden.

ANMERKUNG: Sie üben das praktische Ausführen von maschinellen Lernaufgaben in einem von IBM bereitgestellten Apache Spark-Cluster während des Kurses, den Sie anschließend weiter verwenden können.

Voraussetzungen:
- Grundlegende Python-Programmierung
- Grundlegendes maschinelles Lernen (optionale Einführungsvideos werden auch in diesem Kurs bereitgestellt)
- Grundlegende SQL-Kenntnisse für optionale Inhalte

Die folgenden Kurse werden empfohlen, bevor Sie an diesem Kurs teilnehmen (es sei denn, Sie verfügen bereits über die erforderlichen Kenntnisse).
https://www.coursera.org/learn/python-for-applied-data-science or similar
https://www.coursera.org/learn/machine-learning-with-python or similar
https://www.coursera.org/learn/sql-data-science for optional lectures