Grundlagen der skalierbaren Datenwissenschaft Das Universitätsnetzwerk

Beschreibung

Apache Spark ist der De-facto-Standard für die Datenverarbeitung in großem Maßstab. Dies ist der erste Kurs einer Reihe von Kursen zur IBM Advanced Data Science Specialization. Wir sind der festen Überzeugung, dass dies für den Erfolg entscheidend ist, um mit dem Erlernen einer skalierbaren Data Science-Plattform zu beginnen, da Speicher- und CPU-Einschränkungen die wichtigsten Faktoren beim Aufbau fortschrittlicher Modelle für maschinelles Lernen sind.

In diesem Kurs vermitteln wir Ihnen die Grundlagen von Apache Spark mit Python und Pyspark. Wir werden Apache Spark in den ersten zwei Wochen einführen und lernen, wie man es anwendet, um grundlegende Explorations- und Datenvorverarbeitungsaufgaben in den letzten zwei Wochen zu berechnen. In dieser Übung werden Sie auch in die grundlegendsten statistischen Maßnahmen und Datenvisualisierungstechnologien eingeführt.

Dies gibt Ihnen genug Wissen, um die Rolle eines Dateningenieurs in jeder modernen Umgebung zu übernehmen. Es gibt Ihnen aber auch die Grundlage, um Ihre Karriere in Richtung Data Science voranzutreiben.

Bitte schauen Sie sich den vollständigen Lehrplan für Spezialisierungen an:
https://www.coursera.org/specializations/advanced-data-science-ibm

Wenn Sie diesen Kurs belegen und das Coursera-Kurszertifikat erwerben, erhalten Sie auch ein IBM Digital Badge. Weitere Informationen zu IBM Digital Badges finden Sie unter dem Link ibm.biz/badging.

Nach Abschluss dieses Kurses können Sie:
• Beschreiben Sie, wie grundlegende statistische Kennzahlen verwendet werden, um Muster in den Daten aufzudecken
• Erkennen Sie Datenmerkmale, Muster, Trends, Abweichungen oder Inkonsistenzen und potenzielle Ausreißer.
• Identifizieren Sie nützliche Techniken für die Arbeit mit Big Data, z. B. Dimensionsreduzierung und Methoden zur Merkmalsauswahl
• Verwenden Sie erweiterte Tools und Diagrammbibliotheken, um:
o Verbesserung der Effizienz der Analyse von Big Data durch Partitionierung und parallele Analyse
o Visualisieren Sie die Daten in einer Reihe von 2D- und 3D-Formaten (Box-Plot, Run-Diagramm, Streudiagramm, Pareto-Diagramm und mehrdimensionale Skalierung).

Für den erfolgreichen Abschluss des Kurses werden folgende Voraussetzungen empfohlen:
• Grundlegende Programmierkenntnisse in Python
• Grundlegende Mathematik
• Basic SQL (Sie können es bei Bedarf einfach unter https://www.coursera.org/learn/sql-data-science herunterladen).

Um diesen Kurs abzuschließen, werden die folgenden Technologien verwendet:
(Diese Technologien werden bei Bedarf im Kurs eingeführt, sodass keine Vorkenntnisse erforderlich sind.)
• Jupyter-Notebooks (kostenlos von IBM Watson Studio zur Verfügung gestellt)
• ApacheSpark (kostenlos von IBM Watson Studio zur Verfügung gestellt)
• Python

Dieser Kurs dauert vier Wochen, 4-6 Stunden pro Woche