Kostenlose Online-Bildung

Hochdimensionale Datenanalyse

Beschreibung

Wenn Sie sich für Datenanalyse und -interpretation interessieren, ist dies der datenwissenschaftliche Kurs für Sie. Wir beginnen mit dem Erlernen der mathematischen Definition von Abstand und motivieren damit die Verwendung der Singularwertzerlegung (SVD) zur Dimensionsreduktion und mehrdimensionalen Skalierung sowie deren Verbindung zur Hauptkomponentenanalyse. Wir werden den Batch-Effekt kennenlernen: das derzeit schwierigste datenanalytische Problem in der Genomik - und beschreiben, wie die Techniken zum Erkennen und Anpassen von Batch-Effekten verwendet werden können. Insbesondere werden wir die Hauptkomponentenanalyse und Faktoranalyse beschreiben und zeigen, wie diese Konzepte auf die Datenvisualisierung und Datenanalyse von experimentellen Daten mit hohem Durchsatz angewendet werden. Abschließend geben wir eine kurze Einführung in das maschinelle Lernen und wenden es auf Daten mit hohem Durchsatz an. Wir beschreiben die allgemeine Idee hinter der Clusteranalyse und beschreiben K-Mittelwerte und hierarchische Clusterbildung und demonstrieren, wie diese in der Genomik verwendet werden, und beschreiben Vorhersagealgorithmen wie k-nächste Nachbarn zusammen mit den Konzepten von Trainingssätzen, Testsätzen, Fehlerraten und Kreuzungen Validierung. Angesichts der Verschiedenartigkeit des Bildungshintergrunds unserer Schüler haben wir die Reihe in sieben Teile unterteilt. Sie können die gesamte Serie oder einzelne Kurse belegen, die Sie interessieren. Wenn Sie ein Statistiker sind, sollten Sie die ersten zwei oder drei Kurse überspringen. Wenn Sie Biologen sind, sollten Sie auch einige der einführenden Biologie-Vorlesungen überspringen. Beachten Sie, dass die Statistik- und Programmieraspekte der Klasse in den ersten drei Kursen relativ schnell in Schwierigkeiten geraten. Im dritten Kurs werden fortgeschrittene statistische Konzepte wie hierarchische Modelle und im vierten Kurs fortgeschrittene Softwareentwicklungsfähigkeiten wie paralleles Rechnen und reproduzierbare Forschungskonzepte vermittelt. Diese Kurse bestehen aus 2 XSeries und sind im eigenen Tempo: PH525.1x: Statistik und R für die Biowissenschaften PH525.2x: Einführung in lineare Modelle und Matrixalgebra PH525.3x: Statistische Inferenz und Modellierung für Hochdurchsatz-Experimente PH525.4x : Hochdimensionale Datenanalyse PH525.5x: Einführung in Bioconductor: Annotation und Analyse von Genomen und genomischen Assays PH525.6x: Hochleistungsrechnen für reproduzierbare Genomik PH525.7x: Fallstudien zur funktionellen Genomik Diese Klasse wurde teilweise von NIH unterstützt gewähren Sie R25GM114818.  

Preis: Kostenlose Prüfung!

Hochdimensionale Datenanalyse durch edX, eine von Harvard und MIT gegründete Bildungsplattform.

Hochdimensionale Datenanalyse -