Profesor | Jimmy Hernández Morales | lu mi vi | 20 a 21 |
Ayudante | ma ju | 20 a 21 |
Introducción a la Ciencia de Datos con Spark
El objetivo del curso es introducir al alumno a los métodos estadísticos de la Ciencia de Datos, conocer el ciclo de vida de un proyecto de Ciencia de Datos desde el conocimiento del negocio, modelado, hasta la disponibilización del modelo en producción. Aprenderá el uso de Spark, uno de los frameworks más usados en la industria, permitiendo que el egresado cuente con una ventaja competitiva en el uso de herramientas computacionales modernas en el área de la Ciencia de Datos.
Prerrequisitos: Es deseable que el alumno haya cursado las materias de Programación, Manejo de Datos o bien ICC, Inferencia Estadística y Modelos no paramétricos y de Regresión.
Introducción.
Breve historia del desarrollo de la Ciencia de Datos y Big Data
Ecosistemas Big Data: componentes y uso.
MapReduce vs Apache Spark
¿Por qué usar Apache Spark?
Casos de éxito en la industria
Apache Spark
Arquitectura de Spark
Conjunto de Datos Resilientes Distribuidos(RDD)
Transformaciones, acciones y operaciones
SparkSession y SparkContext
Jobs, Stages y Task
Carga y transformación de Datos con Dataframes
UDF y funciones de SQL
Spark en Cloud
Databricks y Azure Databricks
Almacenamiento: ADLS y DBFS
Espacios de trabajo, cluster y catálogos
Data Lake y Data Lakehouse
Arquitectura del Medallón
Manipulación de tablas delta
Spark ML
Introducción a Machine Learning
Modelo General de Aprendizaje
Minimización de la función de Riesgo
Descomposición Sesgo-Varianza y Tradeoff
Validación Cruzada
Selección de Modelos
Regresión y Clasificación
Regresión Lasso
Regresión Logística
Máquinas de Soporte Vectorial (SVM)
Arboles y Métodos Ensamble
Árboles de Clasificación
Bagging
Métodos Boosting
AdaBoost
Gradient Tree Boosting
Clustering
Conceptos básicos de clustering
Clustering Jerárquico
K-Means
DBSCAN
Despliegue de Modelos
Ciclo de vida de un proyecto de Ciencia de Datos.
Modelo como servicio
Modelos en Producción mediante APIs y procesos Batch.
Evaluación:
100% Tareas y Proyecto
Bibliografía
Hastie, T., Tibshirani, R., Friedman, J The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer.
G. James, D. Witten, T. Hastie and R. Tibshirani An Introduction to Statistical Learning, with Application in R (Springer, 2013).
Diggle, P Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.
Michie, Spiegelhalter y Taylor y Petrick J. Heagarty , Machine Learning, Neural and Statistical Classification.
Alan Agresti , Categorical Data Analysis, Wiley-Interscience Publication.
Thomas W. Yee, Vector Generalized Linear and Additive Models with implementations in R, Springer.
Andreas Muller, Sarah Guido, Introduction to Machine Learning with Python, a guide for data Scientist Springer.
Bill Chambers y Mateia Zaharia, Spark the definitive Guide, O' Reilly Media, 2018