Encabezado Facultad de Ciencias
Presentación

Actuaría (plan 2015) 2025-1

Optativas, Seminario de Estadística II

Grupo 9272, 60 lugares.
Introducción a la Ciencia de Datos con Spark.
Profesor Jimmy Hernández Morales lu mi vi 20 a 21
Ayudante ma ju 20 a 21
 

Introducción a la Ciencia de Datos con Spark

El objetivo del curso es introducir al alumno a los métodos estadísticos de la Ciencia de Datos, conocer el ciclo de vida de un proyecto de Ciencia de Datos desde el conocimiento del negocio, modelado, hasta la disponibilización del modelo en producción. Aprenderá el uso de Spark, uno de los frameworks más usados en la industria, permitiendo que el egresado cuente con una ventaja competitiva en el uso de herramientas computacionales modernas en el área de la Ciencia de Datos.

Prerrequisitos: Es deseable que el alumno haya cursado las materias de Programación, Manejo de Datos o bien ICC, Inferencia Estadística y Modelos no paramétricos y de Regresión.

  1. Introducción.

    1. Breve historia del desarrollo de la Ciencia de Datos y Big Data

    2. Ecosistemas Big Data: componentes y uso.

    3. MapReduce vs Apache Spark

    4. ¿Por qué usar Apache Spark?

    5. Casos de éxito en la industria

  2. Apache Spark

    1. Arquitectura de Spark

    2. Conjunto de Datos Resilientes Distribuidos(RDD)

    3. Transformaciones, acciones y operaciones

    4. SparkSession y SparkContext

    5. Jobs, Stages y Task

    6. Carga y transformación de Datos con Dataframes

    7. UDF y funciones de SQL

  3. Spark en Cloud

    1. Databricks y Azure Databricks

    2. Almacenamiento: ADLS y DBFS

    3. Espacios de trabajo, cluster y catálogos

    4. Data Lake y Data Lakehouse

    5. Arquitectura del Medallón

    6. Manipulación de tablas delta

    7. Spark ML

  4. Introducción a Machine Learning

    1. Modelo General de Aprendizaje

    2. Minimización de la función de Riesgo

    3. Descomposición Sesgo-Varianza y Tradeoff

    4. Validación Cruzada

    5. Selección de Modelos

  5. Regresión y Clasificación

    1. Regresión Lasso

    2. Regresión Logística

    3. Máquinas de Soporte Vectorial (SVM)

  6. Arboles y Métodos Ensamble

    1. Árboles de Clasificación

    2. Bagging

    3. Métodos Boosting

      1. AdaBoost

      2. Gradient Tree Boosting

  7. Clustering

    1. Conceptos básicos de clustering

    2. Clustering Jerárquico

    3. K-Means

    4. DBSCAN

  8. Despliegue de Modelos

    1. Ciclo de vida de un proyecto de Ciencia de Datos.

    2. Modelo como servicio

    3. Modelos en Producción mediante APIs y procesos Batch.

Evaluación:

100% Tareas y Proyecto

Bibliografía

  1. Hastie, T., Tibshirani, R., Friedman, J The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer.

  2. G. James, D. Witten, T. Hastie and R. Tibshirani An Introduction to Statistical Learning, with Application in R (Springer, 2013).

  3. Diggle, P Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.

  4. Michie, Spiegelhalter y Taylor y Petrick J. Heagarty , Machine Learning, Neural and Statistical Classification.

  5. Alan Agresti , Categorical Data Analysis, Wiley-Interscience Publication.

  6. Thomas W. Yee, Vector Generalized Linear and Additive Models with implementations in R, Springer.

  7. Andreas Muller, Sarah Guido, Introduction to Machine Learning with Python, a guide for data Scientist Springer.

  8. Bill Chambers y Mateia Zaharia, Spark the definitive Guide, O' Reilly Media, 2018

 


Hecho en México, todos los derechos reservados 2011-2016. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma requiere permiso previo por escrito de la Institución.
Sitio web administrado por la Coordinación de los Servicios de Cómputo de la Facultad de Ciencias. ¿Dudas?, ¿comentarios?. Escribenos. Aviso de privacidad.