Encabezado Facultad de Ciencias
Presentación

Actuaría (plan 2015) 2023-1

Optativas, Seminario de Estadística I

Grupo 9281, 55 lugares. 5 alumnos.
Introducción a la Ciencia de Datos y Machine Learning
Profesor Rodrigo Quijón Hipólito lu mi vi 20 a 21 O221
Ayudante Jimmy Hernández Morales ma ju 20 a 21 O221
 

Clase de hoy: https://cuaieed-unam.zoom.us/j/86132228393

Actualmente no basta con entender la teoría estadística detrás de la ciencia de datos, la industria y academia demanda cada vez más profesionales con un buen manejo de herramientas computacionales y cómputo en la nube.

Este es un curso centrado en la intersección de la Estadística, Machine Learning (ML) y Big Data, cuyo objetivo es estudiar métodos modernos de ML tanto sus aspectos teóricos como sus aplicaciones a problemas reales mediante el uso de lenguajes de programación como: Python, R y Frameworks como Spark.

Objetivos

  • Entender los principios matemáticos y computacionales básicos de Machine Learning.
  • Aprender a aplicar técnicas específicas de ML de acuerdo con la naturaleza del problema. Comprender los aspectos teóricos, aplicarlos a un problema en concreto y ser capaz de interpretar resultados para elegir el modelo que mejor se adapte al problema.
  • Estudiar conceptos básicos de Big Data y la Arquitectura de Spark.

Para lograr los objetivos, no solamente trabajaremos con bases estándar de literatura sino con bases similares a datos reales.

Prerrequisitos: Es deseable que el alumno haya cursado alguna materia de programación, además Inferencia Estadística y Modelos no paramétricos y de Regresión.

Temario General

  1. Introducción
  2. Regresión
  3. Métodos de Remuestreo
  4. Aprendizaje Supervisado
  5. Árboles y Métodos de Ensamble
  6. Aprendizaje No Supervisado
  7. Introducción a Cloud Computing

Evaluación:

Tareas Quincenales 100%

Las clases serán presenciales.

Notas:

  • El repositorio del curso estará en GitHub.

1 Introducción

  1. Modelo general de aprendizaje
  2. Minimización de la función de riesgo
  3. Descomposición sesgo-varianza y Tradeoff
  4. Introducción al manejo de datos mediante Pandas. Uso de bibliotecas: Numpy, Scipy, Plotly, Matplotlib y Scikit Learn.

2 Regresión

  1. Regresión multivariable
  2. Selección de modelos
  3. Entropía relativa o divergencia de Kullback-Leibler
  4. (2.3.1) BIC y AIC

3 Métodos de Remuestreo

  1. Validación cruzada
  2. (3.1.1) K-Fold cross validation
  3. (3.1.2) Leave one out
  4. 3.2 Bootstrap

4 Aprendizaje Supervisado

  1. Regresión logística
  2. Clasificadores lineales
  3. Naive Bayes
  4. Máquinas de soporte vectorial
  5. KNN
  6. Métricas de evaluación
  7. (4.6.1)Exactitud, precisión y exhaustividad
  8. (4.6.2) Curva ROC y AUC
  9. Validación y Monitoreos de Modelos

5 Árboles y Métodos de Ensamble

  1. Árboles de clasificación y regresión
  2. Bagging
  3. Boosting
  4. Random Forest

6 Aprendizaje No Supervisado

  1. Análisis de componentes principales
  2. Análisis de clúster
  3. (6.2.1) Métodos basados en particiones
  4. (6.2.2) Métodos jerárquicos
  5. 6.3 Métricas de validación internas
  6. 6.4 Métricas de validación externas

7 Introducción a Cloud Computing

Bibliografía

  1. [1] Hastie, T., Tibshirani, R., Friedman, J The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer.
  2. [2] G. James, D. Witten, T. Hastie and R. Tibshirani An Introduction to Statistical Learning, with Application in R (Springer, 2013).
  3. [3] Diggle, P Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.
  4. [4] Michie, Spiegelhalter y Taylor y Petrick J. Heagarty , Machine Learning, Neural and Statistical Classification.
  5. [5] Alan Agresti , Categorical Data Analysis, Wiley-Interscience Publication.
  6. [6] Thomas W. Yee, Vector Generalized Linear and Additive Models with implementations in R, Springer.
  7. [7] Andreas Muller, Sarah Guido, Introduction to Machine Learning with Python, a guide for data Scientist Springer.
  8. [8] Bill Chambers y Mateia Zaharia, Spark the definitive Guide, O' Reilly Media, 2018

 


Hecho en México, todos los derechos reservados 2011-2016. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma requiere permiso previo por escrito de la Institución.
Sitio web administrado por la Coordinación de los Servicios de Cómputo de la Facultad de Ciencias. ¿Dudas?, ¿comentarios?. Escribenos. Aviso de privacidad.