Profesor | Guillermina Eslava Gómez | lu mi vi | 13 a 14 | Se impartirá en el 303 del Nuevo Edificio |
Ayudante | Daniela Portillo del Valle | ma ju | 13 a 14 | Se impartirá en el 303 del Nuevo Edificio |
Aprendizaje estadístico automatizado (Statistical machine learning), 2020-1.
Grupos paralelos: 9307 Seminario de Estadística I, y 9147 Seminario de Aplicaciones Actuariales. Salón 303 del Nuevo Edificio, 13-14hrs.
Guillermina Eslava, eslava@ciencias.unam.mx, cubículo 102, Dep. de Matemáticas, F.C. Ayudante: Daniela Portillo del Valle, danielapdv@ciencias.unam.mx.
Requisitos: Haber cursado y aprobado Inferencia estadística, y Modelos no paramétricos y de regresión (Estadística I y II).
No se aceptan oyentes.
TEMARIO
1. Introducción
i) Manejo de datos en R.
ii) Estadística descriptiva y Visualización de datos.
iii) Tipo de variables: discretas, ordinales, contínuas, y mixtas.
iv) Lineamiento generales para la redacción y presentación de las tareas y el proyecto.
v) Introducción a latex.
2. Modelos de regresión
i) Repaso del modelo de Regresión lineal múltiple
ii) Modelos con variables contínuas, binarias, discretas, y mixtas.
iii) Transformaciones e interacciones
iv) Modelos de Regresión en alta dimensión
v) Selección clásica de modelos
3. Aprendizaje no supervisado.
i) Análisis de Componentes Principales
ii) Análisis de conglomerados
4. Aprendizaje supervizado.
i ) Regresión logística
ii) Análisis de discriminante lineal y cuadrático
iii) Discriminante k nearest neighbour
5. Métodos de evaluación y selección de modelos
i) Introducción
ii) Cross-Validation
ii) Bootstrap
6. Selección de modelos y regularización.
i) Selección de modelos en alta dimensión
ii) Lasso,
iii) Ridge regression
iv) Relaxed lasso
7. Modelos de árboles.
i) Trees (Arboles de decisión)
ii) Random forest
iii) Boosting
8. Redes Neuronales.
i) One-layer
ii) Multilayer
iii) Introducción a Deep learning NN.
Bibliografía
Efron, B., Hastie, T. (2016). Computer Age Statistical Inference. Algorithms, Evidence and Data Science. Cambridge University Press.
Hastie, T., Tibshirani, R., Friedman, J. (2009). The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer. texto a seguir en el curso y disponible en Springer a trav ́es de la UNAM
Hastie, T., Tibshirani, R., Wainwright, M. (2015). Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.
James, G., Witten, D., Hastie, T., Tibshirani, R. (2013). An introduction to Statistical Learning. With applications in R, Springer. Texto a seguir en el laboratorio del curso y disponible en Springer a trav ́es de la UNAM
Ripley, B.D. (1996). Pattern Recognition and Neural Networks. Cambridge University Press.
Strang G. (2019). Linear Algebra and Learning from Data. CUP
Venables, W.N. and Ripley, B.D. (2002). Modern Applied Statistics with S. Springer–Verlag.
Cursos en linea. E.g.:
Hastie & Tibshirani: https://www.r-bloggers.com/in-depth-introduction-to-machine-learning- in-15-hours-of-expert- videos/
G. Strang: https://ocw.mit.edu/courses/mathematics/18-065-matrix-methods-in-data-analysis- signal-processing-and-machine-learning-spring-2018/video-lectures/
Evaluación:
i) Cada capítulo, excepto la introducción, será evaluado con un examen–tarea, 75%.
ii) Un proyecto individual final para presentarse de forma oral y escrita, 25%.
Nota: Los proyectos de buen nivel podrán continuarse como trabajos de tesis.