Presentación

Actuaría (plan 2015) 2023-1

Optativas, Seminario de Estadística I

Grupo 9281, 55 lugares. 5 alumnos.

Introducción a la Ciencia de Datos y Machine Learning

Profesor	Rodrigo Quijón Hipólito	lu mi vi	20 a 21	O221
Ayudante	Jimmy Hernández Morales	ma ju	20 a 21	O221

Clase de hoy: https://cuaieed-unam.zoom.us/j/86132228393

Actualmente no basta con entender la teoría estadística detrás de la ciencia de datos, la industria y academia demanda cada vez más profesionales con un buen manejo de herramientas computacionales y cómputo en la nube.

Este es un curso centrado en la intersección de la Estadística, Machine Learning (ML) y Big Data, cuyo objetivo es estudiar métodos modernos de ML tanto sus aspectos teóricos como sus aplicaciones a problemas reales mediante el uso de lenguajes de programación como: Python, R y Frameworks como Spark.

Objetivos

Entender los principios matemáticos y computacionales básicos de Machine Learning.
Aprender a aplicar técnicas específicas de ML de acuerdo con la naturaleza del problema. Comprender los aspectos teóricos, aplicarlos a un problema en concreto y ser capaz de interpretar resultados para elegir el modelo que mejor se adapte al problema.
Estudiar conceptos básicos de Big Data y la Arquitectura de Spark.

Para lograr los objetivos, no solamente trabajaremos con bases estándar de literatura sino con bases similares a datos reales.

Prerrequisitos: Es deseable que el alumno haya cursado alguna materia de programación, además Inferencia Estadística y Modelos no paramétricos y de Regresión.

Temario General

Introducción
Regresión
Métodos de Remuestreo
Aprendizaje Supervisado
Árboles y Métodos de Ensamble
Aprendizaje No Supervisado
Introducción a Cloud Computing

Evaluación:

Tareas Quincenales 100%

Las clases serán presenciales.

Notas:

El repositorio del curso estará en GitHub.

1 Introducción

Modelo general de aprendizaje
Minimización de la función de riesgo
Descomposición sesgo-varianza y Tradeoff
Introducción al manejo de datos mediante Pandas. Uso de bibliotecas: Numpy, Scipy, Plotly, Matplotlib y Scikit Learn.

2 Regresión

Regresión multivariable
Selección de modelos
Entropía relativa o divergencia de Kullback-Leibler
(2.3.1) BIC y AIC

3 Métodos de Remuestreo

Validación cruzada
(3.1.1) K-Fold cross validation
(3.1.2) Leave one out
3.2 Bootstrap

4 Aprendizaje Supervisado

Regresión logística
Clasificadores lineales
Naive Bayes
Máquinas de soporte vectorial
KNN
Métricas de evaluación
(4.6.1)Exactitud, precisión y exhaustividad
(4.6.2) Curva ROC y AUC
Validación y Monitoreos de Modelos

5 Árboles y Métodos de Ensamble

Árboles de clasificación y regresión
Bagging
Boosting
Random Forest

6 Aprendizaje No Supervisado

Análisis de componentes principales
Análisis de clúster
(6.2.1) Métodos basados en particiones
(6.2.2) Métodos jerárquicos
6.3 Métricas de validación internas
6.4 Métricas de validación externas

7 Introducción a Cloud Computing

Bibliografía

[1] Hastie, T., Tibshirani, R., Friedman, J The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer.
[2] G. James, D. Witten, T. Hastie and R. Tibshirani An Introduction to Statistical Learning, with Application in R (Springer, 2013).
[3] Diggle, P Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.
[4] Michie, Spiegelhalter y Taylor y Petrick J. Heagarty , Machine Learning, Neural and Statistical Classification.
[5] Alan Agresti , Categorical Data Analysis, Wiley-Interscience Publication.
[6] Thomas W. Yee, Vector Generalized Linear and Additive Models with implementations in R, Springer.
[7] Andreas Muller, Sarah Guido, Introduction to Machine Learning with Python, a guide for data Scientist Springer.
[8] Bill Chambers y Mateia Zaharia, Spark the definitive Guide, O' Reilly Media, 2018

Ciencias en:

Facebook

Twitter

Youtube

Hecho en México, todos los derechos reservados 2011-2016. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma requiere permiso previo por escrito de la Institución.

Sitio web administrado por la Coordinación de los Servicios de Cómputo de la Facultad de Ciencias. ¿Dudas?, ¿comentarios?. Escribenos. Aviso de privacidad.

Comunidad

Licenciatura

Docencia

Investigación

Posgrado

Extensión

Servicios

Nosotros

Eventos

Actuaría (plan 2015) 2023-1

Optativas, Seminario de Estadística I

Las clases serán presenciales.