Actuaría (plan 2015) 2024-2
Optativas, Seminario de Estadística I
Grupo 9265, 24 lugares. 6 alumnos.
Introducción a la Ciencia de Datos y Machine Learning
Actualmente no basta con entender la teoría estadística detrás de la ciencia de datos, la industria y academia demanda cada vez más profesionales con un buen manejo de herramientas computacionales y cómputo en la nube.
Este es un curso centrado en la intersección de la Estadística, Machine Learning (ML) y Big Data, cuyo objetivo es estudiar métodos modernos de ML tanto sus aspectos teóricos como sus aplicaciones a problemas reales mediante el uso de lenguajes de programación como: Python, R y Frameworks como Spark.
Objetivos
-
Entender los principios matemáticos y computacionales básicos de Machine Learning.
-
Aprender a aplicar técnicas específicas de ML de acuerdo con la naturaleza del problema. Comprender los aspectos teóricos, aplicarlos a un problema en concreto y ser capaz de interpretar resultados para elegir el modelo que mejor se adapte al problema.
-
Estudiar conceptos básicos de Big Data y la Arquitectura de Spark.
Para lograr los objetivos, no solamente trabajaremos con bases estándar de literatura sino con bases similares a datos reales.
Prerrequisitos: Es deseable que el alumno haya cursado alguna materia de programación, además Inferencia Estadística y Modelos no paramétricos y de Regresión.
Temario General
-
Introducción
-
Regresión
-
Métodos de Remuestreo
-
Aprendizaje Supervisado
-
Árboles y Métodos de Ensamble
-
Aprendizaje No Supervisado
-
Introducción a Cloud Computing
Evaluación:
Tareas Quincenales 100%
Notas:
1 Introducción
-
Modelo general de aprendizaje
-
Minimización de la función de riesgo
-
Descomposición sesgo-varianza y Tradeoff
-
Introducción al manejo de datos mediante Pandas. Uso de bibliotecas: Numpy, Scipy, Plotly, Matplotlib y Scikit Learn.
2 Regresión
-
Regresión multivariable
-
Selección de modelos
-
Entropía relativa o divergencia de Kullback-Leibler
-
(2.3.1) BIC y AIC
3 Métodos de Remuestreo
-
Validación cruzada
-
(3.1.1) K-Fold cross validation
-
(3.1.2) Leave one out
-
3.2 Bootstrap
4 Aprendizaje Supervisado
-
Regresión logística
-
Clasificadores lineales
-
Naive Bayes
-
Máquinas de soporte vectorial
-
KNN
-
Métricas de evaluación
-
(4.6.1)Exactitud, precisión y exhaustividad
-
(4.6.2) Curva ROC y AUC
-
Validación y Monitoreos de Modelos
5 Árboles y Métodos de Ensamble
-
Árboles de clasificación y regresión
-
Bagging
-
Boosting
-
Random Forest
6 Aprendizaje No Supervisado
-
Análisis de componentes principales
-
Análisis de clúster
-
(6.2.1) Métodos basados en particiones
-
(6.2.2) Métodos jerárquicos
-
6.3 Métricas de validación internas
-
6.4 Métricas de validación externas
7 Introducción a Cloud Computing
Bibliografía
-
[1] Hastie, T., Tibshirani, R., Friedman, J The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer.
-
[2] G. James, D. Witten, T. Hastie and R. Tibshirani An Introduction to Statistical Learning, with Application in R (Springer, 2013).
-
[3] Diggle, P Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.
-
[4] Michie, Spiegelhalter y Taylor y Petrick J. Heagarty , Machine Learning, Neural and Statistical Classification.
-
[5] Alan Agresti , Categorical Data Analysis, Wiley-Interscience Publication.
-
[6] Thomas W. Yee, Vector Generalized Linear and Additive Models with implementations in R, Springer.
-
[7] Andreas Muller, Sarah Guido, Introduction to Machine Learning with Python, a guide for data Scientist Springer.
-
[8] Bill Chambers y Mateia Zaharia, Spark the definitive Guide, O' Reilly Media, 2018