Actuaría (plan 2015) 2022-1
Optativas, Seminario de Estadística I
Grupo 9273, 80 lugares. 44 alumnos.
Introducción a la Ciencia de Datos y Machine Learning
Avisos Importantes:
-
Sí aceptamos oyentes, por favor, hagan la solicitud con el correo de ciencias.
-
Les mandé un correo (viernes 3 sep), si no les llegó, por favor no duden en escribirnos para agregarlos a la lista de correos.
Actualmente no basta con entender la teoría estadística detrás de la ciencia de datos, la industria y academia demanda cada vez más profesionales con un buen manejo de herramientas computacionales y computo en la nube.
Este es un curso centrado en la intersección de la Estadística, Machine Learning (ML) y Big Data, cuyo objetivo es estudiar métodos modernos de ML tanto sus aspectos teóricos como sus aplicaciones a problemas reales mediante el uso de lenguajes de programación como: Python, R y Frameworks como Spark.
Objetivos
-
Entender los principios matemáticos y computacionales básicos de Machine Learning.
-
Aprender a aplicar técnicas específicas de ML de acuerdo con la naturaleza del problema. Comprender los aspectos teóricos, aplicarlos a un problema en concreto y ser capaz de interpretar resultados para elegir el modelo que mejor se adapte al problema.
-
Estudiar conceptos básicos de Big Data y la Arquitectura de Spark.
Para lograr los objetivos, no solamente trabajaremos con bases estándar de literatura sino con bases similares a datos reales.
Prerrequisitos: Es deseable que el alumno haya cursado alguna materia de programación, además Inferencia Estadística y Modelos no paramétricos y de Regresión.
Temario General
-
Introducción
-
Regresión
-
Métodos de Remuestreo
-
Aprendizaje Supervisado
-
Árboles y Métodos de Ensamble
-
Aprendizaje No Supervisado
-
Introducción a Spark
-
Introducción a Cloud Computing
-
Introducción a Deep Learning
Evaluación:
Tareas Quincenales 70%
Proyecto final por equipos 30%
Las clases serán por zoom (Profesor Titular) y meet (Profesor Ayudante).
Notas:
-
El link de la primera clase lo encontrarán dos días antes de iniciar el semestre.
-
El repositorio del curso será en GitHub.
1 Introducción
-
Modelo general de aprendizaje
-
Minimización de la función de riesgo
-
Descomposición sesgo-varianza y Tradeoff
-
Introducción al manejo de datos mediante Pandas. Uso de bibliotecas: Numpy, Scipy, Plotly, Matplotlib y Scikit Learn.
2 Regresión
-
Regresión multivariable
-
Selección de modelos
-
Entropía relativa o divergencia de Kullback-Leibler
-
(2.3.1) BIC y AIC
3 Métodos de Remuestreo
-
Validación cruzada
-
(3.1.1) K-Fold cross validation
-
(3.1.2) Leave one out
-
3.2 Bootstrap
4 Aprendizaje Supervisado
-
Regresión logística
-
Clasificadores lineales
-
Naive Bayes
-
Máquinas de soporte vectorial
-
KNN
-
Métricas de evaluación
-
(4.6.1)Exactitud, precisión y exhaustividad
-
(4.6.2) Curva ROC y AUC
-
Validación y Monitoreos de Modelos
5 Árboles y Métodos de Ensamble
-
Árboles de clasificación y regresión
-
Bagging
-
Boosting
-
Random Forest
6 Aprendizaje No Supervisado
-
Análisis de componentes principales
-
Análisis de clúster
-
(6.2.1) Métodos basados en particiones
-
(6.2.2) Métodos jerárquicos
-
6.3 Métricas de validación internas
-
6.4 Métricas de validación externas
7 Introducción a Spark
-
Arquitectura de Spark
-
Grafos Acíclicos Dirigidos
-
Conjunto de Datos Resilientes Distribuidos(RDD)
-
Modelos de ejecución de Spark; Jobs, Stages, Task.
-
Conceptos de Spark
-
(7.5.1) Particionamiento
-
(7.5.2) Transformaciones: Wide vs Narrow
-
(7.5.3) Transformaciones, acciones y operaciones
-
(7.5.4) SparkSession y SparkContext
-
(7.5.5) Escritura y Lectura Dataframes
-
7.6 Manejo de Formatos: CSV, JSON, ORC, Parquet.
-
7.7 Esquemas usando StructType
-
7.8 Funciones Spark SQL
8 Introducción a Cloud Computing
9 Introducción a Deep Learning
Bibliografía
-
[1] Hastie, T., Tibshirani, R., Friedman, J The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer.
-
[2] G. James, D. Witten, T. Hastie and R. Tibshirani An Introduction to Statistical Learning, with Application in R (Springer, 2013).
-
[3] Diggle, P Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.
-
[4] Michie, Spiegelhalter y Taylor y Petrick J. Heagarty , Machine Learning, Neural and Statistical Classification.
-
[5] Alan Agresti , Categorical Data Analysis, Wiley-Interscience Publication.
-
[6] Thomas W. Yee, Vector Generalized Linear and Additive Models with implementations in R, Springer.
-
[7] Andreas Muller, Sarah Guido, Introduction to Machine Learning with Python, a guide for data Scientist Springer.
-
[8] Bill Chambers y Mateia Zaharia, Spark the definitive Guide, O' Reilly Media, 2018