Presentación

Actuaría (plan 2015) 2022-1

Optativas, Seminario de Estadística I

Grupo 9273, 80 lugares. 44 alumnos.

Introducción a la Ciencia de Datos y Machine Learning

Profesor	Rodrigo Quijón Hipólito	lu mi vi	20 a 21
Ayudante	Jimmy Hernández Morales	ma ju	20 a 21
Ayudante	María Ximena Aguirre Pessina	ma ju	20 a 21

Clase de hoy: https://cuaieed-unam.zoom.us/j/84755015829?pwd=dzFQV2FDU0ttWUg5REFtWmJVMlhhQT09

Avisos Importantes:

Sí aceptamos oyentes, por favor, hagan la solicitud con el correo de ciencias.
Les mandé un correo (viernes 3 sep), si no les llegó, por favor no duden en escribirnos para agregarlos a la lista de correos.

Actualmente no basta con entender la teoría estadística detrás de la ciencia de datos, la industria y academia demanda cada vez más profesionales con un buen manejo de herramientas computacionales y computo en la nube.

Este es un curso centrado en la intersección de la Estadística, Machine Learning (ML) y Big Data, cuyo objetivo es estudiar métodos modernos de ML tanto sus aspectos teóricos como sus aplicaciones a problemas reales mediante el uso de lenguajes de programación como: Python, R y Frameworks como Spark.

Objetivos

Entender los principios matemáticos y computacionales básicos de Machine Learning.
Aprender a aplicar técnicas específicas de ML de acuerdo con la naturaleza del problema. Comprender los aspectos teóricos, aplicarlos a un problema en concreto y ser capaz de interpretar resultados para elegir el modelo que mejor se adapte al problema.
Estudiar conceptos básicos de Big Data y la Arquitectura de Spark.

Para lograr los objetivos, no solamente trabajaremos con bases estándar de literatura sino con bases similares a datos reales.

Prerrequisitos: Es deseable que el alumno haya cursado alguna materia de programación, además Inferencia Estadística y Modelos no paramétricos y de Regresión.

Temario General

Introducción
Regresión
Métodos de Remuestreo
Aprendizaje Supervisado
Árboles y Métodos de Ensamble
Aprendizaje No Supervisado
Introducción a Spark
Introducción a Cloud Computing
Introducción a Deep Learning

Evaluación:

Tareas Quincenales 70%

Proyecto final por equipos 30%

Las clases serán por zoom (Profesor Titular) y meet (Profesor Ayudante).

Notas:

El link de la primera clase lo encontrarán dos días antes de iniciar el semestre.
El repositorio del curso será en GitHub.

1 Introducción

Modelo general de aprendizaje
Minimización de la función de riesgo
Descomposición sesgo-varianza y Tradeoff
Introducción al manejo de datos mediante Pandas. Uso de bibliotecas: Numpy, Scipy, Plotly, Matplotlib y Scikit Learn.

2 Regresión

Regresión multivariable
Selección de modelos
Entropía relativa o divergencia de Kullback-Leibler
(2.3.1) BIC y AIC

3 Métodos de Remuestreo

Validación cruzada
(3.1.1) K-Fold cross validation
(3.1.2) Leave one out
3.2 Bootstrap

4 Aprendizaje Supervisado

Regresión logística
Clasificadores lineales
Naive Bayes
Máquinas de soporte vectorial
KNN
Métricas de evaluación
(4.6.1)Exactitud, precisión y exhaustividad
(4.6.2) Curva ROC y AUC
Validación y Monitoreos de Modelos

5 Árboles y Métodos de Ensamble

Árboles de clasificación y regresión
Bagging
Boosting
Random Forest

6 Aprendizaje No Supervisado

Análisis de componentes principales
Análisis de clúster
(6.2.1) Métodos basados en particiones
(6.2.2) Métodos jerárquicos
6.3 Métricas de validación internas
6.4 Métricas de validación externas

7 Introducción a Spark

Arquitectura de Spark
Grafos Acíclicos Dirigidos
Conjunto de Datos Resilientes Distribuidos(RDD)
Modelos de ejecución de Spark; Jobs, Stages, Task.
Conceptos de Spark
(7.5.1) Particionamiento
(7.5.2) Transformaciones: Wide vs Narrow
(7.5.3) Transformaciones, acciones y operaciones
(7.5.4) SparkSession y SparkContext
(7.5.5) Escritura y Lectura Dataframes
7.6 Manejo de Formatos: CSV, JSON, ORC, Parquet.
7.7 Esquemas usando StructType
7.8 Funciones Spark SQL

8 Introducción a Cloud Computing

9 Introducción a Deep Learning

Bibliografía

[1] Hastie, T., Tibshirani, R., Friedman, J The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer.
[2] G. James, D. Witten, T. Hastie and R. Tibshirani An Introduction to Statistical Learning, with Application in R (Springer, 2013).
[3] Diggle, P Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.
[4] Michie, Spiegelhalter y Taylor y Petrick J. Heagarty , Machine Learning, Neural and Statistical Classification.
[5] Alan Agresti , Categorical Data Analysis, Wiley-Interscience Publication.
[6] Thomas W. Yee, Vector Generalized Linear and Additive Models with implementations in R, Springer.
[7] Andreas Muller, Sarah Guido, Introduction to Machine Learning with Python, a guide for data Scientist Springer.
[8] Bill Chambers y Mateia Zaharia, Spark the definitive Guide, O' Reilly Media, 2018

Ciencias en:

Facebook

Twitter

Youtube

Hecho en México, todos los derechos reservados 2011-2016. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma requiere permiso previo por escrito de la Institución.

Sitio web administrado por la Coordinación de los Servicios de Cómputo de la Facultad de Ciencias. ¿Dudas?, ¿comentarios?. Escribenos. Aviso de privacidad.

Comunidad

Licenciatura

Docencia

Investigación

Posgrado

Extensión

Servicios

Nosotros

Eventos

Actuaría (plan 2015) 2022-1

Optativas, Seminario de Estadística I

Clase de hoy: https://cuaieed-unam.zoom.us/j/84755015829?pwd=dzFQV2FDU0ttWUg5REFtWmJVMlhhQT09

Avisos Importantes:

Sí aceptamos oyentes, por favor, hagan la solicitud con el correo de ciencias.

Les mandé un correo (viernes 3 sep), si no les llegó, por favor no duden en escribirnos para agregarlos a la lista de correos.