Presentación

Actuaría (plan 2006) 2017-1

Optativas, Seminario de Aplicaciones Actuariales

Grupo 9206 16 alumnos.

Aprendizaje estadístico con enfoque hacia la minería de datos

Profesor	Israel Emmanuel Ambriz Lobato	lu mi vi	19 a 20	Taller de Finanzas
Ayudante	Lilia Karen Rivera Escovar	ma ju	19 a 20	Taller de Finanzas

Temario

1. Introducción: el aprendizaje estadístico (AE) dentro de la minería de datos (MD).

¿Qué es el AE?
¿Qué es la MD?
Definiciones complementarias.
¿Cómo se posiciona el AE junto con la MD dentro de los paradigmas modernos de análisis?

2. AE dentro de la MD.

Fundamentos del AE.
Evaluando la presión del modelo.
Objetivos de la minería de datos: regresión, clasificación, segmentación y visualización.
Aprendizaje supervisado y no supervisado.
Problemáticas dentro de la minería de datos: comparación y selección de modelos, eficiencia de algoritmos, volumetría de los datos (altas dimensiones, n grande o p grande), partición de datos y remuestreo.

3. Aprendizaje Supervisado, Parte 1: regresión lineal.

Regresión lineal simple: estimación, evaluación de la estimación y el modelo.
Regresión lineal múltiple: estimación y selección de modelo.
Temas adicionales: variables cualitativas, efectos no lineales y transformación de variables.

4. Aprendizaje Supervisado, Parte 2: Clasificación.

Clasificación en contraste con regresión lineal.
Regresión logística.
Regresión multinomial.
Discriminante lineal.
Árboles de decisión.
Comparación de modelos.

5. Aprendizaje no supervisado.

El rol del aprendizaje no supervisado en la MD.
Análisis de componentes principales (PCA): construcción, interpretación y aplicaciones.
Análisis de conglomerados: modelos jerárquicos, K-medias y KNN.
PCA como auxiliar para análisis de conglomerados.

6. Partición de datos y remuestreo como herramientas para la comparación y selección de modelos.

El rol de la partición de datos y el remuestreo en la MD.
Herramientas de comparación de modelos: matriz de confusión, curvas ROC, McNemar test, balance entre sesgo y varianza.
Validación cruzada: enfoques y aplicaciones en regresión y clasificación.
Bootstrap*.

7. Selección de modelos lineales, regularización y temas adicionales de regresión.

Selección de subconjuntos: la problemática de la selección vía stepwise.
Métodos de contracción: RIDGE y LASSO
Métodos de reducción de dimensión: PLS y PCA.
Consideraciones en altas dimensiones: n << p.
Modelos gráficos no dirigidos con aplicaciones a selección de variables.
Métodos de penalización por suavidad: modelos aditivos generalizados*.

8. Temas avanzados de clasificación.

Métodos basados en árboles: Bagging, Random Forest y Boosting.
Support Vector Machines.

* Tentativo: se presentará conforme al avance y desarrollo de la clase.

Referencias

Bühlmann, P. and Van De Geer, S. (2011). Statistics for high-dimensional data: methods, theory and applications. Springer Science & Business Media.
Dougherty, G. (2012). Pattern recognition and classification: an introduction. Springer Science & Business Media.
Duda, R. O., Hart, P. E., and Stork, D. G. (2012). Pattern classification. John Wiley & Sons.
James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013). An introduction to statistical learning: with applicationsin R. Springer.
Lantz, B. (2015). Machine learning with R. Packt Publishing Ltd.
Williams, G. (2011). Data mining with Rattle and R: The art of excavating data for knowledge discovery. Springer Science & Business Media.

Ciencias en:

Facebook

Twitter

Youtube

Hecho en México, todos los derechos reservados 2011-2016. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma requiere permiso previo por escrito de la Institución.

Sitio web administrado por la Coordinación de los Servicios de Cómputo de la Facultad de Ciencias. ¿Dudas?, ¿comentarios?. Escribenos. Aviso de privacidad.

Comunidad

Licenciatura

Docencia

Investigación

Posgrado

Extensión

Servicios

Nosotros

Eventos