Encabezado Facultad de Ciencias
Presentación

Actuaría (plan 2015) 2025-1

Optativas, Seminario de Estadística I

Grupo 9286, 60 lugares.
Aprendizaje Estadístico Automatizado
Profesor Gonzalo Pérez de la Cruz lu mi vi 16 a 17
Ayudante Jonathan Ortega Solano ma ju 16 a 17
 

Se recomienda:

1. Haber aprobado el curso de modelos no paramétricos y de regresión. En particular, tener conocimiento básico sobre el uso e interpretación de los parámetros del modelo de regresión, tanto para covariables continuas como categóricas.

2. Gusto por modelar y usar R. En el curso y las evaluaciones se hará uso intensivo de R y manejo de varios conjuntos de datos.

El curso será presencial, aunque en la medida de lo posible las clases se grabarán. Se usará classroom para subir las notas y material complementario. Las clases presenciales consistirán en proyectar el material del curso y el pizarrón sólo se usará como auxiliar para complementar el contenido y desarrollo de demostraciones.

No se aceptan oyentes. La invitación al classroom del curso se enviará el domingo inmediato anterior al inicio de clases al correo registrado en el sistema xfc.

Para obtener y actualizar correo, revisar el link siguiente: http://computo.fciencias.unam.mx/manualesUsuario/manualesCorreo.php

Objetivo

El curso se centrará en describir los aspectos teóricos fundamentales y mostrar ejemplos prácticos sobre los principales métodos estadísticos usados para el aprendizaje automatizado (ciencia de datos, machine learning). En particular, se revisarán los modelos lineales generalizados, así como los principales métodos estadísticos usados para el problema de clasificación supervisada.

Temario

  1. Principales objetivos del aprendizaje estadístico:
    • Exploratorio, descriptivo y de visualización.
    • Inferencia, estimación y causalidad.
    • Predicción.
  2. Introducción a los modelos lineales generalizados (glm) con el objetivo de estimación o inferencia.
    • Estimación y diagnóstico de los supuestos.
    • Selección de modelos: métodos stepwise y métodos de regularización (lasso, ridge).
  3. Métodos de aprendizaje no supervisado para explorar, describir y visualizar los datos.
    • Análisis de componentes principales y análisis factorial exploratorio.
    • Análisis de conglomerados (K-Medias y método jerárquico).
  4. El objetivo de predicción.
    • Métodos de evaluación de reglas de predicción: Cross-validation y repeated holdout.
    • Uso de la regresión para la predicción de valores continuos.
    • El problema de clasificación y los principales métodos:
      1. Regresión logística
      2. Análisis de discriminante
      3. K vecinos más cercanos
      4. Naive classifier
    • Métodos basados en árboles y en bootstrap: decision trees, bagging, random forests y boosting.
    • Máquina de Soporte Vectorial y Redes Neuronales (si el tiempo lo permite)

Se mostrará el uso de R para ejemplificar varios temas del curso, una pequeña introduccion a Python y se dará acceso a DataCamp https://www.datacamp.com/ a quienes deseen profundizar.

Evaluación

  • Tres tareas. Cada una tiene un valor de 2 puntos de la calificación. Las tareas se pueden entregar de forma individual o por equipos de máximo cuatro integrantes. Se darán al menos 72 horas para resolver cada tarea, este periodo incluye una sesión de ayudantía/clase para comentar sobre dudas, por ejemplo, el lunes se sube al classroom y se entrega el miércoles.

  • Se realizarán dos examenes individuales de forma presencial (uno sobre el tema 2 y el otro sobre los temas 3 y 4). Cada examen consistirá en resolver un par de ejercicios similares a las tareas. Cada examen tiene valor de 2 puntos de la calificación, pero si no se tiene una calificación aprobatoria en ambos examenes, la calificación final será no aprobatoria.
  • En algunas clases, se dejarán ejercicios que deberán resolverse en alrededor de 30 minutos. Estos ejercicios de clase son opcionales e individuales; la entrega a tiempo y de forma correcta de la solución equivale a una décima adicional sobre promedio final aprobatorio.

Notas sobre la evaluación

  • La calificación promedio final se redondea al entero más cercano a partir de 6, siempre que se tenga calificación mayor o igual a 6 en los dos exámenes presenciales, en otro caso es 5.

  • Se puede presentar sólo la reposición del examen del tema 2. No hay final.

  • Se califica con NP en actas únicamente cuando el número de exámenes presentados es menor a 2.

Bibliografía.

Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. Wiley.

Agresti, A. y Kateri M. (2021). Foundations of Statistics for Data Scientists: With R and Python. Chapman and Hall.

Berk, R. (2020). Statistical Learning from a Regression Perspective. Springer

Bischl, B., Sonabend, R., Kotthoff, L. y Lang, M. (Eds.). (2024). Applied Machine Learning Using mlr3 in R. CRC Press.

Denuit, M., Hainaut, D. y Trufin, J. (2019). Effective Statistical Learning Methods for Actuaries I. GLMs and Extensions. Springer.

Dobson, A. y Barnett, A. (2018). An introduction to generalized linear models. CRC Press.

Efron, B. y Hastie, T. (2016). Computer Age Statistical Inference. Algorithms, Evidence, and Data Science. Cambridge University Press.

Hastie, T., Tibshirani, R. y Friedman, J. (2009). The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer.

Hastie, T., Tibshirani, R. y Wainwright, M. (2015). Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.

James, G., Witten, D., Hastie, T. y Tibshirani, R. (2021). An Introduction to Statistical Learning. With applications in R, Springer.

James, G., Witten, D., Hastie, T., Tibshirani, R. y Taylor, J. (2023). An Introduction to Statistical Learning. With applications in Python, Springer.

Kuhn, M. y Johnson, K. 2020. Feature Engineering and Selection: A Practical Approach for Predictive Models. CRC Press.

Lederer, J. (2024). A First Course in Statistical learning: with data examples and Python code. Springer.

Mardia, K., Kent, J. H. y Taylor, C. C. (2024). Multivariate Analysis. 2nd ed. Wiley.

Murphy, K. (2022). Probabilistic Machine Learning: An Introduction. MIT Press

Seber, G.A.F. (2004). Multivariate Observations. Wiley

Vehkalahti, K. y Everitt, B. S. (2019). Multivariate Analysis for the Behavioral Sciences. CRC Press.

Wüthrich, M. V. y Merz, M. (2023). Statistical Foundations of Actuarial Learning and its Applications. Springer.

 


Hecho en México, todos los derechos reservados 2011-2016. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma requiere permiso previo por escrito de la Institución.
Sitio web administrado por la Coordinación de los Servicios de Cómputo de la Facultad de Ciencias. ¿Dudas?, ¿comentarios?. Escribenos. Aviso de privacidad.