Encabezado Facultad de Ciencias
Presentación

Actuaría (plan 2015) 2024-2

Optativas, Seminario de Estadística I

Grupo 9267, 70 lugares. 55 alumnos.
Aprendizaje Estadístico Automatizado
Profesor Gonzalo Pérez de la Cruz lu mi vi 16 a 17 301 (Yelizcalli)
Ayudante César Humberto Valle Márquez ma ju 16 a 17 301 (Yelizcalli)
Ayudante Rodrígo Jiménez Ramírez ma ju 16 a 17
 

Se recomienda:

1. Haber aprobado el curso de modelos no paramétricos y de regresión. En particular, tener conocimiento básico sobre el uso e interpretación de los parámetros del modelo de regresión, tanto para covariables continuas como categóricas.

2. Gusto por modelar y usar R. En el curso y las evaluaciones se hará uso intensivo de R y manejo de varios conjuntos de datos.

El curso será presencial, aunque en la medida de lo posible las clases se grabarán. Se usará classroom para subir las notas y material complementario. Las clases presenciales consistirán en proyectar el material del curso y el pizarrón sólo se usará como auxiliar para complementar el contenido y desarrollo de demostraciones.

No se aceptan oyentes. La invitación al classroom del curso se enviará el domingo inmediato anterior al inicio de clases al correo registrado en el sistema xfc.

Para obtener y actualizar correo, revisar el link siguiente: http://computo.fciencias.unam.mx/manualesUsuario/manualesCorreo.php

Objetivo

El curso se centrará en describir los aspectos teóricos fundamentales y mostrar ejemplos prácticos sobre los principales métodos estadísticos usados para el aprendizaje automatizado (ciencia de datos, machine learning). En particular, se revisarán los modelos lineales generalizados, así como los principales métodos estadísticos usados para el problema de clasificación supervisada.

Temario

  1. Principales objetivos del aprendizaje estadístico:
    • Exploratorio, descriptivo y de visualización.
    • Inferencia, estimación y causalidad.
    • Predicción.
  2. Introducción a los modelos lineales generalizados (glm) con el objetivo de estimación o inferencia.
    • Estimación y diagnóstico de los supuestos.
    • Selección de modelos: métodos stepwise y métodos de regularización (lasso, ridge).
  3. Métodos de aprendizaje no supervisado para explorar, describir y visualizar los datos.
    • Análisis de componentes principales y análisis factorial exploratorio.
    • Análisis de conglomerados (K-Medias y método jerárquico).
  4. El objetivo de predicción.
    • Métodos de evaluación de reglas de predicción: Cross-validation y repeated holdout.
    • Uso de la regresión para la predicción de valores continuos.
    • El problema de clasificación y los principales métodos:
      1. Regresión logística
      2. Análisis de discriminante
      3. K vecinos más cercanos
      4. Naive classifier
    • Métodos basados en árboles y en bootstrap: decision trees, bagging, random forests y boosting.
    • Máquina de Soporte Vectorial y Redes Neuronales (si el tiempo lo permite)

Se mostrará el uso de R para ejemplificar varios temas del curso, una pequeña introduccion a Python y se dará acceso a DataCamp https://www.datacamp.com/ a quienes deseen profundizar.

Evaluación

  • Tres tareas. Cada una tiene un valor de 2 puntos de la calificación. Las tareas se pueden hacer de forma individual o por equipos de máximo cuatro integrantes. Se darán al menos 72 horas para resolver cada tarea, este periodo incluye una sesión de ayudantía/clase para comentar sobre dudas, por ejemplo, el lunes se sube al classroom y se entrega el miércoles.

  • Se realizarán dos examenes individuales de forma presencial (uno sobre el tema 2 y el otro sobre los temas 3 y 4). Cada examen consistirá en resolver un par de ejercicios similares a las tareas. Cada examen tiene valor de 2 puntos de la calificación, pero si no se tiene una calificación promedio aprobatoria de ambos examenes, la calificación final será no aprobatoria.
  • En algunas clases, se dejarán ejercicios que deberán resolverse en alrededor de 30 minutos. Estos ejercicios de clase son opcionales e individuales; la entrega a tiempo y de forma correcta de la solución equivale a una décima adicional sobre promedio final aprobatorio.

Notas sobre la evaluación

  • La calificación promedio final se redondea al entero más cercano a partir de 6, siempre que se tenga promedio mayor o igual a 6 en los exámenes presenciales, en otro caso es 5.

  • Se puede presentar examen final renunciando a la calificación final previa obtenida, siempre que se haya aprobado al menos un examen presencial.

  • Se califica con NP en actas únicamente cuando el número de exámenes presentados es menor a 2.

Bibliografía.

Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. Wiley.

Agresti, A. y Kateri M. (2021). Foundations of Statistics for Data Scientists: With R and Python. Chapman and Hall.

Berk, R. (2020). Statistical Learning from a Regression Perspective. Springer

Denuit, M., Hainaut, D. y Trufin, J. (2019). Effective Statistical Learning Methods for Actuaries I. GLMs and Extensions. Springer.

Dobson, A. y Barnett, A. (2018). An introduction to generalized linear models. CRC Press.

Efron, B. y Hastie, T. (2016). Computer Age Statistical Inference. Algorithms, Evidence, and Data Science. Cambridge University Press.

Hastie, T., Tibshirani, R. y Friedman, J. (2009). The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer.

Hastie, T., Tibshirani, R. y Wainwright, M. (2015). Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.

James, G., Witten, D., Hastie, T. y Tibshirani, R. (2021). An Introduction to Statistical Learning. With applications in R, Springer.

Murphy, K. (2022). Probabilistic Machine Learning: An Introduction. MIT Press

Wüthrich, M. V. y Merz, M. (2022). Statistical Foundations of Actuarial Learning and its Applications. Draft en https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3822407

 


Hecho en México, todos los derechos reservados 2011-2016. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma requiere permiso previo por escrito de la Institución.
Sitio web administrado por la Coordinación de los Servicios de Cómputo de la Facultad de Ciencias. ¿Dudas?, ¿comentarios?. Escribenos. Aviso de privacidad.