Encabezado Facultad de Ciencias
Presentación

Actuaría (plan 2015) 2023-2

Optativas, Seminario de Estadística I

Grupo 9263, 56 lugares. 49 alumnos.
Aprendizaje estadístico automatizado
Profesor Gonzalo Pérez de la Cruz lu mi vi 19 a 20 004 (Yelizcalli)
Ayudante Leonardo Daniel de la Cruz Cuaxiloa ma ju 19 a 20 004 (Yelizcalli)
Ayudante Fernando Raúl Garay Araujo ma ju 19 a 20
 

Ayudantes:

-Leonardo Daniel de la Cruz Cuaxiloa

-Fernando Raúl Garay Araujo

El curso será presencial, aunque en la medida de lo posible las clases se grabarán y/o subirán vídeos sobre el material correspondiente. Se usará classroom para subir las notas y material complementario. Las clases presenciales consistirán en proyectar el material del curso y el pizarrón sólo se usará como auxiliar para complementar el contenido y desarrollo de demostraciones.

No se aceptan oyentes. La invitación al classroom del curso se enviará el domingo 29 de enero al correo registrado en el sistema xfc.

Para obtener y actualizar correo, revisar el link siguiente: http://computo.fciencias.unam.mx/manualesUsuario/manualesCorreo.php

Se recomienda:

1. Haber aprobado el curso de modelos no paramétricos y de regresión. En particular, tener conocimiento básico sobre el uso e interpretación de los parámetros del modelo de regresión, la prueba lineal general y el uso de pruebas de hipótesis e intervalos de confianza simultáneos.

2. Gusto por modelar y usar R. En el curso y las evaluaciones se hará uso intensivo de R.

Objetivo

El curso se centrará en describir los aspectos teóricos fundamentales y mostrar ejemplos prácticos sobre los principales métodos estadísticos usados para el aprendizaje automatizado (ciencia de datos, machine learning). En particular, se revisarán los modelos lineales generalizados, así como los principales métodos estadísticos usados para el problema de clasificación supervisada.

Temario

  1. Principales objetivos del aprendizaje estadístico: inferencia, estimación, causalidad y predicción.
  2. Introducción a los modelos lineales generalizados (glm).
    • Estimación y diagnóstico de los supuestos.
    • Selección de modelos: métodos stepwise y métodos de regularización.
  3. Métodos de aprendizaje no supervisado.
    • Análisis de componentes principales y análisis factorial exploratorio.
    • Análisis de conglomerados (K-Medias y método jerárquico).
  4. El objetivo de predicción.
    • Métodos de evaluación: Cross-validation y repeated holdout.
    • Uso de la regresión para la predicción de valores continuos.
    • El problema de clasificación y los principales métodos:
      1. Regresión logística
      2. Análisis de discriminante
      3. K vecinos más cercanos
      4. Naive classifier
    • Métodos basados en árboles y en bootstrap: decision trees, bagging, random forests y boosting.
    • Máquina de Soporte Vectorial y Redes Neuronales (si el tiempo lo permite)

Evaluación

  • Tres tarea-exámenes. Cada uno tiene un valor de 2.5 puntos de la calificación. Las tareas se pueden hacer de forma individual o por equipos de máximo cuatro integrantes.

  • Se darán al menos 72 horas para resolver cada tarea-examen, este periodo incluye una sesión de ayudantía/clase para comentar sobre dudas, por ejemplo, el lunes se sube al classroom y se entrega el miércoles.
  • Se realizará un examen individual de forma presencial. Este examen consistirá en resolver un par de ejercicios similares a las tarea-exámenes y tendrá una duración de máximo 2 horas. La asignación del tema (tarea-examen) será aleatoria. Este examen tiene valor de 2.5 puntos de la calificación, pero si no se tiene calificación aprobatoria, la calificación final será no aprobatoria.

Notas sobre la evaluación

  • La calificación promedio final se redondea al entero más cercano a partir de 6, siempre que se tenga promedio mayor o igual a 6 en los exámenes, en otro caso es NA.

  • Se puede presentar examen final renunciando a la calificación final previa obtenida, siempre que se haya aprobado al menos un examen parcial.

  • Se califica con NP en actas únicamente cuando el número de exámenes presentados es menor a 2.

Bibliografía.

Agresti, A. (2015). Foundations of Linear and Generalized Linear Models. Wiley.

Agresti, A. y Kateri M. (2021). Foundations of Statistics for Data Scientists: With R and Python. Chapman and Hall.

Berk, R. (2020). Statistical Learning from a Regression Perspective. Springer

Denuit, M., Hainaut, D. y Trufin, J. (2019). Effective Statistical Learning Methods for Actuaries I. GLMs and Extensions. Springer.

Dobson, A. y Barnett, A. (2018). An introduction to generalized linear models. CRC Press.

Efron, B. y Hastie, T. (2016). Computer Age Statistical Inference. Algorithms, Evidence, and Data Science. Cambridge University Press.

Hastie, T., Tibshirani, R. y Friedman, J. (2009). The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer.

Hastie, T., Tibshirani, R. y Wainwright, M. (2015). Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.

James, G., Witten, D., Hastie, T. y Tibshirani, R. (2021). An Introduction to Statistical Learning. With applications in R, Springer.

Murphy, K. (2022). Probabilistic Machine Learning: An Introduction. MIT Press

Wüthrich, M. V. y Merz, M. (2022). Statistical Foundations of Actuarial Learning and its Applications. Draft en https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3822407

 


Hecho en México, todos los derechos reservados 2011-2016. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma requiere permiso previo por escrito de la Institución.
Sitio web administrado por la Coordinación de los Servicios de Cómputo de la Facultad de Ciencias. ¿Dudas?, ¿comentarios?. Escribenos. Aviso de privacidad.