Profesor | Luis Vicente González Ania | lu ju | 18 a 20 | Sala de Cómputo II |
Profesor | José Ignacio Fernández Méndez | lu ju | 20 a 21 | B002 |
MANEJO DE DATOS Y MODELACIÓN POR REGRESIÓN MÚLTIPLE EN ECOLOGÍA Y RECURSOS NATURALES
Créditos: 10
Objetivo general: Que los estudiantes adquieran conocimientos y desarrollen habilidades básicas que les permitan manejar, visualizar y hacer modelación estadística de datos para la investigación en ecología y recursos naturales.
Objetivos particulares:
Que los estudiantes adquieran conocimientos y desarrollen habilidades que les permitan:
1.- Obtener datos preexistentes de distintas fuentes y en diferentes formatos, explorarlos, organizarlos y editarlos en preparación para su visualización y análisis.
2.- Aplicar técnicas de representación gráfica y geográfica para la detección e identificación de tendencias, patrones y anomalías en los datos de manera exploratoria y para la presentación de resultados de análisis, que faciliten su correcta interpretación.
3.- Aplicar técnicas de modelación estadística de los datos mediante métodos generalizados de regresión múltiple, para encontrar relaciones, evaluar hipótesis y hacer predicciones que involucren variables de interés en ecología y recursos naturales.
~ o ~ o ~ o ~ o ~
El curso está orientado primordialmente a la aplicación práctica, haciendo uso tanto de datos originales para investigación en recursos naturales y ecología, como publicados en literatura especializada y de bases de datos disponibles en la web.
La primera parte del curso (temas 1 a 3) se centra en la aplicación práctica de técnicas y herramientas informáticas (principalmente utilizando el ambiente R y paquetes específicos), para la obtención de datos preexistentes, su exploración, organización y edición, así como en su representación gráfica.
Esta parte comienza con la descarga e instalación de R y los principios de su estructura y funcionamiento, continuando con las formas de importar, filtrar, organizar, almacenar, relacionar y visualizar datos.
Se presentarán a los estudiantes procedimientos (consistentes en secuencias de comandos) para realizar acciones específicas en archivos preparados previamente, demostrando su funcionamiento. El procedimiento se repetirá por parte de los estudiantes, supervisando los profesores su correcta aplicación y resolviendo las dudas que surjan y se les proporcionarán recomendaciones prácticas. A través del curso los alumnos adquirirán gradualmente un mayor repertorio y dominio de funciones. Finalmente, se presentan las funciones de control de flujo más utilizadas en programas.
El proceso se inicia con la adquisición de los datos (incluyendo extracción desde bases de datos externas) y su organización en un formato específico. Posteriormente a la adquisición, se procede al análisis exploratorio y visualización, mediante procedimientos analíticos y gráficos simples, avanzando progresivamente en complejidad.
La segunda parte del curso (temas 4 a 6), fundamenta la aplicación práctica de los métodos de modelación estadística con la presentación teórica básica de los conceptos necesarios para su uso adecuado y la correcta interpretación y valoración de resultados.
Se describen las distribuciones de probabilidad más relacionadas con problemas biológicos y se aplican pruebas estadísticas para compararlas con datos observados. Posteriormente se presentan las técnicas de regresión múltiple, con o sin supuestos de constancia de varianza y linearidad, comenzando con el concepto y la aplicación de la regresión lineal simple. Se concede especial importancia en nivel introductorio a los Modelos Lineales Generalizados (GLM) y Aditivos Generalizados (GAM), debido a su amplio campo de aplicación y gran flexibilidad para abordar problemas muy familiares en el ámbito biológico.
Los modelos lineales forman el núcleo de la estadística clásica y siguen siendo la base de gran parte de la práctica estadística actual. Muchas técnicas modernas de análisis y modelación se han construido sobre la metodología desarrollada para los modelos lineales. En décadas recientes, las técnicas mismas han sido extendidas con la adición de métodos robustos y generalizaciones de la regresión lineal clásica. Estas generalizaciones permiten que problemas comunes en biología, como el análisis de datos categóricos o de conteos, puedan abordarse como casos especiales de un único modelo lineal generalizado. Algunos ejemplos son las regresiones de Poisson y logística, así como los análisis de varianza y de covarianza.
El Modelo Lineal Generalizado (GLM) permite modelar la variable de respuesta a partir de una combinación lineal de variables explicativas o predictores y expande el concepto de la regresión lineal clásica, para dar cabida tanto a las respuestas con distribuciones no normales, como a las transformaciones para linearizar las relaciones entre las variables. También relaja los supuestos de igualdad o constancia en las varianzas, requeridos para las pruebas de hipótesis en los modelos lineales tradicionales. Sin embargo, la principal restricción del modelo lineal generalizado es precisamente que asume la existencia de relaciones de tipo lineal entre las variables o sus transformaciones.
En la actualidad existe otra opción complementaria para modelar datos no lineales, mediante el Modelo Aditivo Generalizado (GAM), el cual a su vez extiende la noción del modelo lineal generalizado, al permitir remplazar las relaciones lineales de tipo paramétrico por funciones de suavizamiento no paramétricas. De tal modo, el modelo lineal pasa a ser un caso particular del modelo aditivo generalizado. Este enfoque es atractivo porque la forma del modelo depende de la tendencia original de los propios datos y ofrece una manera más flexible de modelar las relaciones entre las variables, resultando muy útil para analizar diversos tipos de relaciones en biología, que suelen ser no lineales, por ejemplo con las condiciones ambientales, entre muchas otras.
A través de análisis de datos reales se presentarán los procedimientos, consistentes en secuencias de comandos cuya sintaxis y resultados se relacionarán con el fundamento teórico presentado y con el contexto biológico del problema de investigación.
Se pretende lograr un balance entre la presentación teórica y la aplicación práctica, que permita un reforzamiento del aprendizaje de la primera, junto con la adquisición de habilidades en el uso de herramientas informáticas aplicables en estos campos de estudio.
~ o ~ o ~ o ~ o ~
La evaluación se centra en la producción por parte de los estudiantes de resultados de la comprensión y aplicación de los conceptos y procedimientos expuestos durante el curso para cada uno de los temas (en forma de ejercicios, tareas y exámenes).
En particular para la segunda parte del curso (temas 4 a 6), la evaluación incluirá el reconocimiento de la importancia de los conceptos teóricos y del contexto biológico para la correcta interpretación de los resultados de los procedimientos prácticos.
Porcentajes de los componentes de evaluación
• Asistencia y participación 20%
• Ejercicios y tareas 40%
• Exámenes 40%
~ o ~ o ~ o ~ o ~
Temario (temas y subtemas)
** I. Fundamentos y conceptos básicos del ambiente R
I.1 Descripción general del ambiente R
I.2 Descarga e instalación de R
I.3 El ambiente de trabajo y conceptos básicos
I.3.1 Ventanas principales: consola, script, editor de datos y ventana gráfica
I.3.2 Opciones para obtención de ayuda en R
I.3.3 Concepto y gestión del área de trabajo
I.3.4 Variables, tipos, expresiones y asignación a objetos
I.3.5 Vectores, escalares, matrices, listas y funciones aplicables
I.3.6 Construcción de secuencias de valores
I.3.7 Índices de vectores: selección y modificación de subconjuntos de datos
I.3.8 Estadística descriptiva
** II. Importación, manejo y edición de datos
II.1 Hojas de datos (data frames): características principales y funciones para edición
II.2 Resumen y tabulación de datos
II.3 Creación de una hoja de datos a partir de vectores o matrices
II.4 Lectura de hojas de datos a partir de archivos de texto con caracteres de separación
II.5 Lectura de hojas de datos desde el portapapeles
II.6 Funciones para descarga de archivos remotos a través de Internet
II.7 Almacenamiento de datos en archivos binarios comprimidos
II.8 Conceptos de base de datos e integridad referencial
II.9 Elementos de una base de datos: tablas, campos y registros
II.10 Relaciones tipo SQL entre tablas: uniones internas y externas con R
II.11 Lectura de hojas de datos a partir de bases de datos SQL externas
** III. Creación y edición de visualizaciones gráficas
III.1 Funciones comunes que presentan gráficas
III.2 Comandos gráficos de bajo nivel
III.3 Argumentos de las funciones gráficas de alto nivel
III.4 Gráficas de datos multidimensionales
III.5 Técnicas de representación geográfica
III.6 Exportación de gráficas creadas en R
** IV. Regresión lineal simple y múltiple, base conceptual
IV.1 Introducción al concepto de Modelo Estadístico
IV.2 Componentes y términos de los modelos estadísticos
IV.2.1 Variable de respuesta (dependiente) y predictores (variables independientes)
IV.2.2 Efectos directos y efectos de interacción de variables explicativas
IV.2.3 Distribución de probabilidad de los datos
IV.3 Procedimiento de ajuste del modelo (mínimos cuadrados como criterio de bondad de ajuste)
IV.4 Análisis e interpretación de resultados
IV.4.1 Obtención e interpretación de coeficientes del modelo (intercepto y pendiente)
IV.4.2 Estimación e interpretación de intervalos de confianza
IV.4.3 Pruebas de hipótesis y significancia (p) IV.4.4 Poder explicativo del modelo (R^2)
IV.5 Simplificación del modelo: eliminación de términos y el Principio de Parsimonia
IV.6 Análisis de residuales y validación del modelo
** V. Modelo Lineal Generalizado (GLM) como extensión del modelo de regresión
V.1 Introducción a los modelos GLM y sus aplicaciones
V.2 Componentes específicos del modelo GLM
V.2.1 Funciones de enlace y varianza, predictor lineal, estructura de error y ponderadores
V.3 Procedimiento de ajuste del modelo (Máxima Verosimilitud y Devianza como criterio de bondad de ajuste)
V.4 Análisis e interpretación de resultados
V.5 Simplificación del modelo
V.5.1 Eliminación de términos
V.5.2 Colapso de niveles de factor
V.5.3 Identificación de pendientes no significativas (“Aliasing”)
V.5.4 Uso de términos de “offset” en la simplificación de modelos
V.6 Análisis de residuales y validación del modelo
V.7 Selección entre modelos
V.7.1 Criterio de Información de Akaike (AIC)
V.7.2 Criterio de Información Bayesiano (BIC)
V.7.3 Validación Cruzada
** VI. Introducción al Modelo Aditivo Generalizado (GAM) como extensión del modelo GLM
VI.1 Semejanzas y diferencias con los GLM y sus aplicaciones
VI.1.1 El GAM como modelo no lineal y no paramétrico: significado, ventajas e implicaciones
VI.1.2 Funciones de suavizamiento
VI.1.3 Sustitución del predictor lineal del GLM por un predictor aditivo
VI.2 Análisis e interpretación de resultados
VI.3 Simplificación del modelo
VI.4 Validación del modelo
~ o ~ o ~ o ~ o ~
Bibliografía básica
Brunsdon, C. and L. Comber 2015. An introduction to R for spatial analysis and mapping. SAGE Publications. London. 354 p.
Chang, W. 2013. R Graphics Cookbook. O’Reilly Media, Inc. Sebastopol, CA. 396 p.
Crawley, M.J. 2013. The R Book. John Wiley & Sons Ltd, West Sussex. 1051 p.
Ogle, D. H. 2016. Introductory Fisheries Analyses with R. CRC Press. 304 p.
Zuur, A.F., E.N. Leno, N.J. Walker, A.A. Saveliev, G.M. Smith. 2009. Mixed Effects Models and Extensions in Ecology with R. Springer. 574 p.
Bibliografía complementaria
Burnham, K.P., D.R. Anderson. 2002. Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach. Second edition. Springer-Verlag, New York, USA.
Hastie T., R. Tibshirani. 1986. Generalized Additive Models. Statistical Science. 1 (3): 297-318.
McCullagh, P., J. A. Nelder. 1989. Generalized Linear Models, 2nd edition. Chapman and Hall. 511 p.
Nelder, J. A., R. W. M. Wedderburn. 1972. Generalized linear models. Journal of the Royal Statistical Society, Series A 135: 370-384.
Plant, R. F. 2012. Spatial data analysis in ecology and agriculture using R. CHC Press. 650 p.
Rodríguez, G. 2012. Introducing R. Princeton University. 35 p. http://data.princeton.edu/R/
Spector, P. 2004. An Introduction to R. University of California, Berkeley. 10 p. https://www.stat.berkeley.edu/~spector/R.pdf
Venables, W.N., B.D. Ripley. 2002. Modern Applied Statistics with S. 4th Ed. Springer. 495 p.
Diversos manuales y tutoriales en el sitio web de “The Comprehensive R Archive Network” (http://cran.rstudio.com/).