Encabezado Facultad de Ciencias
Presentación

Biología (plan 1997) 2023-2

Optativas, Temas Selectos de Biología II

Grupo 5582, 25 lugares. 4 alumnos.
Manejo de datos y modelación por regresión múltiple
Profesor Luis Vicente González Ania lu ju 18 a 20 Sala de Cómputo II
Profesor José Ignacio Fernández Méndez lu ju 20 a 21 B002
 

MANEJO DE DATOS Y MODELACIÓN POR REGRESIÓN MÚLTIPLE EN ECOLOGÍA Y RECURSOS NATURALES

Créditos: 10

Objetivo general: Que los estudiantes adquieran conocimientos y desarrollen habilidades básicas que les permitan manejar, visualizar y hacer modelación estadística de datos para la investigación en ecología y recursos naturales.

Objetivos particulares:

Que los estudiantes adquieran conocimientos y desarrollen habilidades que les permitan:

1.- Obtener datos preexistentes de distintas fuentes y en diferentes formatos, explorarlos, organizarlos y editarlos en preparación para su visualización y análisis.

2.- Aplicar técnicas de representación gráfica y geográfica para la detección e identificación de tendencias, patrones y anomalías en los datos de manera exploratoria y para la presentación de resultados de análisis, que faciliten su correcta interpretación.

3.- Aplicar técnicas de modelación estadística de los datos mediante métodos generalizados de regresión múltiple, para encontrar relaciones, evaluar hipótesis y hacer predicciones que involucren variables de interés en ecología y recursos naturales.

~ o ~ o ~ o ~ o ~

El curso está orientado primordialmente a la aplicación práctica, haciendo uso tanto de datos originales para investigación en recursos naturales y ecología, como publicados en literatura especializada y de bases de datos disponibles en la web.

La primera parte del curso (temas 1 a 3) se centra en la aplicación práctica de técnicas y herramientas informáticas (principalmente utilizando el ambiente R y paquetes específicos), para la obtención de datos preexistentes, su exploración, organización y edición, así como en su representación gráfica.

Esta parte comienza con la descarga e instalación de R y los principios de su estructura y funcionamiento, continuando con las formas de importar, filtrar, organizar, almacenar, relacionar y visualizar datos.

Se presentarán a los estudiantes procedimientos (consistentes en secuencias de comandos) para realizar acciones específicas en archivos preparados previamente, demostrando su funcionamiento. El procedimiento se repetirá por parte de los estudiantes, supervisando los profesores su correcta aplicación y resolviendo las dudas que surjan y se les proporcionarán recomendaciones prácticas. A través del curso los alumnos adquirirán gradualmente un mayor repertorio y dominio de funciones. Finalmente, se presentan las funciones de control de flujo más utilizadas en programas.

El proceso se inicia con la adquisición de los datos (incluyendo extracción desde bases de datos externas) y su organización en un formato específico. Posteriormente a la adquisición, se procede al análisis exploratorio y visualización, mediante procedimientos analíticos y gráficos simples, avanzando progresivamente en complejidad.

La segunda parte del curso (temas 4 a 6), fundamenta la aplicación práctica de los métodos de modelación estadística con la presentación teórica básica de los conceptos necesarios para su uso adecuado y la correcta interpretación y valoración de resultados.

Se describen las distribuciones de probabilidad más relacionadas con problemas biológicos y se aplican pruebas estadísticas para compararlas con datos observados. Posteriormente se presentan las técnicas de regresión múltiple, con o sin supuestos de constancia de varianza y linearidad, comenzando con el concepto y la aplicación de la regresión lineal simple. Se concede especial importancia en nivel introductorio a los Modelos Lineales Generalizados (GLM) y Aditivos Generalizados (GAM), debido a su amplio campo de aplicación y gran flexibilidad para abordar problemas muy familiares en el ámbito biológico.

Los modelos lineales forman el núcleo de la estadística clásica y siguen siendo la base de gran parte de la práctica estadística actual. Muchas técnicas modernas de análisis y modelación se han construido sobre la metodología desarrollada para los modelos lineales. En décadas recientes, las técnicas mismas han sido extendidas con la adición de métodos robustos y generalizaciones de la regresión lineal clásica. Estas generalizaciones permiten que problemas comunes en biología, como el análisis de datos categóricos o de conteos, puedan abordarse como casos especiales de un único modelo lineal generalizado. Algunos ejemplos son las regresiones de Poisson y logística, así como los análisis de varianza y de covarianza.

El Modelo Lineal Generalizado (GLM) permite modelar la variable de respuesta a partir de una combinación lineal de variables explicativas o predictores y expande el concepto de la regresión lineal clásica, para dar cabida tanto a las respuestas con distribuciones no normales, como a las transformaciones para linearizar las relaciones entre las variables. También relaja los supuestos de igualdad o constancia en las varianzas, requeridos para las pruebas de hipótesis en los modelos lineales tradicionales. Sin embargo, la principal restricción del modelo lineal generalizado es precisamente que asume la existencia de relaciones de tipo lineal entre las variables o sus transformaciones.

En la actualidad existe otra opción complementaria para modelar datos no lineales, mediante el Modelo Aditivo Generalizado (GAM), el cual a su vez extiende la noción del modelo lineal generalizado, al permitir remplazar las relaciones lineales de tipo paramétrico por funciones de suavizamiento no paramétricas. De tal modo, el modelo lineal pasa a ser un caso particular del modelo aditivo generalizado. Este enfoque es atractivo porque la forma del modelo depende de la tendencia original de los propios datos y ofrece una manera más flexible de modelar las relaciones entre las variables, resultando muy útil para analizar diversos tipos de relaciones en biología, que suelen ser no lineales, por ejemplo con las condiciones ambientales, entre muchas otras.

A través de análisis de datos reales se presentarán los procedimientos, consistentes en secuencias de comandos cuya sintaxis y resultados se relacionarán con el fundamento teórico presentado y con el contexto biológico del problema de investigación.

Se pretende lograr un balance entre la presentación teórica y la aplicación práctica, que permita un reforzamiento del aprendizaje de la primera, junto con la adquisición de habilidades en el uso de herramientas informáticas aplicables en estos campos de estudio.

~ o ~ o ~ o ~ o ~

La evaluación se centra en la producción por parte de los estudiantes de resultados de la comprensión y aplicación de los conceptos y procedimientos expuestos durante el curso para cada uno de los temas (en forma de ejercicios, tareas y exámenes).

En particular para la segunda parte del curso (temas 4 a 6), la evaluación incluirá el reconocimiento de la importancia de los conceptos teóricos y del contexto biológico para la correcta interpretación de los resultados de los procedimientos prácticos.

Porcentajes de los componentes de evaluación

• Asistencia y participación 20%

• Ejercicios y tareas 40%

• Exámenes 40%

~ o ~ o ~ o ~ o ~

Temario (temas y subtemas)

** I. Fundamentos y conceptos básicos del ambiente R

I.1 Descripción general del ambiente R

I.2 Descarga e instalación de R

I.3 El ambiente de trabajo y conceptos básicos

I.3.1 Ventanas principales: consola, script, editor de datos y ventana gráfica

I.3.2 Opciones para obtención de ayuda en R

I.3.3 Concepto y gestión del área de trabajo

I.3.4 Variables, tipos, expresiones y asignación a objetos

I.3.5 Vectores, escalares, matrices, listas y funciones aplicables

I.3.6 Construcción de secuencias de valores

I.3.7 Índices de vectores: selección y modificación de subconjuntos de datos

I.3.8 Estadística descriptiva

** II. Importación, manejo y edición de datos

II.1 Hojas de datos (data frames): características principales y funciones para edición

II.2 Resumen y tabulación de datos

II.3 Creación de una hoja de datos a partir de vectores o matrices

II.4 Lectura de hojas de datos a partir de archivos de texto con caracteres de separación

II.5 Lectura de hojas de datos desde el portapapeles

II.6 Funciones para descarga de archivos remotos a través de Internet

II.7 Almacenamiento de datos en archivos binarios comprimidos

II.8 Conceptos de base de datos e integridad referencial

II.9 Elementos de una base de datos: tablas, campos y registros

II.10 Relaciones tipo SQL entre tablas: uniones internas y externas con R

II.11 Lectura de hojas de datos a partir de bases de datos SQL externas

** III. Creación y edición de visualizaciones gráficas

III.1 Funciones comunes que presentan gráficas

III.2 Comandos gráficos de bajo nivel

III.3 Argumentos de las funciones gráficas de alto nivel

III.4 Gráficas de datos multidimensionales

III.5 Técnicas de representación geográfica

III.6 Exportación de gráficas creadas en R

** IV. Regresión lineal simple y múltiple, base conceptual

IV.1 Introducción al concepto de Modelo Estadístico

IV.2 Componentes y términos de los modelos estadísticos

IV.2.1 Variable de respuesta (dependiente) y predictores (variables independientes)

IV.2.2 Efectos directos y efectos de interacción de variables explicativas

IV.2.3 Distribución de probabilidad de los datos

IV.3 Procedimiento de ajuste del modelo (mínimos cuadrados como criterio de bondad de ajuste)

IV.4 Análisis e interpretación de resultados

IV.4.1 Obtención e interpretación de coeficientes del modelo (intercepto y pendiente)

IV.4.2 Estimación e interpretación de intervalos de confianza

IV.4.3 Pruebas de hipótesis y significancia (p) IV.4.4 Poder explicativo del modelo (R^2)

IV.5 Simplificación del modelo: eliminación de términos y el Principio de Parsimonia

IV.6 Análisis de residuales y validación del modelo

** V. Modelo Lineal Generalizado (GLM) como extensión del modelo de regresión

V.1 Introducción a los modelos GLM y sus aplicaciones

V.2 Componentes específicos del modelo GLM

V.2.1 Funciones de enlace y varianza, predictor lineal, estructura de error y ponderadores

V.3 Procedimiento de ajuste del modelo (Máxima Verosimilitud y Devianza como criterio de bondad de ajuste)

V.4 Análisis e interpretación de resultados

V.5 Simplificación del modelo

V.5.1 Eliminación de términos

V.5.2 Colapso de niveles de factor

V.5.3 Identificación de pendientes no significativas (“Aliasing”)

V.5.4 Uso de términos de “offset” en la simplificación de modelos

V.6 Análisis de residuales y validación del modelo

V.7 Selección entre modelos

V.7.1 Criterio de Información de Akaike (AIC)

V.7.2 Criterio de Información Bayesiano (BIC)

V.7.3 Validación Cruzada

** VI. Introducción al Modelo Aditivo Generalizado (GAM) como extensión del modelo GLM

VI.1 Semejanzas y diferencias con los GLM y sus aplicaciones

VI.1.1 El GAM como modelo no lineal y no paramétrico: significado, ventajas e implicaciones

VI.1.2 Funciones de suavizamiento

VI.1.3 Sustitución del predictor lineal del GLM por un predictor aditivo

VI.2 Análisis e interpretación de resultados

VI.3 Simplificación del modelo

VI.4 Validación del modelo

~ o ~ o ~ o ~ o ~

Bibliografía básica

Brunsdon, C. and L. Comber 2015. An introduction to R for spatial analysis and mapping. SAGE Publications. London. 354 p.

Chang, W. 2013. R Graphics Cookbook. O’Reilly Media, Inc. Sebastopol, CA. 396 p.

Crawley, M.J. 2013. The R Book. John Wiley & Sons Ltd, West Sussex. 1051 p.

Ogle, D. H. 2016. Introductory Fisheries Analyses with R. CRC Press. 304 p.

Zuur, A.F., E.N. Leno, N.J. Walker, A.A. Saveliev, G.M. Smith. 2009. Mixed Effects Models and Extensions in Ecology with R. Springer. 574 p.

Bibliografía complementaria

Burnham, K.P., D.R. Anderson. 2002. Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach. Second edition. Springer-Verlag, New York, USA.

Hastie T., R. Tibshirani. 1986. Generalized Additive Models. Statistical Science. 1 (3): 297-318.

McCullagh, P., J. A. Nelder. 1989. Generalized Linear Models, 2nd edition. Chapman and Hall. 511 p.

Nelder, J. A., R. W. M. Wedderburn. 1972. Generalized linear models. Journal of the Royal Statistical Society, Series A 135: 370-384.

Plant, R. F. 2012. Spatial data analysis in ecology and agriculture using R. CHC Press. 650 p.

Rodríguez, G. 2012. Introducing R. Princeton University. 35 p. http://data.princeton.edu/R/

Spector, P. 2004. An Introduction to R. University of California, Berkeley. 10 p. https://www.stat.berkeley.edu/~spector/R.pdf

Venables, W.N., B.D. Ripley. 2002. Modern Applied Statistics with S. 4th Ed. Springer. 495 p.

Diversos manuales y tutoriales en el sitio web de “The Comprehensive R Archive Network” (http://cran.rstudio.com/).

 


Hecho en México, todos los derechos reservados 2011-2016. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma requiere permiso previo por escrito de la Institución.
Sitio web administrado por la Coordinación de los Servicios de Cómputo de la Facultad de Ciencias. ¿Dudas?, ¿comentarios?. Escribenos. Aviso de privacidad.