Presentación

Actuaría (plan 2015) 2020-2

Optativas, Seminario de Estadística I

Grupo 9281, 35 lugares. 17 alumnos.

Introducción a la Ciencia de Datos y Machine Learning

Profesor	Jimmy Hernández Morales	lu mi vi	20 a 21	101 (Nuevo Edificio)
Ayudante	Antonio Soriano Flores	ma ju	20 a 21	101 (Nuevo Edificio)

Introducción a la Ciencia de Datos y Machine Learning

El objetivo del curso es introducir al alumno a las técnicas estadísticas de la Ciencia de Datos-ML con un enfoque del Aprendizaje Estadístico y también al uso de frameworks y diferentes tecnologías enfocadas en el desarrollo de aplicaciones de Big Data. Se usará CPython como lenguaje de programación pero el alumno puede optar por usar otros lenguajes en tanto sean compatibles con Spark, excepto R. También se trabajara con motores de bases de datos centrándonos en el uso de NoSqL como lo es Arango.

Prerrequisitos: Es deseable que el alumno haya cursado las materias de Programación, Manejo de Datos o bien ICC, Inferencia Estadística y Modelos no paramétricos y de Regresión.

Repositorio del curso: https://github.com/jimmyhm/BigData20202

1.Introducción
1.1. ¿Que es la Ciencia de Datos?
1.2. Tecnologías de Big Data
1.3 Apache Hadoop y Apache Spark
1.4 Variedad en la información y NoSQL

2. Fundamentos de Hadoop
2.1 Arquitectura de Hadoop
2.2 Modos Standalone, Semidistribuido y Distribuido.
2.3 Sistema de ficheros HDFS
2.4 Paradigma MapReduce
2.5 YARN
2.6 El Ecosistema Hadoop: un panorama
2.7 Hive
2.7.1 HiveMetastore
2.8 Hive SQL
2.9 Tablas internas y externas
2.10 Clientes Hive
2.11 HiveServer 2 y Beeline
2.12 Interacción con HDFS y Spark

3 Introducción a Spark
3.1 Arquitectura de Spark
3.1 Grafos Acíclicos Dirigidos
3.2 Conjunto de Datos Resilientes Distribuidos(RDD)
3.3 Modelos de ejecución de Spark; Jobs, Stages, Task.
3.4 Conceptos de Spark
3.4.1 Particionamiento
3.4.2 Transformaciones: Wide vs Narrow
3.4.3 Transformaciones, acciones y operaciones
3.5.1 SparkSession y SparkContext
3.5.2 Escritura y Lectura Dataframes
3.6 Manejo de Formatos: CSV, JSON, ORC, Parquet.
3.7 Esquemas usando StructType
3.8 Funciones Spark SQL
3.8.1 Aggregate, Date Time, Collections.
3.8.2 Sortiing, Math, String
3.8.3 UDF

4. Big Data en Cloud
4.1 Infraestructura On-premise vs Cloud
4.2 AWS
4.3 Instancias EC2
4.4 Amazon Simple Storage Service S3
4.5 Creación de un bucket y carga de archivos
4.6 ¿Qué es Elastic MapReduce ?
4.7 Lanzar un Clúster EMR y ciclo de vida
4.8 Monitorizar un Clúster.

5. Introducción a Machine Learning
5.1 Modelo General de Aprendizaje.
5.2 Minimización de la función de Riesgo
5.3 Descomposición Sesgo-Varianza y Tradeoff
5.4 Introducción al manejo de datos mediante Pandas
5.5 Uso de Bibliotecas: Numpy, Scipy, Plotly, Matplotlib, y Scikit.Learn

6. Regresión
6.1 Regresión lineal Múltiple
6.2 Regresión Lasso y Ridge
5.3 Selección de Modelos
5.3.1 Entropía relativa, Criterio de Información de Akaike y Bayesiana
5.3.2 Validación Cruzada

7. Aprendizaje Supervisado(Clasificación)
7.1 Regresión Logística
7.3 Clasificadores Lineales y Gausianos.
7.4 Naive Bayes
7.5 Máquinas de Soporte Vectorial (SVM)
7.6 Kernels

8. Arboles y Métodos Ensamble
8.1 Arboles de Clasificación
8.2 Bagging
8.3 Métodos Boosting
8.3.1 AddaBost
8.3.2 Gradient Tree Boosting

9. Aprendizaje no Supervisado
9.1 Reglas de Asociación
9.1.2 Algoritmo Apriori
9.2 Análisis de Clúster
9.2.1 Medidas de Similaridad
9.2.2 Métodos basados en particiones
9.2.3 Métodos Jerárquicos
9.3 Métricas de validación internas
9.4 Métricas de validación externas

Evaluación
Prácticas y Tareas 50%
Proyecto final 20%
Exámenes 30%

Bibliografía

[1] Hastie, T., Tibshirani, R., Friedman, J The Elements of Statistical Learning. Data Mining, Inference, and Prediction, 2nd ed., Springer.
[2] G. James, D. Witten, T. Hastie and R. Tibshirani An Introduction to Statistical Learning, with Application in R (Springer, 2013).
[3] Diggle, P Statistical Learning with Sparsity. The lasso and generalizations. Chapman and Hall.
[4] T. W. Anderson An Introduction to Multivariate Statistical Analysis, John Wiley and Sons Inc; Edicio ́n: 3rd Edition .
[5] Michie, Spiegelhalter y Taylor y Petrick J. Heagarty , Machine Learning, Neural and Statistical Classification.
[6] Alan Agresti , Categorical Data Analysis, Wiley-Interscience Publication.
[7] Thomas W. Yee, Vector Generalized Linear and Additive Models with implementations in R, Springer.
[8] Andreas Muller, Sarah Guido, Introduction to Machine Learning with Python, a guide for data Scientist Springer.

Ciencias en:

Facebook

Twitter

Youtube

Hecho en México, todos los derechos reservados 2011-2016. Esta página puede ser reproducida con fines no lucrativos, siempre y cuando no se mutile, se cite la fuente completa y su dirección electrónica. De otra forma requiere permiso previo por escrito de la Institución.

Sitio web administrado por la Coordinación de los Servicios de Cómputo de la Facultad de Ciencias. ¿Dudas?, ¿comentarios?. Escribenos. Aviso de privacidad.

Comunidad

Licenciatura

Docencia

Investigación

Posgrado

Extensión

Servicios

Nosotros

Eventos

Actuaría (plan 2015) 2020-2

Optativas, Seminario de Estadística I

Introducción a la Ciencia de Datos y Machine Learning

Repositorio del curso: https://github.com/jimmyhm/BigData20202