Clase 2 - Modelos de datos
Objetivos de Aprendizaje
- Definir Ciencia de Datos, Minería de Datos, Aprendizaje Automático, Inteligencia Artificial y Big Data. 
- Definir base de datos. 
- Describir al menos tres problemas que tienen los archivos de textos que son resueltos por las bases de datos. 
- Definir base de datos relacional. 
- Definir Entidad, Relación, Atributo y Dominio. 
- Identificar Entidades, Relaciones, Atributos y Dominios. 
- Analizar y leer Modelos de Entidad Relación (MER). 
- Generar Modelos de Entidad Relación. 
Slides
Ejercicios
1) Miren el video de esta empresa AgTech que utiliza Ciencia de Datos, discutan en grupo para contestar las siguientes preguntas:
Duración: ~8 minutos
Video: (2:00 minutos) Conocé kilimo
Charlar en grupo para contestar estas preguntas (8 minutos):
- ¿Cuál es el servicio que brindan? 
- ¿Pueden identificar las 3 Vs del BigData en este servicio? mencione como está representada y porqué. 
- ¿Les parece que el servicio es exitoso?, ¿Por qué? 
 
2) Miren el video de esta municipalidad que utiliza Ciencia de Datos, discutan en grupo para contestar las siguientes preguntas:
Duración: ~8 minutos
Video: (2:30 minutos)Manos en la Data
Charlar en grupo para contestar estas preguntas (7:30 minutos):
- ¿Sobre qué servicio trabajaron? 
- ¿Qué tecnologías relacionadas con Ciencia de Datos se mencionan en el video? 
- ¿Qué datos utilizan?, Identifiquen algunas de las dimensiones que vimos en la teoría. 
- ¿Pueden identificar las 3 Vs del BigData en este servicio? mencione como está representada. 
3) Miren este videos sobre transacciones ACID en Base de Datos y contesten en grupo las preguntas:
Duración: ~15 minutos
Video 1: (5:11 minutos) ACID Transactions: Fundamentos de bases de datos
Para trabajar en grupos: definan con sus palabras que significan cada una de las letras de ACID (5 minutos)
- A: 
- C: 
- I: 
- D: 
¿Cómo se relacionan estas cualidades con los problemas mencionados con los sistemas de archivos?
4) A partir del análisis de este conjunto de datos, generen el diagrama de Entidad-Relación:
Duración: ~15 minutos
- Miren el conjunto de datos que le corresponde a su grupo (Revisar: Listado de bases de datos). 
- A partir del análisis de este conjunto de datos, dibujen el Diagrama Entidad-Relación correspondiente. 
Pueden realizar este ejercicio de dos maneras:
- Una persona comparte la pantalla y dibuja el diagrama que se discute con el resto del grupo. 
- Comparten el link entre todes para que puedan editar el diagrama en conjunto. 
Usen esta herramienta para dibujar el diagrama: https://excalidraw.com

Luego coloquen el diagrama en este documento. Pueden exportarlo como imágen e insertarlo en el documento.
3) Definir el dominio de cada atributo completando la siguiente tabla:
| Nombre atributo | Tipo | Rango de valores válidos | 
Esta es una plantilla del documento compartido en google docs. Se debe generar un archivo por cada grupo. Se recomienda que los grupos tengan entre dos y cuatro personas.
Listado de base de datos
- Grupo 1
Clima: Datos meteorológicos horarios para las estaciones en aeropuertos: LGA, JFK y EWR.
- Grupo 2
Vehículos: Datos de economía de combustible de la Agencia de Protección Medioambiental (EPA) de EE.UU., 1985-2015. Contiene una selección de variables y no considera vehículos con datos incompletos.
- Grupo 3
Pinguinos: Medidas de tamaño de pingüinos adultos en busca de comida cerca de la estación Palmer en la Antártica.
- Grupo 4
Aeropuertos: Información general (nombre, localización, zona horaria) sobre aeropuertos.
- Grupo 5
Bateadores: Estadísticas de bateadores de beisbol.
- Grupo 6
Aviones: Datos de los aviones y sus códigos de cola en el registro de aviación de la FAA. American Airways (AA) y Envoy Air (MQ) reportan número de flota en lugar de número de cola, por lo que no es posible trazarlos.
- Grupo 7
Personas: Nombres de jugadores de beisbol, fecha de nacimiento e información bibliográfica.
- Grupo 8
Encuesta: Muestra de variables categóricas de la Encuesta Social General de EE.UU.
- Grupo 9
Millas: Este conjunto de datos contiene un subconjunto de los datos de economía de combustible que la Agencia de Protección Medioambiental (EPA) pone a disposición en http://fueleconomy.gov. Contiene solo modelos que tuvieron una nueva versión cada año entre 1999 y 2008, lo que fue utilizado como un proxy de la popularidad del modelo.
- Grupo 10
Gapminder: Extracto de datos de Gapminder sobre expectativa de vida, PIB per cápita y población, según país.
Este listado de conjunto de datos están disponibles con licencia de uso abierta en paquetes de R que luego se pueden utilizar en las clases de R.
Se puede generar un listado de conjuntos de datos con temas más cercanos a tus estudiantes y con variables y entidades en su idioma nativo.
Lecturas sugeridas
- Modulos 1 y 2 del libro Bases de datos. Rafael Camps Paré, Luis Alberto Casillas Santillán, Dolors Costal Costa, Marc Gibert Ginestà, Carme Martín Escofet, Oscar Pérez Mora. ISBN: 84-9788-269-5.