Clase 4 - Metadatos, Scrapping y Limpieza de datos

Objetivos de Aprendizaje

  • Definir que es un metadato y Explicar que funcion cumplen.

  • Definir el ciclo de degradacion normal de la informacion.

  • Definir scrapping.

  • Describir 5 aspectos a tener en cuenta con datos propios y 5 con datos ajenos para poder realizar un proceso de limpieza de datos reproducible.

  • Utilizar Open Refine para limpiar un conjunto de datos.

  • Determinar que tipo de tarea se puede realizar con OpenRefine para limpiar diferentes problemas con datos.

  • Recuperar datos desde formatos cerrados como los PDF y JPG y almacenarlos en un formato abierto.

  • Utilizar Tabula para obtener datos desde archivos PDF.

Slides

Ejercicios

1) Obteniendo datos desde un PDF on-line

Duración: ~12 minutos

Existen varios software que realizan conversiones de archivos, algunos de ellos funcionan on-line lo que evita tener que instalar el sistema en la propia computadora.

Dentro de este grupo tenemos PDFToExcel.

Transformar los datos de dos archivos PDF con tablas a un formato CSV legible.

  1. Descargamos los dos archivos PDF que se encuentran en el campus (crns1701.pdf y santa2016-12.pdf).

  2. Para utilizar el aplicativo entramos en https://www.pdftoexcelonline.com/

La pantalla de inicio nos presenta un paso a paso, donde lo primero es seleccionar el archivo a convertir. Presionando el botón Select your file y seleccionamos el archivo crns1701.pdf, luego completamos con el mail al cual deseamos que nos envíe el archivo y finalmente presionamos el botón Convert Now

Nos aparece un cartel como el siguiente donde nos indica que nos enviarán el archivo convertido por mail:

  1. Entrando al mail que indicamos encontraremos un correo con un link para descargar el archivo convertido, lo guardamos y abrimos para analizar la transformación.

2) Obteniendo datos desde un PDF off-line

Duración: ~20 minutos

También existen software que se instalan en la computadora, uno de ellos es Tabula. Para utilizarlo:

  1. Si aún no lo hicieron, descarguen el archivo zip desde el sitio http://tabula.technology/, lo descomprimimos y luego vamos a la carpeta que acaba de extraer.

  2. Dentro de la misma se encuentran una serie de archivos, ejecuta (haciendo doble click o presionando Enter) el programa “Tabula” que se encuentra dentro. Se abrirá un navegador web. Si no lo hace, abra su navegador web y vaya a http://localhost: 8080. Aparecerá una pantalla similar a la siguiente.

  1. Para iniciar la conversión, presionamos el botón Browse, luego elegimos el archivo santa2016-12.pdf y presionamos el botón Import. Inicia la conversión del archivo PDF.

  1. Cuando termina nos presenta una pantalla para trabajar, si presionamos el botón Autodetec Tables nos marca la sección a transformar y con el botón Preview & Export Extrated Data podemos obtener la información seleccionada.

La pantalla siguiente nos presenta los datos y nos da varias opciones para exportarlos o copiarlos al portapapeles. También podemos volver atrás para cambiar la selección si vemos que lo elegido no corresponde con lo que necesitamos extraer.

  1. Lo exportamos a un archivo CSV, seleccionamos ese formato en Export Format y presionando en el botón Export.

  1. Si seleccionamos Guardar y damos Aceptar el archivo se almacenará en nuestro disco. Lo guardamos y abrimos para analizar la transformación.

3) Open Refine. Caso: lectores del Horizonte Agropecuario

Duración: ~45 minutos

  1. Seguir las instrucciones del ejercicio de limpiza de datos usando Open Refine

Lecturas sugeridas