La disputa de datos: Open Refine

David Martínez Fernández

¿Qué es Open Refine y por qué es nuestro gran aliado?


Es una aplicación de escritorio de código abierto independiente que permite trabajar con datos desordenados limpiándolos, transformando su formato e incluso cotejándolos con otros servicios web y datos externos. Una vez instalado, ejecuta un pequeño servidor en el ordenador y emplea el navegador para interactuar con él.


Constituye una valiosa herramienta para los profesionales de la información a la hora de manipular datos con problemas de orden, visualización u organización. Además, cuenta con una gran accesibilidad, ya que está disponible en 15 idiomas y permite trabajar con una gran variedad de formatos tales como JSON, TSV, CSV o XLS entre otros.


Con ella se pueden llevar a cabo prácticamente todas las operaciones requeridas para que un conjunto de datos se adapte a nuestras necesidades, pues facilita la exploración y el refinado de los mismos de un modo masivo, ofreciéndonos por ende sencillez y rapidez en las operaciones. La gran característica de esta aplicación es la posibilidad de conciliar nuestros datos con otros externos o incluso con servicios web como Wikidata, permitiéndonos comparar y corregir la información teniendo como referencia fuentes fiables.


Como profesional de la información implicado en el tratamiento de los datos y en las nuevas tecnologías de la información y la comunicación había trabajado con conjuntos de datos masivos tratándolos con el software Microsoft Excel que, aunque presenta una amplia variedad de funcionalidades, a la hora de abordar un proyecto de este calibre no consigue ofrecernos las mismas ventajas que Open Refine sobre todo en relación con la rapidez y la sencillez de las operaciones o la vinculación con datos externos.


Un caso práctico


La mejor manera de ver las funcionalidades y ventajas de Open Refine es a través de un caso práctico. Si todavía no tenéis el programa podéis instalarlo desde su página web, donde también encontraréis las instrucciones para su ejecución en distintos sistemas operativos.


Lo primero que necesitamos es un conjunto de datos. En mi caso he optado por descargármelo de la página datos.gob.es, pero vosotros podéis escoger cualquier otro siempre que esté en uno de los formatos aceptados por el software. En este caso la web nos permite hacerlo en muchos de ellos: CSV, XLS, HTML o JSON. Una vez tenemos los datos descargados ¡empezamos a manipularlos! He decidido bajarlos en CSV porque tengo más experiencia con este formato, pero repito que debéis escoger aquel con el que os sintáis más cómodos sobre todo si es vuestra primera aproximación a la aplicación.


Para importar el archivo pinchamos en Crear proyecto - Elegir archivos. Así accederemos a nuestro equipo y podremos escoger el documento en cuestión.

En primer lugar, debemos de ajustar las opciones de carga a nuestras necesidades. En este caso he escogido la codificación de caracteres UFT-8 para que reconozca los diferentes signos, la detección y transformación del texto en números o fechas y la eliminación de la primera línea y de las filas en blanco. Ahora ¡creamos nuestro proyecto!



Un problema muy común al crear un proyecto es que los datos tienden a agruparse en una misma columna lo que causa confusión. Sin embargo, en la mayoría de las ocasiones utilizan un separador que nos sirve para diferenciar qué dato es cual. Sirviéndose de estos elementos, Open Refine se vale para crear nuevas columnas. ¿Cómo lo hacemos? Pinchamos sobre la columna que queremos dividir y escogemos Editar columnas - Dividir en varias columnas - Utilizar el separador ";" (este es el que separa mis datos, pero puede ser otro).

Con la nueva separación nos surge una última columna en blanco que no tiene ninguna información relevante, por lo que podemos eliminarla. Para ello clicamos en Editar columna - Eliminar columna. Podéis repetir este proceso siempre que queráis eliminar una o varias columnas.

Al cargar el archivo o dividir columnas nos encontramos con el problema de que estas no tienen siempre un nombre identificativo de los datos que albergan. Para cambiarlo seleccionamos la columna en cuestión y seguimos los pasos Editar Columna - Renombrar.


Otro problema que nos puede aparecer es de los espacios en blanco: celdas vacías que no aportan datos o que están incompletas. Si queremos eliminarlas de forma masiva debemos de hacer primero una faceta. Seleccionamos la columna en la que aparecen estos espacios que ensucian nuestro archivo y clicamos en Faceta - Faceta personalizada - Faceta por blanco. A la izquierda nos aparece un menú en que vemos dos opciones: true que son los que encajan con nuestra faceta, es decir, los espacios en blanco; y false que son los que no encajan con nuestra faceta, esto es las celdas con contenido. Si seleccionamos true nos aparecerán únicamente los resultados que encajan. Para eliminarlos marcamos el símbolo de la estrella que está al lado de cada registro y pinchando en la columna Todo seleccionamos Editar filas – Eliminar todas las que encajen. Este proceso lo podéis repetir con las columnas que queráis.

¿Y si queremos cotejar los datos con un servicio web externo como Wikidata? Entonces seleccionamos la columna en la que aparecen los datos que queremos analizar, desplegamos las opciones y seleccionamos Cotejar. En la ventana emergente escogemos los datos externos o el servicio web que queremos utilizar así como las distintas aplicaciones.

Por último, para guardar nuestro proyecto basta con seleccionar en la esquina superior derecha la opción Exportar. Podéis escoger el formato que querías, incluso otro distinto al que presentaban vuestros datos en un principio.

Bibliografía


Open Refine. Disponible aquí. [Consulta: 29/05/2020]

©2020 La Biblioteca de la Historia y viceversa

This site was designed with the
.com
website builder. Create your website today.
Start Now