Saltar a contenido

Toolbox para archivos CSV

  • Existen herramientas para el tratamiento de archivos CSV que aportan diferentes funcionalidades.
  • Son herramientas gratuitas que normalmente se ofrecen como servicio, es decir, están disponibles online y no requieren la instalación de software o en su caso, ésta es mínima.
  • Por lo general, son capaces de validar estructuras de datos o lo que es lo mismo, la consistencia entre el número de campos de cabecera y los existentes en cada una de las filas de datos además de la consistencia de los tipos y valores de los datos de cada celda.
  • Destacan por su facilidad de uso y funcionalidad:
Servicio / Suite de herramientas Validación de estructura Limpieza De datos Conversión de formatos
CSVLint On line
Goodtables On line
Data Curator Suite
CSVkit Suite

Herramienta: CSVlint

  • CSVLint es una herramienta disponible online gestionada por Open Data Institute para verificar que un archivo CSV es perfectamente legible y está bien formado, es decir, valida si contiene las columnas y los tipos de valores que debería. Permite validar archivos y esquemas de tablas de datos en CSV.
  • El análisis se realiza sobre archivos subidos directamente a CSVLint o disponibles online.
  • El análisis devuelve información sobre errores, necesariamente corregibles para usar los datos, advertencias, cuya subsanación ayuda a los usuarios de los datos y mensajes informativos sobre determinados consejos y sugerencias para facilitar el uso de los datos.
  • La herramienta genera un distintivo que es posible embeber en el sitio web del propietario de archivo CSV usando el correspondiente código HTML.
  • Algunos errores de codificación de caracteres son corregidos automáticamente, generando una nueva versión estandarizada del archivo CSV original.
  • CSVLint guarda un registro de las validaciones y esquemas recientemente utilizados que puede ser útil para identificar errores comunes.

Image title

Disponible en: csvlint.io

Herramienta: Goodtables

  • Googtables es un servicio de validación continua para datos tabulares de Open Knowledge Foundation (OKI) que permite la verificación de errores y problemas comunes en archivos de datos tabulares.
  • Como servicio de validación permite que Goodtables pueda ser integrado en diferentes flujos de publicación de Datos Abiertos.
  • Valida tanto datos tabulares en diferentes formatos: CSV, Microsoft Excel o LibreOffice Calc, como esquemas en formato JSON
  • Permite, además, la validación directa de datos tabulares albergados sobre Github o Amazon S3.
  • Soporta Tabular Data Package que es un formato simple para publicar y compartir datos tabulares promovido desde el proyecto FrictionLess Data de OKI que combina datos archivados como CSV, esquemas de tablas y metadatos según la especificación Data Package.
  • Googtables está disponible como librería de Python de tal forma que pueda ser invocada para cargar y validar tablas de datos.

Image title

Disponible en: goodtables.io

Herramienta: Data Curator

  • Data Curator es una herramienta de escritorio implementada por [Open Data Institute]_(https://theodi.org.au/data-curator/) que permite la edición, validación y publicación de archivos de datos tabulares reutilizables como Datos Abiertos.
  • Con esta herramienta es posible generar datos tabulares (CSV, TSV, entre otros), partiendo de cero o a partir de plantillas de estructuras de datos y esquemas.
  • Automáticamente corrige problemas comunes encontrados en archivos CSV y Excel.
  • Es posible, crear de forma automática, esquemas que describen los campos de datos e incluir reglas especificas de validación (por ejemplo, valores únicos, obligatorios, de longitud mínima o máxima, o sujetos a expresiones regulares), al igual que permite describir la procedencia de los datos.
  • La herramienta valida el archivo de datos contra el esquema definido y genera archivos de valores separados en los diversos dialectos CSV (comas, puntos y comas, tabuladores o campos de ancho fijo).
  • Permite encapsular datos y esquema para exportar utilizando la especificación Data Package.
  • Además, los archivos de datos descritos y validados pueden se publicados directamente sobre portales de datos CKAN.

Image title

Disponible en: Data Curator

Herramienta: Csvkit

  • **CSVkit son un conjunto de herramientas para usar desde línea de comandos en entornos Linux / MacOS que permite convertir y trabajar con archivos CSV.
  • Entre otras funcionalidades útiles, **CSVkit permite: convertir archivos Excel o JSON a CSV y viceversa; realizar diferentes operaciones a nivel de columna, fila o celda; generar sumarios estadísticos y realizar consultas SQL sobre los datos.
  • Además realiza determinados análisis de los datos e infiere algunas de sus características como la ausencia / presencia de cabecera o tipos de datos.

Image title

Disponible en: CSVkit