Saltar a contenido

Tratamiento de valores desconocidos

  • Los valores de los datos deben ser completos y deben estar expresados de forma precisa y coherente con el tipo de datos del campo para que puedan ser procesados en función de su valor real.
  • Como norma general, hay que rellenar todas las celdas de una tabla y mantener un código común para los datos desconocidos.
  • A tener en cuenta:
    • Los valores desconocidos, cuando se dejan sin explicar o simplemente están ausentes, suelen generar confusión, especialmente cuando la columna de datos es numérica. Por otro lado, generan resultados erróneos en tareas de ordenación.
    • Recomendaciones para evitar valores de datos desconocidos:
      • Si la celda en blanco representa un cero, entonces el valor debe ser 0.
      • Si la celda en blanco representa un valor "desconocido" o "no obtenido", entonces esta posibilidad debe explicarse en el diccionario de datos e indicarse con un código específico.
      • Si un valor en blanco tiene un significado, se debe valorar la opción de añadir una nueva columna para incluir la explicación del valor "en blanco" como un valor posible.
      • Una terminología aceptada para indicar valores desconocidos o ausentes es el valor o código específico NA o N/A.1
      • El código que se utilice para indicar los valores desconocidos o ausentes, por ejemplo NA, debe especificarse en el diccionario de atos

Ejemplo 1: Ventas de coches por año (en miles).

Mala práctica

marca

año

consumo

ventas

chevrolet chevelle malibu

1998

Alto

2,50

chevrolet chevelle malibu

1999

Bajo

2,63

chevrolet chevelle malibu

2000

Medio

buick skylark 320

1998

3,40

buick skylark 320

1999

Medio

3,57

buick skylark 320

2000

Medio

N/A

plymouth satellite

1998

2,40

plymouth satellite

1999

2,52

plymouth satellite

2000

Alto

3,60

Buena práctica

marca

año

consumo

ventas

chevrolet chevelle malibu

1998

Alto

2,50

chevrolet chevelle malibu

1999

Bajo

2,63

chevrolet chevelle malibu

2000

Medio

0

buick skylark 320

1998

NA

3,40

buick skylark 320

1999

Medio

3,57

buick skylark 320

2000

Medio

NA

plymouth satellite

1998

NA

2,40

plymouth satellite

1999

NA

2,52

plymouth satellite

2000

Alto

3,60

En el ejemplo se observa que el valor 0 en la columna “ventas” indica que para ese año las ventas de coches de ese modelo han sido 0. En cambio, cuando el dato de “ventas”, al igual que el de “consumo” se desconoce, se indica con NA. Todos los valores desconocidos en cualquier columna se indican con el mismo código: NA.

Ejemplo 2: Ventas de coches por año (en miles).

Mala práctica

marca

año

consumo

ventas

chevrolet chevelle malibu

1998

Alto

2,50

chevrolet chevelle malibu

1999

Bajo

2,63

chevrolet chevelle malibu

2000

Medio

3,75

buick skylark 320

1998

NA

buick skylark 320

1999

Medio

3,57

buick skylark 320

2000

Medio

5,10

plymouth satellite

1998

NA

plymouth satellite

1999

NA

2,52

plymouth satellite

2000

Alto

3,60

Buena práctica

marca

año

consumo

ventas

Significado valor ausente ventas

chevrolet chevelle malibu

1998

Alto

2,50

chevrolet chevelle malibu

1999

Bajo

2,63

chevrolet chevelle malibu

2000

Medio

3,75

buick skylark 320

1998

NA

En el ejemplo se añade una nueva columna para explicar el significado del valor ausente en la columna “ventas”.

Hay circunstancias en las que no se pueden registrar determinadas medidas, porque los aparatos o sistemas que se utilizan para medir determinadas magnitudes solo registran valores a partir de un determinado umbral (por ejemplo, un sensor de contaminación ambiental). En esos casos, se explicará en el diccionario de datos y se indicará en la tabla con un código común


  1. Del inglés, not available (no disponible), not applicable (no corresponde en el caso) o no answer (sin respuesta; aunque este significado solo se usa en ciertas situaciones). https://es.wikipedia.org/wiki/N/a