Tratamiento de valores desconocidos¶
- Los valores de los datos deben ser completos y deben estar expresados de forma precisa y coherente con el tipo de datos del campo para que puedan ser procesados en función de su valor real.
- Como norma general, hay que rellenar todas las celdas de una tabla y mantener un código común para los datos desconocidos.
- A tener en cuenta:
- Los valores desconocidos, cuando se dejan sin explicar o simplemente están ausentes, suelen generar confusión, especialmente cuando la columna de datos es numérica. Por otro lado, generan resultados erróneos en tareas de ordenación.
- Recomendaciones para evitar valores de datos desconocidos:
- Si la celda en blanco representa un cero, entonces el valor debe ser 0.
- Si la celda en blanco representa un valor "desconocido" o "no obtenido", entonces esta posibilidad debe explicarse en el diccionario de datos e indicarse con un código específico.
- Si un valor en blanco tiene un significado, se debe valorar la opción de añadir una nueva columna para incluir la explicación del valor "en blanco" como un valor posible.
- Una terminología aceptada para indicar valores desconocidos o ausentes es el valor o código específico NA o N/A.1
- El código que se utilice para indicar los valores desconocidos o ausentes, por ejemplo NA, debe especificarse en el diccionario de atos
Ejemplo 1: Ventas de coches por año (en miles).¶
Mala práctica
marca |
año |
consumo |
ventas |
chevrolet chevelle malibu |
1998 |
Alto |
2,50 |
chevrolet chevelle malibu |
1999 |
Bajo |
2,63 |
chevrolet chevelle malibu |
2000 |
Medio |
|
buick skylark 320 |
1998 |
3,40 |
|
buick skylark 320 |
1999 |
Medio |
3,57 |
buick skylark 320 |
2000 |
Medio |
N/A |
plymouth satellite |
1998 |
2,40 |
|
plymouth satellite |
1999 |
2,52 |
|
plymouth satellite |
2000 |
Alto |
3,60 |
Buena práctica
marca |
año |
consumo |
ventas |
chevrolet chevelle malibu |
1998 |
Alto |
2,50 |
chevrolet chevelle malibu |
1999 |
Bajo |
2,63 |
chevrolet chevelle malibu |
2000 |
Medio |
0 |
buick skylark 320 |
1998 |
NA |
3,40 |
buick skylark 320 |
1999 |
Medio |
3,57 |
buick skylark 320 |
2000 |
Medio |
NA |
plymouth satellite |
1998 |
NA |
2,40 |
plymouth satellite |
1999 |
NA |
2,52 |
plymouth satellite |
2000 |
Alto |
3,60 |
En el ejemplo se observa que el valor 0 en la columna “ventas” indica que para ese año las ventas de coches de ese modelo han sido 0. En cambio, cuando el dato de “ventas”, al igual que el de “consumo” se desconoce, se indica con NA. Todos los valores desconocidos en cualquier columna se indican con el mismo código: NA.
Ejemplo 2: Ventas de coches por año (en miles).¶
Mala práctica
marca |
año |
consumo |
ventas |
chevrolet chevelle malibu |
1998 |
Alto |
2,50 |
chevrolet chevelle malibu |
1999 |
Bajo |
2,63 |
chevrolet chevelle malibu |
2000 |
Medio |
3,75 |
buick skylark 320 |
1998 |
NA |
|
buick skylark 320 |
1999 |
Medio |
3,57 |
buick skylark 320 |
2000 |
Medio |
5,10 |
plymouth satellite |
1998 |
NA |
|
plymouth satellite |
1999 |
NA |
2,52 |
plymouth satellite |
2000 |
Alto |
3,60 |
Buena práctica
marca |
año |
consumo |
ventas |
Significado valor ausente ventas |
chevrolet chevelle malibu |
1998 |
Alto |
2,50 |
|
chevrolet chevelle malibu |
1999 |
Bajo |
2,63 |
|
chevrolet chevelle malibu |
2000 |
Medio |
3,75 |
|
buick skylark 320 |
1998 |
NA |
En el ejemplo se añade una nueva columna para explicar el significado del valor ausente en la columna “ventas”.
Hay circunstancias en las que no se pueden registrar determinadas medidas, porque los aparatos o sistemas que se utilizan para medir determinadas magnitudes solo registran valores a partir de un determinado umbral (por ejemplo, un sensor de contaminación ambiental). En esos casos, se explicará en el diccionario de datos y se indicará en la tabla con un código común
-
Del inglés, not available (no disponible), not applicable (no corresponde en el caso) o no answer (sin respuesta; aunque este significado solo se usa en ciertas situaciones). https://es.wikipedia.org/wiki/N/a ↩