Subtotales, totales o agrupamientos¶
- No se deben incluir filas o columnas de totales o subtotales, a menos que sea absolutamente necesario, manteniendo el máximo nivel de desagregación de datos posible.
- A tener en cuenta:
- Un archivo que contiene resultados y/o operaciones realizadas con los datos no se puede considerar un archivo de datos en sentido estricto, sino un archivo de resultados de un determinado análisis de datos.
- Cuando se incluyen filas o columnas con valores de datos agregados por ejemplo como resultado de una operación, resulta muy difícil y en ocasiones imposible recuperar el dato desagregado.
- Un dataset debe ser consistente en el nivel de granularidad de los datos que contiene. Si el nivel de granularidad se establece según una determinada dimensión, por ejemplo: ventas mensuales, no se deben mezclar datos con otro nivel de granularidad, por ejemplo, ventas anuales.
- Un nivel de granularidad superior siempre se puede obtener a partir de un nivel inferior, pero no a la inversa. Siguiendo el ejemplo, es posible obtener las ventas anuales a partir de los datos de ventas mensuales, pero no es posible recuperar los datos de ventas mensuales a partir de las ventas anuales.
- Se debe evitar el agrupamiento de filas relacionadas con una entidad dejando ciertas celdas vacías repitiendo la entidad para todas las filas del agrupamiento. Este problema es común y puede ocasionar problemas cuando se modifica el orden original de las filas.
Ejemplo 1: Venta semestral de coches (en miles), con subtotales (mezcla de niveles de granularidad) y sin subtotales (mismo nivel de granularidad).¶
Mala práctica
marca |
año |
ventas_semestrales |
chevrolet chevelle malibu |
1998 |
2,5 |
chevrolet chevelle malibu |
1998 |
2,63 |
Subtotal anual |
1999 |
5,13 |
buick skylark 320 |
1999 |
3,4 |
buick skylark 320 |
1999 |
3,57 |
Subtotal anual |
1999 |
6,97 |
plymouth satellite |
2000 |
2,4 |
plymouth satellite |
2000 |
2,52 |
Subtotal anual |
2000 |
4,92 |
Buena práctica
marca |
año |
ventas_s1 |
ventas_s2 |
chevrolet chevelle malibu |
1998 |
2,5 |
2,63 |
buick skylark 320 |
1999 |
3,4 |
3,57 |
plymouth satellite |
2000 |
2,4 |
2,52 |
Ejemplo 2: No usar agrupamientos en base al uso de celdas vacías.¶
Mala práctica
marca |
año |
ventas_semestrales |
chevrolet chevelle malibu |
1998 |
2,5 |
1999 |
2,63 |
|
2000 |
3,13 |
|
buick skylark 320 |
1998 |
3,4 |
1999 |
3,57 |
|
2000 |
3,97 |
Buena práctica
marca |
año |
ventas_semestrales |
chevrolet chevelle malibu |
1998 |
2,5 |
chevrolet chevelle malibu |
1999 |
2,63 |
chevrolet chevelle malibu |
2000 |
3,13 |
buick skylark 320 |
1998 |
3,4 |
buick skylark 320 |
1999 |
3,57 |
buick skylark 320 |
2000 |
3,97 |
Es importante tener en cuenta que la existencia de celdas vacías puede producir efectos no deseables ante posibles ordenaciones de los datos. En la tabla siguiente se observa el efecto que produce la ordenación de la tabla inicial según los valores del campo ‘marca’.
Mala práctica
marca |
año |
ventas_semestrales |
buick skylark 320 |
1998 |
3,40 |
chevrolet chevelle malibu |
1998 |
2,50 |
1999 |
2,63 |
|
2000 |
3,13 |
|
1999 |
3,57 |
|
2000 |
3,97 |