Comunicación y presentación con rigor de datos estadísticos

Esta entrada ha sido amablemente escrita por Ansgar Seyfferth, cofundador de la filial española de la empresa alemana de consultoría y servicios estadísticos STAT-UP.

En estos tiempos de creciente protagonismo de los datos estadísticos como fuente de información y como fundamento para la toma de decisiones en ámbitos empresariales, políticos y científicos, cobran importancia las técnicas para la exploración y el análisis de datos. Como habitualmente no es el propio analista quien toma las decisiones en base a estos datos, es igual de importante la adecuada comunicación concisa de los mismos a quien toma la decisión, ajustada al perfil de este último y a la naturaleza de los datos. Lo mismo aplica cuando se trata de informar al ciudadano interesado en formarse una opinión fundamentada en base a los datos.

Simplifica los datos, sí, pero hasta cierto punto

Frecuentemente la presentación de los datos exigirá una cierta simplificación, consistente en obviar detalles técnicos no esenciales, pero que no debe llevar a un entendimiento parcial de los resultados que pueda inducir a conclusiones equivocadas.

En este contexto es fundamental no ocultar la posible incertidumbre asociada a nuestros datos, intrínseca al muestreo, los procesos de medida con una exactitud limitada, las predicciones que dependen de factores cuyo desarrollo futuro no puede saberse con exactitud, etc. Es posible que ello desconcierte a interlocutores poco acostumbrados a enfrentarse a varios escenarios (“favorable”, “central”, “desfavorable”) o conceptos como margen de error e intervalo de confianza, por lo que puede requerir ciertas dotes didácticas. Pero ceder a la tentación de reducir toda esta complejidad a un solo número, una  media o nuestro mejor valor estimado, para contentar a un público que prefiere “las cosas claras”, puede ser un gravísimo error.

De la misma forma, ante la presencia de incertidumbre conviene emplear expresiones como “aproximadamente”, “se estima que”, etc. y evitar hablar en términos de certeza absoluta y de presentar números con una exactitud irreal (por ejemplo, con decimales no significativos)

Contextualiza la información

Por otro lado, no se deben bombardear a los interlocutores con números sueltos y descontextualizados sin explicarlos, sobre todo si no son expertos en la materia. Por ejemplo, si se trata de inmensas cantidades económicas que se salen de las órdenes de magnitud habituales, puede ser de ayuda aportar una comparativa (“aproximadamente el doble del producto interior bruto anual de España”); o si hablamos de terremotos caracterizados por sus magnitudes, se debería explicar que se trata de una escala logarítmica, donde una diferencia de dos decimales supone la duplicación de su fuerza, para que quede claro que por ejemplo la diferencia entre las magnitudes 7,1 y 7,9 es abismal, a pesar de la poca diferencia relativa de los dos números.

Eso implica también un especial cuidado con las unidades de nuestros datos, ya no solo porque 1.000 € no son lo mismo que 1.000 $, sino también para que quede muy claro su dimensión y no se comparen peras con manzanas, como por ejemplo el valor bursátil de la empresa Apple, un valor monetaria medido en Dólares, y el producto interior bruto de Polonia, una tasa de generación de valor monetario medida en Dólares/año, para concluir que Apple vale más que Polonia, cuando el planteamiento correcto sería que la economía polaca necesita más de un año para generar un valor equivalente a la cotización bursátil de Apple.

Aprende a comunicar porcentajes con rigor

Con el mismo rigor hay que comunicar los porcentajes, dejando siempre clara la base de referencia: una diferencia de un X% entre dos valores es ambigua si no está claro a cuál de los dos valores se refiere el porcentaje; y una subida del paro en un 1% es algo muy diferente a una subida del paro en un punto porcentual. Y si hablamos de tasas de variación también tiene que quedar claro el periodo de referencia, por ejemplo, un crecimiento del X% al año.

Utiliza gráficos para ilustrar tendencias, patrones, excepciones e interacciones

Para representar cantidades elevadas de datos conviene abstenerse de grandes tablas, que al igual que detalles metodológicos pueden entregarse en un informe complementario, y recurrir a gráficos eficientes, es decir, ricos en información sin una complejidad excesiva y sin efectos visuales que solo desvíen la atención sin aportar información o que hasta den una impresión engañosa.

Deben incluir el texto estrictamente necesario (títulos de los ejes, leyenda, etc.) y de la manera más breve posible. Los colores, que nos pueden añadir una dimensión adicional para la representación de los datos, deben elegirse de modo que proporcionen suficiente contraste. También existe la opción de incorporar el tiempo como dimensión adicional mediante la animación del gráfico.

Dos ejemplos de visualización de altimetría con un eficiencia muy diferente: En la de la carrera San Silvestre Vallecana del 2013, arriba, el efecto tridimensional puede resultar vistoso pero dificulta la lectura de la altura, a diferencia de la altimetría de la Vuelta a la Roja del 2009, abajo, que además incluye referencias para identificar los puntos del gráfico con el recorrido.

No te precipites con las conclusiones

Y finalmente, es muy importante no extralimitarnos con las conclusiones. Para poner un ejemplo ficticio que nos servirá para ilustrar algunas de las trampas más típicas con las que nos podemos encontrar, si el análisis de los resultados de una encuesta llevada a cabo entre los empleados de una empresa revela una correlación significativamente negativa entre el consumo de alcohol y el salario, se trata sin duda de un hallazgo interesante que merece la pena comunicar, pero con cautela y sin insinuar que estamos ante la demostración de un efecto negativo del alcohol sobre la carrera profesional:

  • En primer lugar sería conveniente indicar, aunque no se trata de una cuestión estadística, que los datos podrían estar distorsionados por una falta de sinceridad de los encuestados y que la correlación podría deberse a que los empleados en puestos altos tengan mayor reparo en reconocer su verdadero consumo de alcohol, incluso si la encuesta es anónima.
  • En segundo lugar debemos dejar claro que se trata de datos de empleados de una sola empresa que posiblemente responden a unos perfiles específicos, por lo que la muestra podría no ser representativa para el conjunto de los profesionales.
  • Y en tercer lugar deberíamos recordar a nuestros interlocutores que una correlación no implica una relación causal y que en caso de existir tal relación no indica cuál es la causa y cuál el efecto. Es posible que detrás de la correlación esté un efecto negativo del alcohol sobre la carrera profesional, pero también cabe pensar en una inversión de causa y efecto (una mayor frustración de los empleados peor pagados que causa un mayor consumo de alcohol) o que ambos factores no guarden relación alguna sino dependan de un tercero (a mayor nivel socio-cultural, mayor salario y menor consumo de alcohol) o que concurran todos estos mecanismos mencionados.

Conviene tener en mente estos tres puntos, que se encuentran detrás de muchas comunicaciones erróneas de resultados estadísticos en los medios.

ENTRADAS RELACIONADAS

- Las tartas son para el postre: 5 razones por las que no uso gráficos circulares

- Porque los datos no hablan por sí mismos, dales voz para que cuenten su historia en tus presentaciones

- Maximiza la relación señal a ruido en tus presentaciones

DIÁLOGO ABIERTO

¿Cuáles son los mayores errores estadísticos que has detectado en la elaboración o presentación de un informe?