sábado, 30 de septiembre de 2017

PENSAMIENTOS COMPLEJOS


Lucía Galán y el manual de buenos modales científicos
Sólo a la luz de estudios científicos honestos y bien diseñados es posible refrendar o refutarla afirmación de la cantante sobre embarazos producidos para obtener la Asignación por Hijo
Una vieja chanza comunicacional dice que el auténtico mérito no es de quien inventó el primer teléfono, sino el segundo. Y así debería llevarse rédito tanto quien crea nuevo conocimiento científico como quien lo valida. Es decir, con la comunicación, la actividad de verificar el conocimiento científico nuevo es social: es la comunidad científica -y no el investigador por sí mismo- la que diseña e implementa protocolos que dicen si una investigación es original y relevante.
Estos mecanismos de validación son complejos y para nada automáticos. Si bien no es la única, la forma más común de llevar a cabo esta tarea es a través de las publicaciones científicas o papers: escritos relativamente cortos que aíslan un problema relevante y proponen un avance en el conocimiento que puede ser teórico, empírico, descriptivo, etcétera. Luego de un proceso de referato, si todo sale bien, el paper es publicado en una revista científica, lo cual redunda en un rédito para los autores.
La alocada carrera por publicar incluye tanto a verdaderos héroes de la ciencia como a los inescrupulosos que pululan por cualquier organización que ofrezca algún beneficio. Sí, en todos lados se cuecen habas, y en la ciencia también. Uno de los agujeros de la ciencia se relaciona con la fuerte preferencia por publicar resultados "positivos" en comparación con estudios que no encuentran efectos. A modo de ejemplo, es más probable publicar un paper que halla que tomar gaseosas mejora la performance sexual que uno que encuentra que no sirve para nada tomar naranjada a fines de mejorar las prácticas amatorias. A esta preferencia injustificada por resultados positivos se la llama "sesgo de publicación".
Se cuenta el caso de un profesor que tomaba seis preguntas en un examen y les decía a sus alumnos que corregiría sólo una, elegida al azar lanzando un dado. Y que luego tiraba el dado hasta que salía el número de la pregunta que antes había decidido que iba a corregir. El equivalente científico de esta chanza es el de reportar sólo los resultados "que funcionan" y esconder los que no, a fin de mejorar las chances de publicar. El termino técnico que se usa para esta práctica se llama "p-hacking", en relación con el "valor p", una técnica estadística que establece una suerte de umbral que separa los resultados que dan de los que no. La trampa es jugar con los datos hasta que digan lo que el investigador quiere escuchar. Esta mala práctica afecta a todo el espectro científico: el último número de la revista Nature reporta que toda la ciencia se encuentra en el medio de una crisis de credibilidad como consecuencia del "p-hacking", el sesgo de publicación y la falta de control de calidad de muchas revistas científicas.

Y este diagnóstico incluye la economía. Hace muy poco los investigadores Kewei Hou, Chen Xue y Lu Zhang causaron un gran revuelo al publicar una exhaustiva revisión de la literatura científica de finanzas, mostrando que casi 70% de los estudios publicados en esa disciplina son poco confiables, es decir que son el resultado de manipulaciones estadísticas como el p-hacking. Estos resultados van en línea con el devastador estudio de John Ioannidis de 2005 que encuentra que más de 50% de los estudios científicos son sospechosos, en un paper elocuentemente titulado "Por qué la mayoría de los estudios científicos publicados son falsos".
La solución a estas prácticas engañosas requieren la intervención activa de la comunidad científica, y la palabra clave es reproducibilidad. Un mínimo requisito de calidad es que los estudios científicos sean fácilmente replicables por otros investigadores, y así involucrarlos más activamente en el proceso de validación de las publicaciones. Es decir, la solución requeriría que, comenzando con los mismos datos de una investigación. un evaluador externo pueda reproducir sus resultados y garantice que éstos fueron obtenidos a través de un proceso transparente y honesto y no manipulados espuriamente.
En relación con las cuestiones de reproducibilidad en economía, hace unas semanas apareció un relevante estudio que incluye entre sus coautores a Sebastián Galiani, actual viceministro de Hacienda, amén de un prestigioso académico de renombre internacional. Galiani y sus coautores revisan 203 artículos de las más importantes publicaciones en economía y evalúan si cumplen un mínimo requisito de replicabilidad: si munido de los mismos datos y código de computación usados por los autores, un economista profesional puede replicar las tablas y los gráficos de los papers examinados tal como fueron publicados. Los resultados son alarmantes: sólo el 14% de los papers pudieron ser replicados exactamente.
Y como en el caso de la anécdota del segundo teléfono, la solución definitiva a este tipo de prácticas sospechosas involucra a toda la comunidad científica y su tendencia a interpretar el mandato "publicar o morir" como si fuese un deporte en el que se trata de publicar muchos papers a costa de su calidad.

El trabajo de Galiani y sus coautores recomienda la adopción de estándares computacionales que permitan reproducir los resultados publicados con facilidad. "Hay mujeres que se embarazan para cobrar la Asignación Universal por Hijo", dijo hace unos días la cantante Lucía Galán. Sólo a la luz de estudios científicos honestos y bien diseñados es posible refrendar o refutar evidencias anecdóticas como la aportada por la cantante del dúo Pimpinela sobre esta importante política social.
Lamentablemente, el diseño de la AUH no previó mecanismos estadísticos claros que permitan evaluar su efectividad. Consecuentemente el problema de reproducibilidad señalado por Galiani no apareció por el mero hecho de que hay muy pocos trabajos científicos sobre el tema: ya es muy complejo realizar investigaciones con la magra información disponible. De hecho, los pocos estudios existentes recurren a delicadas estrategias estadísticas que permiten circunvalar estas dificultades, como uno del Centro de Estudios Distributivos, Laborales y Sociales (Cedlas) de la Universidad Nacional de La Plata, cuyos resultados sugieren que si bien la AUH parece haber tenido un impacto positivo sobre los embarazos, es muy difícil identificar cuán grande es este efecto.
La evaluación de políticas reclama mejores datos que redundarían en más estudios científicos sobre su efectividad, y también una comunidad científica honesta que impida que en la obsesión por las publicaciones se cuelen los vicios de reproducibilidad reportados por Galiani, y la práctica del p-hacking que parece afectar a toda la ciencia. Porque la alternativa a la evidencia científica confiable es el mero intercambio de anécdotas.
El autor es profesor de la UdeSA e investigador principal del Conicet

W. S. E.

No hay comentarios.:

Publicar un comentario

Nota: sólo los miembros de este blog pueden publicar comentarios.