De los vericuetos y entresijos de la investigación científica

Inicio > Del Editor > Editoriales anteriores > Editorial27082019

En la sociedad del conocimiento (dentro de la cual estamos  viviendo), la investigación científica deviene un importante motor productivo. En el sector de la salud, la investigación biomédica no solo sirve para generar nuevos conocimientos, sino, además, nuevas tecnologías, patentes y equipamientos. No en balde el sector de la salud atrae cada vez más el interés de la industria y los inversionistas, al mismo tiempo que aumentan las presiones sobre los investigadores y los centros donde se desempeñan, y por extensión el sistema editorial: depositario final de los resultados de la labor investigativa. Todas estas cuestiones vienen a mi mente cuando me propongo redactar este Editorial que dedicaré a los mil y un pormenores de la investigación científica, a la luz de varias y recientes publicaciones en la revista “Nature” (de todas las revistas posibles).

El primero de estos artículos trata de ilustrar a los lectores de cómo se llegan a conclusiones diferentes (y también diametralmente opuestas) después del examen del mismo juego de datos [1]. El segundo presenta la actuación desinteresada del Dr. John Carlisle, anestesista del Hospital General de Torquay (Inglaterra), quien en su tiempo libre se dedica a revisar críticamente artículos publicados sobre su especialidad, y con ello, resolver discrepancias e incongruencias entre las premisas de la investigación y las conclusiones de la misma [2]. De resultas de la actividad del Dr. Carlisle, 10 reportes de más de 5,000 revisados fueron retirados de las revistas, y otros 6 enmendados.  El tercer (y el último) de los artículos que tomaré como pretexto para la construcción de este Editorial vuelve sobre el eterno tema de la absolutización de la probabilidad p como elemento de juicio del resultado investigativo [3].

Si no fuera el Editor que soy de una revista biomédica, no me detendría en cuestionar la postura de los autores de estos artículos. Pero un editor está obligado a educar a su audiencia en la apreciación de los valores que le son inherentes a la investigación científica y la publicación de los resultados de la misma.

Cuando uno recibe un manuscrito para publicar, lo primero que debe buscar es si la investigación completada es coherente en objetivos, métodos, resultados y conclusiones (más de la mitad no lo son, y por lo tanto, deben ser rechazados o rehechos totalmente para proceder a una segunda revisión). En el siguiente acto, el editor debe derivar a un árbitro imparcial (todo lo que se pueda ser en este mundo interconectado) para que conduzca una evaluación independiente del manuscrito en cuestión. De hecho, el manuscrito es remitido a dos árbitros (léase también revisores) para que emitan un dictamen de rechazo/aceptación.

¿Qué nos muestra el primer artículo? Varias cosas, pero la primera es que el proceso de arbitraje/revisión no fue todo lo exhaustivo que debió haber sido (más allá del por qué de esta brecha) cuando el artículo finalmente publicado presentó conclusiones que después fueron cuestionadas y disputadas por terceros. Pero la brecha principal fue exponer ante la comunidad de pares (y otras partes) la integridad y la profesionalidad de los autores del artículo impreso al presentar públicamente, en una pieza acompañante, los resultados de un (supuesto) análisis independiente hecho por otros. Si los resultados eran (para empezar) cuestionables, nunca debieron llegar a la imprenta, y en su lugar, haber sido notificados a los autores por los árbitros y los propios editores de la revista. Todos los que participan en el proceso de la publicación científica deben tener siempre presente que somos deudores de lo que queda impreso. Todavía si, por cuestiones que no interesan para los fines de este Editorial, se hubiera procedido a la impresión del problémico artículo, entonces se hubiera invitado a la comunidad de investigadores y expertos a remitir sus opiniones y comentarios en un ejercicio intelectual de búsqueda y escrutinio de la verdad. Confieso que la lectura de este artículo me ha dejado con un mal sabor de boca, por cuanto puede sentar un precedente peligroso de obviar el proceso de revisión independiente, externa, y por pares (la base de la publicación científica), y también anónimo y discreto (la revisión de los méritos de un manuscrito para ser publicado debe seguir siendo un arreglo entre personas educadas y galantes); y con ello, de abrir la puerta a la impresión de artículos de dudosa calidad y conclusiones disputables, solo para ser expuestos por personas que mejor harían de revisores del mismo en la etapa preeditorial.

La actividad del Dr. Carlisle podría ser meritoria (y no dudo que lo sea), pero el autor de la reseña deja traslucir que el sistema editorial científico propende al fraude y la manipulación, y por lo tanto, no es de confiar [4]. Se discute mucho hoy en día sobre el estado de las revistas biomédicas en el mundo entero. De hecho, se tiene un documento del estado corriente de las revistas científicas cubanas que no presenta un panorama nada halagüeño como para voltear nuestra mirada y fijar nuestra atención en los problemas de los demás [5]. Pero la falencia no está en el sistema editorial, sino en los fines para los cuales se quiere utilizar éste. El informe referido en párrafos anteriores muestra que el sistema editorial en Cuba se preocupa más del avance académico de los profesionales antes que de la gestión del nuevo conocimiento. Por su parte, en aquellos entornos de alta competitividad (donde “o publicas o pereces”), el sistema editorial se ha ajustado para asegurar la continua publicación de los trabajos que aseguren el status de los investigadores y centros de élite. De hecho, llama la atención que, en la reseña de la actividad detectivesca del Dr. Carlisle, las retracciones afectaron a centenares de trabajos firmados por un mismo autor. Tal productividad de por sí debería ser inquietante para un editor. El sistema editorial también podría cumplir un papel reafirmativo del Primer Mundo como el primer emisor de contenidos y tecnologías. Luego, las retracciones serían un precio menor a pagar para sostener tal posición. No obstante, el que el número de trabajos expuestos como fraudulentos por el Dr. Carlisle sea tan solo del 5% pudiera indicar que el sistema editorial ha elaborado las correspondientes salvaguardas ante amenazas como las reseñadas.

Lo que me trae al último punto de este editorial. El tercero de los artículos sobre los cuales quiero llamar la atención del lector vuelve sobre la utilidad (o la futilidad, según del lado de que se mire) de la p (esa enigmática letra que todos persiguen) como elemento de juicio de la calidad de un artículo científico. Cada cierto tiempo se levanta una corriente que (re)clama por el abandono de la p con mil y un argumentos, algunos ya trillados por el uso, y otros que no pasarían de ser meras especulaciones y manipulaciones [6]. La (nueva?) propuesta de los autores (a pesar de las provisiones que adoptan) es en sí misma irresponsable por cuanto, primero, obviaría el lugar que debe ocupar el análisis estadístico-matemático de los resultados allegados dentro del protocolo general de la investigación científica; y segundo, porque no se tendría otro constructo que ocupe su lugar.

Está fuera de este editorial discurrir sobre los orígenes de la p, y su posterior evolución [7]. Dos eminentes estadísticos británicos, Karl Pearson y Ronald Fisher se ocuparon de colocar el valor de p como elemento central de la teoría y la práctica estadística. Por otro lado, las Estadísticas como ciencias aplicadas han evolucionado desde diseños factoriales balanceados y controlados (como los que se emplean en la investigación agrícola), pasando por series de estudio “pequeñas” y desbalanceadas, hasta enormes bases de datos con miles de registros y centenares de variables. Es entonces obvio que la p reflejará todos estos cambios, y hará que el investigador se vea compelido a reinterpretar su significado en estos nuevos escenarios.

Es muy probable que muchas veces la p no revele el efecto (evento) que nosotros buscamos, por cuanto la p, entre otras muchas cosas, es un indicador del ruido biológico de los datos allegados. Si el ruido biológico es muy “alto”, entonces el efecto buscado no se hará visible. Se ha de decir en este punto que muchas veces el diseño experimental seguido puede incrementar desproporcionadamente este ruido biológico. Otras veces el ruido biológico es tan pequeño (el tamaño muestral es muy grande) que el efecto se hace visible solo para añadir confusión.

Afortunadamente, el investigador tiene a su disposición métodos no paramétricos (otra forma de examinar la validez estadística de nuestros reclamos apelando a los datos colectados y alejándonos de las distribuciones clásicas) para lidiar con datos escasos y mal balanceados. Además, todavía el investigador dispone de  la sección “Discusión” para poner en perspectiva los resultados encontrados. Dos ejemplos nos podrían venir bien como ilustración. Digamos que diseñamos un protocolo de soporte nutricional para administrar en la fase preoperatoria de una cirugía de alto riesgo como la colorrectal. Aceptemos que después de completar este protocolo en 20 pacientes encontramos que la estadía hospitalaria se redujo en dos días. Si administramos un test estadístico apropiado, el valor estimado de p es mucho mayor que la cota del 5%. Si seguimos la corriente general, desechamos la intervención nutricional porque el resultado no fue “significativo”. Pero la reinterpretación sería en otra dirección. En una serie de estudio tan pequeña, el ruido (léase también error) biológico es tan grande que oscurece el efecto positivo de la intervención nutricional (otros dirían: Aumenten el tamaño de la muestra, y solo verán un ruido mayor). Pero el hecho de que la intervención nutricional acortó la estadía hospitalaria en 2 días completos es particularmente significativo desde lo económico, pues los ahorros generados  por día/cama/paciente serían incrementales con cada sujeto que se beneficie de la misma.

El otro ejemplo. El Observatorio cubano de la Desnutrición Hospitalaria ha encontrado una reducción del 2% (p < 0.05) de la tasa nacional de desnutrición hospitalaria [8]. Ello podría indicar que ha habido una reducción “significativa” de esta tasa. Pero el significado estadístico de este resultado es disputado por el tiempo transcurrido para que el cambio se haya acumulado (0.2% anual por los últimos 10 años: demasiado poco), y la mera trascendencia del valor residual: todavía queda un 39% de los pacientes que permanece desnutrido. ¿Qué ha pasado? Que el tamaño muestral fue tan grande (al ser un estudio nacional), que el error biológico se hizo muy pequeño, y ello hizo que el efecto deseado (la reducción de la tasa de desnutrición) se hipertrofiara en consecuencia.

Todavía el autor puede echar una mirada autocrítica sobre sus resultados, al colocar en su manuscrito una sección denominada (muy convenientemente) “Limitaciones del estudio”. Y aquí viene el conflicto cultural: ¿Cómo reaccionaría un comité evaluador ante la colocación de esta sección en el cuerpo de una publicación? ¿Aceptarán los patrocinadores de un estudio importante y multimillonario en costos que los propios patrocinados reconozcan que el mismo tuvo limitaciones que impidieron que la p no sea “significativa”? ¿Cómo reaccionaría un tribunal de pares cuando un aspirante a Doctor en Ciencias exponga con toda franqueza que los resultados de la investigación no fueron significativos, y señale post hoc cuáles fueron las limitaciones que impidieron encontrar la tan deseada (e idolatrada) significación?

Luego, la cuestión no es un constructo estadístico, o una revista peer-reviewed, o un sistema de gestión editorial. Es más profundo que eso. Se trata de las tensiones de toda índole (incluidas las económicas y también las ideológicas) a las que estas creaciones están sujetas, más allá del sentido y destino originarios de las mismas. Y si prevalecen los activistas anti-p, no tendrá entonces sentido el trabajo altruista del Dr. Carlisle.

Espero que les sea útil.

Con mis mejores afectos,

Dr. Sergio Santana Porbén
El Editor

Referencias bibliográficas

[1] Adam D. Reproducibility trial publishes two conclusions for one paper. Nature 2019;570(7759):16. Disponible en: http://doi:10.1038/d41586-019-01751-0. Fecha de última visita: 27 de Agosto del 2019.
[2] Adam D. How a data detective exposed suspicious medical trials. Nature 2019;571(7766):462-4. Disponible en: http://doi:10.1038/d41586-019-02241-z . Fecha de última visita: 27 de Agosto del 2019.
[3] Amrhein V, Greenland S, McShane B. Scientists rise up against statistical significance. Nature 2019;567(7748):305-7. Disponible en: http://doi:10.1038/d41586-019-00857-9. Fecha de última visita: 27 de Agosto del 2019.
[4] Young NS, Ioannidis JP, Al-Ubaydli O. Why current publication practices may distort science. PLoS Medicine 2008;5(10):e201-e201. Disponible en: http://doi:10.1371/journal.pmed.0050201. Fecha de última visita: 27 de Agosto del 2019.
[5] Castellanos Serra L, Rodríguez Castellanos C, Valdés Sosa P. La ciencia cubana vista a través de sus publicaciones: Una revisión de los últimos 19 años. Academia de Ciencias de Cuba. La Habana: 2017. Disponible en: http://www.academiaciencias.cu/node/908. Fecha de última visita: 27 de Agosto del 2019.
[6] Harris EK. On P values and confidence intervals (Why can’t we P with more confidence?). Clin Chem 1993;39(6):927-8. Disponible en: http://clinchem.aaccjnls.org/content/39/6/927.short. Fecha de última visita: 27 de Agosto del 2019.
[9] p-value. Disponible en: https://en.wikipedia.org/wiki/P-value. Fecha de última visita: 27 de Agosto del 2019.
[8] Santana Porbén S; para el Grupo Cubano de Estudio de la Desnutrición Hospitalaria. Estado de la desnutrición en los hospitales de Cuba: Una actualización necesaria. RCAN Rev Cubana Aliment Nutr 2015;25(2): 356-70. Disponible en: http://revalnutricion.sld.cu/index.php/rcan/article/view/139. Fecha de última visita: 27 de Agosto del 2019.