anàlisi de dades COVID-19: el que no ens diuen (I)

data: 12 d’abril de 2020 (versió preliminar en esborrany)

“Les cues de les gràfiques MoMo són fake-news?”

Introducció

Les dades que proporcionen els diferents organismes de govern respecte el COVID-19 són errònies, sobretot per incomplertes, i poden portar a conclusions equivocades sobre l’evolució de l’epidèmia si no s’analitzen amb molta cura. Encetem una sèrie d’articles per tal de posar al descobert aquesta problemàtica, comptant amb les pròpies dades proporcionades pels governs, on mostrarem les contradiccions que s’hi reflecteixen. En aquest primer article veurem com les gràfiques sobre defuncions observades de cada informe del sistema MoMo de MOnitoratge de MOrtalitat diària de l’Estat Espanyol són errònies en el trams finals i poden portar a afirmar que ha conclòs l’epidèmia o que estem a la fase final quan això no és cert. Per a representar gràficament la zona errònia ho hem senyalitzat amb el globus vermell al final de la gràfica MoMo de morts observades de la Figura 1 (corba solida de color negre).

Figura 1. Mortalitat per totes les causes observada i esperada. Espanya, desembre 2019 a al 07 d’abril de 2020. (* Font – Informe MoMo 7 abril, amb globus vermell remarcant part errònia)

Als informes MoMo del sistema de monitoratge de la mortalitat diària d’Espanya, integrat el Euro MoMo a nivell europeu[1] recull setmanalment el registre de defuncions per totes les causes a l’Estat i es generen diverses gràfiques, acompanyades d’informes desglossats en dades globals i regionals a nivell d’Estat. És sabut que quan s’arribi al final de l’epidèmia COVID-19 aquests informes MoMo [2] acabaran recollint totes les dades de defuncions associades a l’epidèmia o no, i permetran saber millor quin ha sigut l’abast en els diferents territoris i l’afectació real pel COVID-19; això es podrà fer per comparació amb la situació que era previsible a partir dels registres d’altres anys (el que s’anomena mortalitat estimada i que a la gràfiques MoMo es representen amb una corba blava) corresponents al mateix període temporal.

En aquesta sèrie d’articles però, volem destacar les possibles incorreccions de les dades que ens proporcionen aquests mateixos informes en aquests moments mentre està activa l’epidèmia. També volem abordar la pregunta “què podem fer si volem fer prediccions i conèixer la situació el màxim d’ajustada de l’epidèmia abans que l’epidèmia acabi?” I l’altra pregunta que respondrem: “els informes MoMo durant l’epidèmia, que poden portar a interpretacions incorrectes -com demostrarem en aquest primer article-, poden servir per altres coses més productives mentrestant no s’arriba al final de l’epidèmia?”

Aquestes preguntes no s’abordaran des del punt de vista epidemiològic, modelitzant el comportament del virus i ajustant el model amb les dades disponibles, hi ha gent molt més experta i preparada que ho està fent magníficament de manera molt rigorosa i correcta, sinó que es volen explorar amb un enfoc més directe, a partir només dels registres de defuncions pel COVID-19 recollits en dos repositoris: per un cantó el registre COVID-19 elaborat en sèus Hospitalàries [3] i per l’altre cantó els propis informes del sistema MoMo de monitorització de morts a l’estat Espanyol [2].

Context i fonts

En aquest primer article analitzarem els problemes d’interpretació de la part final de les gràfiques que proporciona el sistema de monitorització de la mortalitat diària MoMo a l’Estat Espanyol que podem trobar a [2] a través dels informes setmanals MoMo del “Instituto de Salud Carlos III”. Per a fer aquests informes, tal com se’ns recorda a la capçalera de cada un d’ells “s’utilitza la informació de mortalitat per totes les causes que s’obtenen diàriament de 3929 registres civils informatitzats del Ministeri de Justícia del Govern de l’Estat, que corresponen al 93% de la població i que inclouen totes les províncies. Les estimacions de mortalitat esperada es realitzen mitjançant models restrictius de mitjanes històriques basats en la mortalitat observada del 1r de gener de 2008 fins a l’any previ de la data actual de l’informe”.

És molt important remarcar com es calcula el valor a les defuncions observades en aquests informes, ja que ens diuen que “les defuncions observades en els darrers 28 dies es corregeixen* per l’endarreriment en la notificació, tenint en compte tres factors: el nombre de defuncions notificades diàriament, la distribució de defuncions notificades diàriament i la mitjana de morts per dia, aplicant una regularització a l’estimació per màxima versemblança”. El que es dedueix d’aquesta afirmació és que cal anar amb molta precaució amb les gràfiques MoMo de les defuncions observades ja que es corregeixen*, això sembla voler dir que els valors observats es poden alterar quan es posen a la gràfica. També ens avisen que en alguns informes pot haver-hi retards en les notificacions dels registres i per tant queda sobreentès que hi poden haver incongruències entre informes successius.

Amb tot, les gràfiques MoMo poden ser bastant rellevants i significatives, malauradament en aquests moments no podem comptar ni amb les dades primàries ni amb la metodologia exacte que s’ha fet servir per a generar les gràfiques, cosa que ens facilitaria molt la feina. Durant aquest estudi es treballarà exclusivament sobre les representacions gràfiques extretes de les successives actualitzacions dels informes MoMo [2], són les dades que tenim disponibles i les que s’han decidit aprofitar.

La gràfica que mostrem a la Figura 2 correspon a l’informe MoMo de 7 d’abril (el darrer disponible en el moment de fer l’article) amb dades de defuncions globals a tot l’Estat. L’eix horitzontal de la gràfica és el temporal, en dies, i a l’eix vertical es representen el nombre de defuncions diàries (no acumulades). A Cada gràfica es mostren tres valors: en primer lloc el nombre de defuncions diàries observades (però corregides*), la corba sòlida de color negre; després el nombre de defuncions esperades (a partir de mitjanes d’altres anys), la corba sòlida de color blau; i per últim el grau de dispersió de les defuncions esperades, que es representa amb una franja blava. Quan la gràfica de defuncions observades supera la franja blava es declara que s’està en fase d’epidèmia, que dura mentre no es torni a baixar aquest valor per sota de la franja blava.

Figura 2. Mortalitat per totes les causes observada i esperada. Espanya, desembre 2019 a al 07 d’abril de 2020. (* Font – Informe MoMo 7 abril)

Demostració de les cues errònies MoMo

Si algú no expert mira la gràfica anterior i es fixa en corba de defuncions observades pensa, “l’epidèmia va començar el 18 de març i ha acabat o està acabant el 7 d’abril, perquè la corba torna a baixar a la zona de defuncions esperades”, de fet ho trobarà escrit a sobre de la mateixa gràfica en l’informe, amb aquestes mateixes paraules, el que mostrarem és que això és fals. Veurem que cal tenir molta cautela en interpretar la caiguda al final de les corbes de morts observades, no es pot proclamar “s’ha assolit el pic de la corba” ni que “la corba està caient“, coses que no són certes a partir de les dades reals disponibles; això passarà amb totes les gràfiques provinents dels Informes MoMo [2].

Els experts han elaborat aquestes gràfiques seguint els procediments que tenen establerts descrits a [1]; per simplificar, podem dir que fan una mitjana dels valors observats, i que al final de la corba sembla que fan també una mitjana amb els valors esperats, el problema és que això afecta molt a les cues de les gràfiques. No es tan important com es fan exactament aquests càlculs i aquestes correccions, el que és important és que la presència d’aquestes cues corregides poden portar a difondre conclusions enganyoses, les famoses fake-news. Un exemple és el propi redactat de l’Informe MoMo a cada gràfica, on fa una previsió de la durada d’episodis d’epidèmia. Només afegir que suposadament en condicions normals aquest sistema fa una bona previsió, però la previsió és completament errònia mentre s’està a la fase aguda d’una epidèmia com el COVID-19; el motiu és que evidentment en els registres existents de l’any 2008 al 2019 no havia aparegut mai una epidèmia semblant, la darrera va ser segurament la de la Grip espanyola del 1918.

A través d’un exemple il·lustrarem millor aquest problema. Comparant la gràfica de la Figura 2 que correspon a l’informe MoMo de 7 d’abril amb la de la Figura 3 , que es correspon al mateix informe MoMo però publicat el dia 30 de març. A la Figura 2 es veu el pic més alt de morts observats que correspon al dia 24 de març, també es pot apreciar que el dia 30 de març el valor encara es manté alt, a aquesta part alta de la gràfica s’hi arriba per un creixement continuat a partir del 15 març, dia en que el registre de morts observades ja va sortir de totes les mitjanes i valors esperats a partir de dades d’altres anys i es va entrar en fase d’epidèmia. Si ara es comparen aquests valors del 24 al 30 amb els registres de morts observades de la Figura 3 (corresponent al 30 de març), ja es veu quin es el problema: les morts observades no tenen el mateix valor i sobretot l’evolució no és la mateixa, en aquesta gràfica el pic era al 27 i no al 24 – i a més era molt més baix que a la Figura 2, i a més en la Figura 3 el brot epidèmic acabava el dia 30 de març.

Comparant les dues corbes podem veure que al pic entre una i altra hi ha una diferència de més de 500 , que correspon a un 20%-30%, en el que anomenen morts observades. I com pot ser això si són morts observades (per tant registrades)? Hi pot haver alguns errors per un possible retard en l’actualització de les dades, però tot indica que en aquest cas el problema és pel tipus de correcció que es fan a les morts declarades, en aquest context sembla que es digui que morts observades no vol dir morts observades, sinó morts observades corregides per un determinat model o unes tècniques, i aquí és on neix per nosaltres la principal confusió.

Això es demostraria encara més irrefutablement amb el fet que el dia 30 de març a la Figura 3 (del 30 de març) representava que ja havia baixat tota la corba i es donava per acabada l’epidèmia, ja que el registre de defuncions observades era proper a la norma esperada, dins la franja blava. Que queda totalment desmentit per la Figura 2, on es veu perfectament que el dia 30 de març encara s’ha de comptabilitzar a la part alta de l’epidèmia.

Per insistir una mica més en les comparatives, algunes preguntes més: com s’explica que al dia 28 o 29 de març d’un informe elaborat el 30 de març representi que es tenen 1400 o 1200 morts observades com a molt a la Figura 3 i en canvi a la Figura 2 elaborada el 7 d’abril en siguin 2000? Aquestes 2000 són confiables a 7 d’abril o ho seran més endavant quan hi hagi una nova actualització? Quina confiança podem tenir en la gràfica de morts observades de la Figura 2, realment del 27 de març al 7 d’abril han anat baixant el nombre de morts diaris globals i ja estem al final de l’epidèmia?

Figura 3. Mortalitat per totes les causes observada i esperada. Espanya, del desembre 2019 al 31 de març de 2020. (* Font – Informe MoMo 31 març)

Conclusions que en podem extreure i futurs articles

Aquesta mala interpretació d’aquestes gràfiques ha portat a difondre l’argument de que ja hem arribat a la fi de la part més dura de l’epidèmia, missatge que s’ha llegit en boca de polítics destacats i fins i tot d’experts i portaveus de governs per a justificar la relaxació de les condicions de confinament de la població decretada pel passat 9 d’abril, on la gent està obligada a anar a treballar encara que no formi part dels sectors productius essencials ni que s’hagin pogut protegir correctament ni fet tests massius, que és el que els experts catalans i mundials reclamaven. Moltes vegades la justificació d’aquestes mesures es recolzen en aquests informes científics, o informes similars, que van signats per entitats amb autoritat, com l'”Instituto de Salud Carlos III” o el “Centro Nacional de Estadística”, i remarcant que segueixen directives i procediments estàndard europeus, com el projecte EuroMoMo [1]. Aquí no es volen discutir autoritats ni qüestionar experts, sinó mostrar problemes i tractar de buscar solucions.

Per tant com a conclusió direm que: per analitzar i comparar les gràfiques MoMo al mig d’un brot epidèmic cal posar en quarantena els trams finals o bé retallar-los directament per no arribar a conclusions totalment errònies. Es pot aventurar que el registre de defuncions observades de les gràfiques MoMo tenen una concordança amb la realitat que es desajusta a mida que arribem a la data limit de la seva elaboració, en els articles posteriors provarem de saber aquest dia x abans del límit fins al qual es disposen de valors confiables.

Feu-me arribar les vostres crítiques i si us ha agradat ajudeu-me a difondre l’escrit, voldria que arribés a tothom que hi pogués estar interessat.

  • PD: El segon tipus de fonts que es faran servir per a respondre aquesta segona pregunta de com trobem el dia x que cal retallar de les cues errònies, les analitzarem al següent article, que esperem tenir enllestit ben aviat. Les fonts amb les que treballarem tenen l’avantatge que són dades d’elaboració pròpia, a diferència de les dades MoMo, i es basen també en els registres oficials epidemiològics que comptabilitzen el nombre de diagnosticats, hospitalitzats, morts i altes per COVID-19 als Centres Hospitalaris de tot l’estat i desglossats per Comunitats Autònomes [3].

Referències

[1] EuroMOMO. European monitoring of excess mortality for public health action. Disponible en: http://www.euromomo.eu/

[2] https://www.isciii.es/QueHacemos/Servicios/VigilanciaSaludPublicaRENAVE/EnfermedadesTransmisibles/MoMo/Paginas/Informes-MoMo-2020.aspx

[3] https://mscbs.gob.es/profesionales/saludPublica/ccayes/alertasActual/nCov-China/situacionActual.htm

[4] http://salutpublica.gencat.cat/ca/ambits/vigilancia_salut_publica/resposta-rapida-a-alertes/Alertes-i-brots-actius-destacats/Dades-actualitzades-COVID-19/Seguiment-diari-de-casos/

[5] https://www.elmon.cat/politica/borrell-passat-residencies-catalanes-dificil-culpar-govern-central_2119504102.html