La ciencia de datos es una disciplina dedicada a analizar y procesar datos con el propósito de convertirlos en conocimiento accionable. En el área de la salud, la ciencia de datos ha tenido repercusión en el último tiempo, principalmente debido a la generación de grandes volúmenes de datos complejos, fenómeno conocido como big data. El aprovechamiento de esta información permite mejorar la toma de decisiones en salud y, por lo tanto, la calidad de vida de la población. Esta disciplina puede brindarle beneficios muy importantes a Latinoamérica. No obstante, los problemas estructurales, tanto sociales como económicos de la región, sumado a la fragmentación y segmentación de los sistemas de información en salud, representan grandes desafíos para la gestión de los datos.
En este artículo se revisarán los aspectos más relevantes de la ciencia de datos en salud en América Latina.
Data science is a discipline dedicated to analyzing and processing data with the purpose of turning it into actionable knowledge. In healthcare, data science has had an impact in recent times, mainly due to the generation of large volumes of complex data, a phenomenon known as big data. The use of this information improves decision-making in healthcare and, therefore, quality of life in the general population. This discipline can provide very important benefits to Latin America. However, the region's structural problems, both social and economic, in addition to the fragmentation and segmentation of health information systems, represent great challenges for data management.
This article will review the most relevant aspects of health data science in Latin America.
Con el avance de las tecnologías de la información y la comunicación (TICS), se están continuamente generando y almacenando datos en las diferentes esferas sociales. De hecho, esta tendencia ha dado origen al término big data (BD) para hacer referencia a aquellos volúmenes de datos demasiado grandes y/o complejos para ser manejados de manera efectiva y/o eficiente por las teorías, tecnologías y herramientas tradicionales relacionadas con los datos1. Sin embargo, el tamaño en sí mismo no basta para calificar al BD. Otras características incluyen la velocidad, la heterogeneidad y la variedad de datos2.
En el cuidado de la salud, el viraje de los sistemas de información en salud (SIS) desde un enfoque centrado en la enfermedad hacia otro centrado en el paciente ha comenzado a generar grandes volúmenes de información. A las fuentes de datos tradicionales como la historia clínica electrónica (HCE), el registro personal de salud y los estudios complementarios, como imágenes y análisis de laboratorio; se suman otras fuentes no convencionales a partir de la incorporación de nuevas TICS. Estas nuevas tecnologías, prometedoras en relación al aporte de datos, incluyen las ciencias ómicas, la telesalud, los biosensores y los rastreadores de actividad física entre otros. De hecho, se ha empleado el término “informática y analítica en salud” para referirse a las TICS y al análisis de datos necesarios para aprovechar esta información en el cuidado de la salud3.
Al momento de procesar y volver comprensible este conjunto enorme y complejo de información es donde la ciencia de datos (CD) comienza a tomar un valor cada vez más importante. A alto nivel y de forma simplificada, podría definirse a la CD como el estudio de los datos1. Desde una perspectiva disciplinaria, la CD es un campo interdisciplinario emergente basado en estadística, informática, computación, comunicación, gestión y sociología para estudiar los datos y su entorno. Eventualmente, el análisis de esos datos permitirá transformarlos en conocimientos, decisiones y acciones siguiendo un pensamiento y una metodología determinada1.
En este artículo se revisarán los aspectos más relevantes de la CD en salud en Latinoamérica (LA), desde las características de los datos y sus fuentes, hasta los desafíos y oportunidades de esta disciplina en la región.
Características de los datos en saludLa enorme cantidad y variedad de datos en salud hace que sean interesantes y desafiantes. En cuanto al formato, los datos se pueden clasificar en estructurados y no estructurados. Ejemplos de datos estructurados incluyen datos demográficos (edad, sexo), altura, peso, presión arterial, pruebas de laboratorio y medicamentos. Su análisis se puede realizar sin mucho esfuerzo utilizando métodos estadísticos estándar o de aprendizaje automático, ya que los datos ya existen en una estructura fija4. Los datos no estructurados, por otro lado, son datos de texto libre (como registros clínicos, resúmenes de alta o informes de estudios), imágenes, audios o vídeos5,6. Se puede extraer mucha información valiosa de los datos, pero es más complicado ya que no están en un formato facilmente procesable. Por ejemplo, los datos tipo texto libre contienen información contextual como el episodio de atención o la estadía hospitalaria, pero esta información es difícil de extraer. Además, los textos clínicos pueden contener errores gramaticales y ortográficos, ambigüedades y abreviaturas. Este tipo de complejidad aumenta la dificultad de procesar y analizar los datos4. A medida que aumenta la can tidad de textos clínicos, los métodos para analizar este tipo de datos, como el procesamiento del lenguaje natural, están ganando un gran interés académico, especialmente entre los científicos de datos.
Interoperabilidad de los datos en saludEn otro orden de ideas, para que los datos puedan ser compartidos entre diferentes entidades es necesaria la interoperabilidad (IO). En el ámbito de la salud, la IO se define como la capacidad de diferentes SIS para intercambiar datos y usar la información que ha sido intercambiada dentro y a través de los límites de la organización, con el fin de mejorar la prestación efectiva de los cuidados de salud a individuos y comunidades7. Según la clasificación propuesta por la European Telecommunication Standards Institute (ETSI)8, hay cuatro niveles de interoperabilidad:
- •
Técnica: permite la comunicación entre sistemas mediante protocolos e infraestructura necesarios para la comunicación y el intercambio de datos.
- •
Sintáctica: relacionada con la estructuración de la información al momento de intercambiarla. Aquí se diferencian estándares de mensajería como Health Level Seven (HL7) o Digital Imaging and Communication In Medicine (DICOM) de estándares de documentos como Continuity of Care Record (CCR) o Clinical Document Architecture (CDA).
- •
Semántica: hace referencia al entendimiento entre sistemas de los códigos intercambiados y el significado de su contenido. Algunos ejemplos de estándares semánticos son International Classification of Diseases (ICD), Systematized Nomenclature of Medicine–Clinical Terms (SNOMED-CT) o Logical Observation Identifiers Names and Codes (LOINC).
- •
Organizacional: es la capacidad de las organizaciones para intercambiar información de manera efectiva.
Dentro de la región de LA, una de las fuentes de datos más confiables y transversales a cada región son los datos gubernamentales abiertos. Estos datos son producidos por el gobierno y puestos a disposición de las personas no solo con fines informativos y de lectura, sino también para ser reutilizados en nuevos proyectos, sitios y aplicaciones9. Los datos abiertos que proveen los gobiernos deben cumplir con ocho principios básicos, debiendo ser: completos, primarios, actualizados, accesibles, procesables, no discriminatorios, sin propietarios y libres de licencia9,10. Varios países de LA ofrecen sus datos en salud en formatos abiertos para qué puedan ser utilizados. Desde el 2011 Brasil cuenta con legislación que aprueba la creación de repositorios digitales de datos abiertos. Argentina y Perú se sumaron en el 2013 y México a partir del 2014. De acuerdo con un reporte de la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO), Brasil es el país de LA qué presenta el mayor número de políticas para data sets abiertos, seguido por Perú, Argentina, Venezuela, Colombia, México y Bolivia11.
Una de las principales fuentes de datos en salud oficiales de LA son las encuestas nacionales. En la mayoría de los países de la región, esta técnica de recolección ya tiene varios años de experiencia, con realizaciones periódicas cada vez más complejas que aportan datos confiables de las diferentes localidades. A través de las mismas, los estados recaban información sobre enfermedades crónicas y sus factores de riesgo, aspectos nutricionales, salud sexual y consumo de sustancias psicoactivas, entre otras. (Tabla 1).
Encuestas nacionales de salud y fuentes de datos relacionadas por país en América Latina
Argentina | Encuesta Nacional de Factores de Riesgo (ENFR)12Encuesta Nacional sobre Salud Sexual y Reproductiva (ENSSyR)12Encuesta Nacional sobre Prevalencias de Consumo de Sustancias Psicoactivas (ENPreCoSP)12 |
---|---|
Bolivia | Encuesta de Demografía y Salud (EDSA)13 |
Brasil | Pesquisa Nacional de Saúde14 |
Chile | Encuesta Nacional de Salud (ENS)15 |
Colombia | Encuesta Nacional de Salud (ENS)16 |
Costa Rica | Encuesta Nacional de Salud (ENSA)17 |
Ecuador | Encuesta Nacional de Salud y Nutrición (ENSANUT)18 |
El Salvador | Encuesta Nacional de Salud (ENS)19 |
Guatemala | Encuesta Nacional de Prevalencia de Enfermedades no Transmisibles y sus Factores de Riesgo Dominio I: Urbano metropolitano, en población de 18 años y más20 |
Honduras | Encuesta Nacional de Demografía y Salud (ENDESA)21 |
México | Encuesta Nacional de Salud y Nutrición (ENSANUT)22 |
Nicaragua | Encuesta de Demografía y Salud (ENDESA)23 |
Panamá | Encuesta Nacional de Salud de Panamá (ENSPA)24 |
Paraguay | Encuesta de salud, bienestar y envejecimiento (SABE)25 |
Perú | Encuesta Demográfica y de Salud Familiar - ENDES26 |
Uruguay | Encuesta Nacional de Salud (ENS)27 |
Por otra parte, durante los momentos más álgidos de la pandemia por COVID-19, fueron necesarios datos para comprender el comportamiento de la pandemia, tanto a nivel social como también el perfil clínico de los casos. Para esto, las autoridades locales de distintas regiones reportaron la mayor cantidad de datos posible, cumpliendo con los estándares legales, éticos y de anonimización28. Con el paso del tiempo, esas bases de datos fueron evolucionando en cuanto a la cantidad y calidad de sus registros, permitiendo a los gobiernos contar con información confiable para planificar y ejecutar acciones sobre la población a modo de controlar y prevenir la circulación viral, así como también definir estrategias de acción diferenciadas por región según su nivel de afectación.
Hoy en día, esas fuentes de información se encuentran disponibles para ser consultadas por la población, en presentaciones más fáciles de interpretar rápidamente como informes, reportes y tableros. (Tabla 2).
Fuentes de datos oficiales de COVID-19 por país en América Latina
Argentina | https://www.argentina.gob.ar/salud/coronavirus/informacion-epidemiologica |
---|---|
Bolivia | https://www.boliviasegura.gob.bo/datos-oficiales |
Brasil | https://covid.saude.gov.br/ |
Chile | https://www.gob.cl/coronavirus/cifrasoficiales/ |
Colombia | https://www.minsalud.gov.co/salud/publica/PET/Paginas/Covid.aspx |
Costa Rica | https://www.ministeriodesalud.go.cr/index.php/vigilancia-de-la-salud/41-lineamientos-coronavirus/527-situacion-nacional-covid-19 |
Ecuador | https://coronavirusecuador.com/https://www.gestionderiesgos.gob.ec/informes-de-situacion-covid-19-desde-el-13-de-marzo-del-2020/ |
El Salvador | https://covid19.gob.sv/ |
Guatemala | https://tablerocovid.mspas.gob.gt/tablerocovid/ |
Honduras | http://www.salud.gob.hn/site/ |
México | https://coronavirus.gob.mx/ |
Nicaragua | https://www.minsa.gob.ni/index.php/repository/Descargas-MINSA/COVID-19/ |
Panamá | http://minsa.gob.pa/coronavirus-covid19 |
Paraguay | https://www.mspbs.gov.py/covid-19.php |
Perú | https://covid19.minsa.gob.pe/ |
Uruguay | https://www.gub.uy/ministerio-salud-publica/coronavirus |
El proyecto Salud Urbana en América Latina/Urban Health in Latin America (SALURBAL)29, lanzado en 2017, tiene como objetivo estudiar la salud urbana, la equidad en salud y la sostenibilidad ambiental en las ciudades de LA, para informar las políticas urbanas en todo el mundo. Incluye a todas las ciudades de 100.000 o más habitantes en 2010 en 11 países, para un total de 371 ciudades. Para esto, se obtuvieron registros de mortalidad a nivel individual de cada país durante tantos años cómo fuese posible. Las causas de muerte se codificaron utilizando los códigos ICD-9 o ICD-1030, según el año, y se agruparon en categorías utilizando la clasificación de estimaciones de salud global de la Organización Mundial de la Salud (OMS). El producto final fue una colección de conjuntos de datos con información sobre cada registro de mortalidad individual, incluido el año, el país, el lugar de residencia, la edad, el sexo, la educación y la causa de muerte. Además, SALURBAL planea compilar encuestas de salud y cualquier estudio de cohorte disponible para desarrollar medidas armonizadas de comportamientos de salud y otros factores de riesgo. Su enfoque inicial ha estado en las encuestas nacionales de salud, principalmente en los factores de riesgo de enfermedades no transmisibles.
En cuanto a iniciativas regionales del uso de datos en salud, Brasil presenta propuestas muy prometedoras. El programa Brasil.IO31, es una interfaz de programación de aplicaciones (API) utilizada para recopilar datos de distinta índole. Recibe aportes de voluntarios brasileños que compilan, diariamente, boletines de datos epidemiológicos de las secretarías estatales de salud.
También en Brasil, hay estrategias orientadas a evaluar las políticas de salud pública utilizando análisis que integran herramientas epidemiológicas, estadísticas y de ciencia de datos. Por ejemplo, mediante el proyecto de evaluación del impacto de las intervenciones de lactancia materna en los hospitales sobre la salud infantil32. Este proyecto está liderado por el Instituto de Comunicación e Información Científica y Tecnológica en Salud, junto con el Laboratorio Nacional de Computación Científica (LNCC) y el Centro Federal de Educación Tecnológica de Río de Janeiro como socios; evalúa el impacto en la mortalidad neonatal de los programas de lactancia materna (solo o en combinación)33. El proyecto analiza más de 60 millones de partos y alrededor de 320.000 muertes neonatales en maternidades de Brasil durante más de 20 años para comprender mejor la rentabilidad de la adopción combinada de estas políticas públicas que promueven la lactancia materna34.
Otro proyecto brasileño centrado en el análisis de datos es sobre la evaluación de la trayectoria de los pacientes a través del sistema de salud mediante el uso de gráficos variables en el tiempo y herramientas de minería de datos35,36. Este proyecto, en el que participan investigadores asociados del LNCC, la Universidad Federal de Juiz de Fora y el Ministerio de Salud de Brasil, comprende datos de casi 60 millones de consultas de atención médica o procedimientos de salud realizados a cerca de 6,5 millones de pacientes únicos en la ciudad de San Pablo durante dos años (2014-2015). Los resultados promueven la comprensión de cómo se utiliza el sistema, sus cuellos de botella y dónde emergen, ofreciendo así conocimientos sobre los que construir para mejorar la gestión y asignación de recursos34.
Otro país de la región donde se están desarrollando investigaciones mediante el análisis de datos epidemiológicos incorporando algoritmos es México. Un proyecto en curso dirigido por el Instituto de Investigación en Matemática Aplicada y Sistemas de la Universidad Nacional Autónoma de México, que incluye colaboraciones con la Secretaría de Salud de México, ha explorado el uso de modelos epidemiológicos dependientes del tiempo para hacer predicciones confiables sobre la evolución de las pandemias de influenza A (H1N1)37 y COVID-19. Los resultados obtenidos reflejan el potencial de estas herramientas en la toma de decisiones sanitarias para reducir brotes.
Desafíos relacionados a los datos en salud en América LatinaDentro de LA hay problemas estructurales, tanto económicos como sociales, que afectan a los SIS y a la gestión de los datos en salud. El acceso deficiente a los servicios de atención médica de la población general, los recursos insuficientes y las inequidades sociales impactan a todas las regiones en mayor o menor medida. Paralelamente, la sectorización de la salud (sector público, privado y de seguridad social), la falta de acuerdos regionales y la multiplicidad de procesos asistenciales, generan un entramado complejo que dificulta la gestión de la información.
Por otra parte, un requisito clave para la abstracción y el aprovechamiento de los datos es la interoperabilidad. En LA hay todavía un largo camino por recorrer para alcanzar una interoperabilidad suficiente entre los diferentes SIS locales y regionales. Gran parte de este problema deriva de la falta de TICS necesarias para incorporar estándares técnicos, sintácticos y semánticos; y, peor aún, en la mayoría de las regiones los registros asistenciales continúan siendo en papel, con información fragmentada y duplicada en múltiples archivos físicos. Además, a nivel organizativo, recién hace unos pocos años comenzó a priorizarse la interoperabilidad dentro de la agenda de salud digital, y sólo en algunos países. Argentina, Chile y Uruguay son miembros de la organización SNOMED-CT38 y proveen a nivel nacional la licencia gratuita del uso de este estándar de terminología clínica para las instituciones de salud nacionales. Esta estrategia permite codificar la representación del contenido médico, optimizando los datos clínicos y poniéndolos a disposición de diferentes entidades para su análisis posterior.
La mayoría de las bases de datos en salud de acceso público son producidas en países desarrollados. Estos datos representan a una población diferente a la de LA por lo que, extrapolar sus resultados puede conducir a errores. El fomento de la creación de bases de datos locales y regionales facilita que las instituciones de salud puedan acceder y aplicar dicha información a sus procesos, permitiendo que los científicos de datos generen conocimiento de mejor calidad y que, por su parte, las agencias no gubernamentales aborden la situación de salud de la población de forma más integral, proponiendo soluciones a los problemas detectados.
La producción de información en salud está tradicionalmente pensada según el esquema “dato, información y conocimiento” (DIC). Este esquema es insuficiente para disponer los datos al servicio de la comunidad, apoyando la toma de decisiones necesarias para disminuir las brechas sociales y entre sectores. En consecuencia, se ha propuesto el esquema “dato, información, conocimiento, comunicación y acción” (DICCA)39.
Sin embargo, la utilización del BD en el cuidado de la salud, aplicando un esquema DICCA, representa un enorme desafío. Para extraer conocimiento del BD, un SIS requiere herramientas y técnicas de almacenamiento, gestión, análisis y visualización de datos maduras y no convencionales3. El volumen y la heterogeneidad de la información, sumado a la necesidad de un procesamiento en tiempo real considerando una gran cantidad de variables, constituyen una meta muy difícil de alcanzar para los SIS en general, y más aun teniendo en cuenta las adversidades que atraviesa la región.
Si bien el camino por recorrer para un aprovechamiento óptimo de los datos en salud representa un gran reto para LA, procurar un trabajo regional colaborativo será fundamental para enfrentar los problemas que se presenten y progresar en el desarrollo de SIS maduros, capaces de brindar la atención sanitaria que la población se merece.
ConclusiónLa CD promete grandes oportunidades en el campo de la salud en LA, fundamentalmente en estos tiempos del BD. A partir de esta disciplina, las entidades de salud podrán generar y gestionar de manera eficiente la información para la toma de decisiones de calidad.
Sin embargo, LA tiene características particulares qué agregan complejidad a la implementación efectiva de la CD en salud. Para conseguir llevarlo a cabo, los gobiernos latinoamericanos deberán enfocarse en desarrollar una visión, misión y plan de acción qué trascienda las fronteras para que el impacto de la disciplina sea transversal en toda la región.
1. Sánchez-Oro R, Alonso-Muñoz EM, Martí Romero L. Review of IgG4-related disease. Gastroenterol Hepatol. 2019;42(10):638-647. English, Spanish. doi: 10.1016/j.gastrohep.2019.08.009
2. Perugino CA, Stone JH. IgG4-related disease: an update on pathophysiology and implications for clinical care. Nat Rev Rheumatol. 2020;16(12):702-714. doi: 10.1038/s41584-020-0500-7
3. Maritati F, Peyronel F, Vaglio A. IgG4-related disease: a clinical perspective. Rheumatology (Oxford). 2020;59(Suppl 3): iii123-iii131. doi: 10.1093/rheumatology/kez667
4. Stone JH, Brito-Zerón P, Bosch X, Ramos-Casals M. Diagnostic Approach to the Complexity of IgG4-Related Disease. Mayo Clin Proc. 2015;90(7):927-939. doi: 10.1016/j.mayocp.2015.03.020
5. Brito-Zerón P, Bosch X, Ramos-Casals M, Stone JH. IgG4-related disease: Advances in the diagnosis and treatment. Best Pract Res Clin Rheumatol. 2016;30(2):261-278. doi: 10.1016/j.berh.2016.07.003
6. Saitakis G, Chwalisz BK. The neurology of IGG4-related disease. J Neurol Sci. 2021;424:117420. doi: 10.1016/j.jns.2021.117420
7. Wallace ZS, Naden RP, Chari S, Choi H, Della-Torre E, Dicaire JF, et al.; American College of Rheumatology/European League Against Rheumatism IgG4-Related Disease Classification Criteria Working Group. The 2019 American College of Rheumatology/European League Against Rheumatism Classification Criteria for IgG4-Related Disease. Arthritis Rheumatol. 2020;72(1):7-19. doi: 10.1002/art.41120
8. Lanzillotta M, Mancuso G, Della-Torre E. Advances in the diagnosis and management of IgG4 related disease. BMJ. 2020;369:m1067. doi: 10.1136/bmj.m1067
9. Khosroshahi A, Wallace ZS, Crowe JL, Akamizu T, Azumi A, Carruthers MN, et al.; Second International Symposium on IgG4-Related Disease. International Consensus Guidance Statement on the Management and Treatment of IgG4-Related Disease. Arthritis Rheumatol. 2015;67(7):1688-1699. doi: 10.1002/art.39132
10. Iaccarino L, Talarico R, Scirè CA, Amoura Z, Burmester G, Doria A, et al. IgG4-related diseases: state of the art on clinical practice guidelines. RMD Open. 2019;4(Suppl 1):e000787. doi: 10.1136/rmdopen-2018-000787
11. Wang L, Zhang P, Wang M, Feng R, Lai Y, Peng L, et al. Failure of remission induction by glucocorticoids alone or in combination with immunosuppressive agents in IgG4-related disease: a prospective study of 215 patients. Arthritis Res Ther. 2018;20(1):65. doi: 10.1186/s13075-018-1567-2
Declaración de conflicto de interésLos autores declaran no tener conflictos de interés relacionados a este artículo.