Objetivo: Utilizar modelos de inteligencia computacional para la clasificación e identificación de endofenotipos (relación entre fenotipo y marcadores genéticos) en pacientes con artritis reumatoide y controles sanos, a partir de información genética, principalmente el HLA DRB1 (antígeno leucocitario humano) y la teoría del epítope compartido. Esto hace referencia a la asociación entre la artritis reumatoide y el HLA DRB1, principalmente los alelos que contienen un motivo común de aminoácidos de las secuencias QKRAA, QRRAA o RRRAA en las posiciones 70 a 74 de la cadena del DRB1, los cuales confieren una susceptibilidad particular de la enfermedad a los individuos.
Métodos: Desarrollamos modelos computacionales para clasificación, utilizando técnicas de inteligencia computacional como son las redes neuronales, redes bayesianas y métodos como k-means. Como datos de entrada se utilizaron variables como: factor reumatoide, anticuerpos contra péptido citrulinado, proteína C reactiva, número de articulaciones inflamadas y dolorosas, rigidez matinal, edad, género, antecedentes de comorbilidades y la información del alelo HLA DRB1. Se utilizaron técnicas de bioinformática para la búsqueda de secuencias de aminoácidos relacionadas con la severidad de la enfermedad.
Resultados: Se obtuvieron resultados importantes para el diagnóstico de la enfermedad, así como también para su categorización y como potencial aplicación en la medicina personalizada de los individuos afectados por esta enfermedad. Se diseñaron modelos computacionales para clasificación, dentro de los cuales la red neuronal utilizando 5 variables obtuvo una sensibilidad del 92,3% con una especificidad del 86,66% y la red bayesiana logró una sensibilidad del 92,3% y una especificidad del 93,33%. La red neuronal utilizando 11 variables obtuvo una sensibilidad del 84,61% y una especificidad del 93,33% mientras que la red bayesiana consiguió una sensibilidad del 92,3% con una especificidad del 93,33%. Un método de agrupamiento tipo k-means fue utilizado para dividir en 2 grupos la totalidad de pacientes y controles. Además, se logró separar 2 grupos entre los pacientes para definir su severidad. Finalmente, se consiguió obtener un árbol de distancia entre secuencias de aminoácidos de los distintos alelos HLA DRB1, lo cual permite visualizar grupos con cercanía genética y lograr determinar que posiblemente existen más grupos fuera de los propuestos en las distintas teorías.
Conclusión: Los métodos utilizados permiten una mejor estratificación de la enfermedad en relación con la predicción de fenotipos y posibles desenlaces de la enfermedad, así como para la potencial prevención primaria de la enfermedad.
Objective: To use computational intelligence models for the classification and identification of endophenotype (relationships between phenotype and genetic markers) in patients with rheumatoid arthritis and healthy controls from genetic information, primarily the DRB1 HLA (human leukocyte antigen) and the shared epitope theory. This refers to the association between rheumatoid arthritis and the HLA-DRB1 alleles mainly containing amino acid common motif sequences QKRAA, RRRAA, QRRAA or at positions 70 to 74 DRB1 chain, which have been associated to susceptibility of this disease.
Methods: Computational models were developed for classification using computational intelligence techniques, such as neural networks, Bayesian networks, and methods such askmeans. The input data consisted of variables such as: rheumatoid factor, anti-citrullinated protein antibody, C-reactive protein, number of swollen and tender joints, morning stiffness, age, gender, history of comorbidities, and the information on the HLA-DRB1. Bioinformatics techniques were used to search for amino acid sequences related to disease severity.
Results: Promising results for the diagnosis of the disease were obtained, as well as its categorisation as potential application in personalised medicine for individuals suffering from this disease. Computational models were designed for the classification, in which the neural network using 5 variables obtained a sensitivity of 92.3% with a specificity of 86.66%, and the Bayesian network obtained a sensitivity of 92.3% and a specificity of 93.33%. The neural network using 11 variables had a sensitivity of 84.61% and a specificity of 93.33%, while the Bayesian network obtained a sensitivity of 92.3% with a specificity of 93.33%. K-means clustering method type was used to divide all patients and controls into two groups of data. It also managed to obtain two patient groups to define severity. Finally, a tree distance was obtained between amino acid sequences of the different alleles HLA DRB1, which allows genetic proximity groups to be visualised and to determine and ensure that there are maybe more groups outside the proposed different theories.
Conclusion: The proposed method can be used to provide better stratification of the disease in relation to the predicted phenotypes, and the potential for primary prevention of this disease.