Responsive image
Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado

Centro: Não Informado

Departamento: Não Informado

Dimensão Institucional: Pós-Graduação

Dimensão ODS: Social

Tipo do Documento: Dissertação

Título: IDENTIFICAÇÃO DE ASSINATURA GÊNICA PARA CLASSIFICAÇÃO DIAGNÓSTICA DA DOENÇA DE PARKINSON IDIOPÁTICA UTILIZANDO TRANSCRIPTOMAS DE SANGUE PERIFÉRICO E ALGORITMOS DE APRENDIZADO DE MÁQUINA

Orientador
  • RUI DANIEL SCHRODER PREDIGER
Aluno
  • MARCELO LUIZ BRUNATTO FALCHETTI

Conteúdo

No brasil, anualmente, mais de 150 mil pessoas são diagnosticadas com a doença de parkinson (dp). apenas alguns casos da dp são hereditários e atribuídos a mutações em genes, enquanto a vasta maioria (~ 90%) é classificada como dp idiopática. o diagnóstico da dp ainda é um desafio na prática clínica, e a identificação de marcadores moleculares para diagnóstico e acompanhamento pode proporcionar um tratamento mais eficaz para os pacientes. uma opção fácil e não invasiva é a biópsia líquida. a utilização de técnicas de biologia molecular de alto rendimento vinculadas as metodologias de meta-análise podem contribuir na busca de assinaturas transcricionais com potencial aplicação diagnóstica para a dp idiopática. este estudo teve como objetivo caracterizar as diferenças no perfil transcricional do sangue periférico de pacientes com a dp e indivíduos sadios, e identificar genes capazes de auxiliar no diagnóstico da dp, utilizando algoritmos de aprendizado de máquina (aam). todas as análises foram realizadas em ambiente de análises estatísticas e gráficas r. para isso, foram utilizados os dados de microarranjo de expressão obtidos em repositórios públicos (geo e arrayexpress). foram selecionados 4 conjuntos de dados independentes incluindo 711 amostras no total, sendo 388 de sangue de pacientes com a dp idiopática e 323 de indivíduos sadios. foram realizadas meta-análises de 17.712 genes calculando e combinando os seus tamanhos de efeito. os 200 genes com os maiores valores de tamanho de efeito, ou seja, os de maior distinção em expressão entre os grupos analisados apresentam ontologias relacionadas ao sistema imune e imunidade mediada pelos leucócitos, poliubiquitinação de proteínas e organização do citoesqueleto. os 200 genes não são capazes de separar as amostras de dp idiopático e indivíduos sadios quando individualmente avaliados por agrupamentos hierárquicos. para caracterização de uma assinatura gênica da dp idiopática, foram utilizados algoritmos de seleção de preditores de reconhecimento de colinearidades e de eliminação de preditores recursivo. para as análises de predição, as amostras foram separadas em dois grupos, o grupo-treino (gtr), utilizado para contruir e ajustar os modelos, e o grupo-teste (gte), para estimar os desempenhos dos modelos. para a correção do desbalanço amostral no gtr foram utilizados métodos de criação de amostras sintéticas para arquitetar mais 3 gtr equilibrados. para criação dos modelos de classificação foram utilizados 9 aam ajustados com um total de 18 hiperparâmetros. por fim, foram eleitas as combinações de modelos e ajustes que dispunham dos maiores valores de áreas sob a curva roc (auc) para cada gtr. dessa forma, foram selecionados 30 modelos capazes de classificar as amostras com auc de 0,72 a 0,80. para otimização dos resultados, foram calculadas as probabilidades de classe de amostras do gte nos modelos com os maiores valores de sensibilidade e especificidade criados com cada gtr, e seguidamente filtradas as 25% com as menores probabilidades. dessa forma, foram estabelecidos os valores mínimos de probabilidade para classificação e selecionados os modelos com os maiores valores mínimos. os modelos escolhidos pós-otimização apresentaram 0,84 de sensibilidade e 0,88 de especificidade. a média de probabilidade de amostras serem de dp no modelo de maior sensibilidade é diferente de grupos de amostras de indivíduos sadios, da doença de huntington e de formas genéticas da dp causadas por mutações nos genes lrrk2 e prkn, porém análogas de grupos da doença de alzheimer, da atrofia multissistêmica, da paralisia supranuclear progressiva e de formas genéticas da dp causadas por mutações nos genes atp13a2 e pink1. elaborou-se uma sequência de operações alternativa para classificações de imagens que busca valorizar dados colineares. o modelo gerado utilizando este processo apresentou 84% de acertos. apesar da variação amostral quanto aos tratamentos farmacológicos, idades, severidade da doença, a metodologia aplicada neste trabalho foi capaz identificar uma assinatura e modelos confiáveis na classificação da dp idiopática em amostras de sangue, o que pode fornecer base bioinformática para futuras otimizações.

Índice de Shannon: 3.7139

Índice de Gini: 0.897302

ODS 1 ODS 2 ODS 3 ODS 4 ODS 5 ODS 6 ODS 7 ODS 8 ODS 9 ODS 10 ODS 11 ODS 12 ODS 13 ODS 14 ODS 15 ODS 16
4,61% 4,13% 25,33% 5,52% 3,94% 3,91% 4,82% 5,32% 6,41% 5,86% 5,84% 4,46% 3,30% 5,02% 4,68% 6,86%
ODS Predominates
ODS 3
ODS 1

4,61%

ODS 2

4,13%

ODS 3

25,33%

ODS 4

5,52%

ODS 5

3,94%

ODS 6

3,91%

ODS 7

4,82%

ODS 8

5,32%

ODS 9

6,41%

ODS 10

5,86%

ODS 11

5,84%

ODS 12

4,46%

ODS 13

3,30%

ODS 14

5,02%

ODS 15

4,68%

ODS 16

6,86%