
Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado
Centro: Tecnológico
Departamento: Não Informado
Dimensão Institucional: Pós-Graduação
Dimensão ODS: Econômica
Tipo do Documento: Tese
Título: OPTIC: A HOLISTIC SOLUTION FOR ENTITY LINKING OF SOCIAL MEDIA POSTS
Orientador
- RENATO FILETO
Aluno
- ITALO LOPES OLIVEIRA
Conteúdo
Ligação de entidade (le) aprimora aplicações de processamento de linguagem natural (pln) ligando-se menções à entidades encontradas em textos brutos à suas descrições semânticas em algum dado ou base de conhecimento. este aprimoramento é ainda mais relevante e desafiador em dados de mídias sociais, tais como postagens de microblogs, devido sua natureza informal e contexto limitado se comparado com textos mais longos e formais. abordagens le atuais da literatura que visam postagens de microblogs focam na expansão do conteúdo da postagem. esta expansão têm sido realizada de diversas maneiras, como, por exemplo, considerando postagens similares ou relacionadas, ou usando dados pessoais do autor da postagem, além de dados espaço-temporais anexados à postagem de microblog. entretanto, tais abordagens podem ser muito invasivas, comprometendo a privacidade do usúario. além disso, elas não exploram outros tipos de contexto, os quais podem fornecer uma visão mais holística dos dados e do processo de le. a exploração de diversos tipos de contexto aliado com técnicas de aprendizado de máquina podem ajudar a contornar a limitação das abordagens existentes e produzir melhores resultados. esta tese primeiro fornece uma revisão compreensiva da literatura sobre le holístico e então propõe optic, uma abordagem de rede neural profunda para le coletivo de postagens de microblog utilizando embeddings de palavra e conhecimento. optic explora embeddings de grafos de conhecimento e de texto treinados em conjunto. estes embeddings podem fornecer informações contextuais mais holísticas e consolidadas do que embeddings de conhecimento e textos treinados separadamente, e seu uso para alavancar abordagens le ainda não foi suficientemente investigado. optic é capaz de lidar tanto com le coletivo como não-coletivo utilizando redes neural profundas alimentadas com embeddings de palavras relevantes e entidades candidatas para menções reconhecidas em postagens de microblog. fasttext é utilizado para treinar em conjunto embeddings de conhecimento e palavras de modo que eles podem ser consistentemente utilizados juntos em único espaço vetorial integrado. as redes neurais profundas propostas para o optic são baseadas na arquitetura de rede neural memória de longa e curta duração. foram propostas uma arquitetura de redes neurais profundas para le não-coletiva e duas para le coletiva. diferentes números de células e de camadas escondidas foram considerados nos experimentos. cada arquitetura foi avaliada no sistema de benchmark gerbil com a sua melhor combinação de parâmetros, de modo a comparar o seu desempenho com o de abordagens do estado da arte. optic supera a maioria das abordagens no conjunto de dados neel 2016 (provavelmente devido ao fato de ser treinado neste conjunto de dados), permanece competitivo no neel2015, e é levemente inferior no neel2014. não é observado nenhuma diferença relevante entre as propostas coletivas e não-coletiva. portanto, é recomendado o uso do le não-coletivo devido a facilidade na construção do conjunto de treinamento.
Índice de Shannon: 3.90255
Índice de Gini: 0.928295
ODS 1 | ODS 2 | ODS 3 | ODS 4 | ODS 5 | ODS 6 | ODS 7 | ODS 8 | ODS 9 | ODS 10 | ODS 11 | ODS 12 | ODS 13 | ODS 14 | ODS 15 | ODS 16 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
5,33% | 4,62% | 5,57% | 9,65% | 6,58% | 4,07% | 4,18% | 9,04% | 12,38% | 3,26% | 8,58% | 4,83% | 4,97% | 4,87% | 5,04% | 7,01% |
ODS Predominates


5,33%

4,62%

5,57%

9,65%

6,58%

4,07%

4,18%

9,04%

12,38%

3,26%

8,58%

4,83%

4,97%

4,87%

5,04%

7,01%