Responsive image
Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado

Centro: Não Informado

Departamento: Não Informado

Dimensão Institucional: Pós-Graduação

Dimensão ODS: Institucional

Tipo do Documento: Tese

Título: MINERAÇÃO E USO DE PADRÕES LINGUÍSTICOS PARA DESAMBIGUAÇÃO DE PALAVRAS E ANÁLISE DO DISCURSO

Orientador
  • RENATO FILETO
Aluno
  • FABIO BIF GOULARTE

Conteúdo

A extração de informação contida em textos na web tem o potencial de alavancar uma série de aplicações, mas muitas delas requerem a captura automática da semântica exata de elementos textuais relevantes. o twitter, por exemplo, gera diariamente centenas de milhões de pequenos textos (tweets), muitos dos quais com rica informação sobre usuários, fatos, produtos, serviços, desejos, opiniões, etc. a anotação semântica de palavras relevantes em tweets é um grande desafio, pois eles impõem dificuldades adicionais (e.g., pouca informação de contexto, agramaticalidade) para métodos automáticos realizarem uma desambiguação de qualidade, o que leva a resultados com baixa precisão e cobertura. inclusive, porque a língua é um sistema simbólico polissêmico, que não tem uma semântica pronta, o que se manifesta acentuadamente em linguagem coloquial e particularmente em mídias sociais. as soluções atuais de anotação geralmente não conseguem encontrar o sentido correto de palavras em construções envolvendo a semântica implícita que, às vezes, é colocada intencionalmente, por exemplo, para fazer humor, ironia, jogo de palavras ou trocadilhos. este trabalho propõe o desenvolvimento de uma abordagem para minerar padrões léxico-semânticos, com a finalidade de captar a semântica em texto para utilizar em tarefas que processam a linguagem. estes padrões foram denominados de padrões msc+, pois são definidos por sequências de componentes morfo-semânticos (msc). um algoritmo não-supervisionado foi desenvolvido para minerar tais padrões, que suportam a identificação de um novo tipo de característica semântica em documentos, assim como métodos para desambiguar o sentido de palavras. os resultados de experimentos com a tarefa de word sense disambiguation (wsd), em texto de mídia social, mostraram que instâncias de alguns padrões msc+ aparecem em vários tweets, mas às vezes usando palavras diferentes para transmitir o sentido. os testes realizados nos resultados do experimento em wsd demonstraram que a exploração dos padrões msc+ permite mecanismos eficazes na desambiguação do sentido de palavras, levando a melhorias no estado da arte, segundo medidas de precisão, cobertura e medida-f. os padrões msc+ também foram explorados em experimentos com análise do discurso (ad) do conteúdo de diferentes obras do escritor machado de assis. os experimentos revelaram a incidência de padrões morfo-semânticos que evidenciam características de obras literárias e que podem auxiliar na classificação de discurso das obras analisadas, tais como a preponderância de verbos específicos nos contos, de substantivos femininos nos romances e adjetivos nos poemas.

Índice de Shannon: 3.95906

Índice de Gini: 0.933932

ODS 1 ODS 2 ODS 3 ODS 4 ODS 5 ODS 6 ODS 7 ODS 8 ODS 9 ODS 10 ODS 11 ODS 12 ODS 13 ODS 14 ODS 15 ODS 16
8,02% 4,39% 7,14% 7,76% 5,70% 4,24% 4,45% 7,42% 8,05% 6,31% 6,91% 4,98% 5,36% 5,15% 5,00% 9,12%
ODS Predominates
ODS 16
ODS 1

8,02%

ODS 2

4,39%

ODS 3

7,14%

ODS 4

7,76%

ODS 5

5,70%

ODS 6

4,24%

ODS 7

4,45%

ODS 8

7,42%

ODS 9

8,05%

ODS 10

6,31%

ODS 11

6,91%

ODS 12

4,98%

ODS 13

5,36%

ODS 14

5,15%

ODS 15

5,00%

ODS 16

9,12%