
Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado
Centro: Não Informado
Departamento: Não Informado
Dimensão Institucional: Pós-Graduação
Dimensão ODS: Institucional
Tipo do Documento: Tese
Título: MINERAÇÃO E USO DE PADRÕES LINGUÍSTICOS PARA DESAMBIGUAÇÃO DE PALAVRAS E ANÁLISE DO DISCURSO
Orientador
- RENATO FILETO
Aluno
- FABIO BIF GOULARTE
Conteúdo
A extração de informação contida em textos na web tem o potencial de alavancar uma série de aplicações, mas muitas delas requerem a captura automática da semântica exata de elementos textuais relevantes. o twitter, por exemplo, gera diariamente centenas de milhões de pequenos textos (tweets), muitos dos quais com rica informação sobre usuários, fatos, produtos, serviços, desejos, opiniões, etc. a anotação semântica de palavras relevantes em tweets é um grande desafio, pois eles impõem dificuldades adicionais (e.g., pouca informação de contexto, agramaticalidade) para métodos automáticos realizarem uma desambiguação de qualidade, o que leva a resultados com baixa precisão e cobertura. inclusive, porque a língua é um sistema simbólico polissêmico, que não tem uma semântica pronta, o que se manifesta acentuadamente em linguagem coloquial e particularmente em mídias sociais. as soluções atuais de anotação geralmente não conseguem encontrar o sentido correto de palavras em construções envolvendo a semântica implícita que, às vezes, é colocada intencionalmente, por exemplo, para fazer humor, ironia, jogo de palavras ou trocadilhos. este trabalho propõe o desenvolvimento de uma abordagem para minerar padrões léxico-semânticos, com a finalidade de captar a semântica em texto para utilizar em tarefas que processam a linguagem. estes padrões foram denominados de padrões msc+, pois são definidos por sequências de componentes morfo-semânticos (msc). um algoritmo não-supervisionado foi desenvolvido para minerar tais padrões, que suportam a identificação de um novo tipo de característica semântica em documentos, assim como métodos para desambiguar o sentido de palavras. os resultados de experimentos com a tarefa de word sense disambiguation (wsd), em texto de mídia social, mostraram que instâncias de alguns padrões msc+ aparecem em vários tweets, mas às vezes usando palavras diferentes para transmitir o sentido. os testes realizados nos resultados do experimento em wsd demonstraram que a exploração dos padrões msc+ permite mecanismos eficazes na desambiguação do sentido de palavras, levando a melhorias no estado da arte, segundo medidas de precisão, cobertura e medida-f. os padrões msc+ também foram explorados em experimentos com análise do discurso (ad) do conteúdo de diferentes obras do escritor machado de assis. os experimentos revelaram a incidência de padrões morfo-semânticos que evidenciam características de obras literárias e que podem auxiliar na classificação de discurso das obras analisadas, tais como a preponderância de verbos específicos nos contos, de substantivos femininos nos romances e adjetivos nos poemas.
Índice de Shannon: 3.95906
Índice de Gini: 0.933932
ODS 1 | ODS 2 | ODS 3 | ODS 4 | ODS 5 | ODS 6 | ODS 7 | ODS 8 | ODS 9 | ODS 10 | ODS 11 | ODS 12 | ODS 13 | ODS 14 | ODS 15 | ODS 16 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
8,02% | 4,39% | 7,14% | 7,76% | 5,70% | 4,24% | 4,45% | 7,42% | 8,05% | 6,31% | 6,91% | 4,98% | 5,36% | 5,15% | 5,00% | 9,12% |
ODS Predominates


8,02%

4,39%

7,14%

7,76%

5,70%

4,24%

4,45%

7,42%

8,05%

6,31%

6,91%

4,98%

5,36%

5,15%

5,00%

9,12%