
Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado
Centro: Tecnológico
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação
Dimensão Institucional: Pós-Graduação
Dimensão ODS: Econômica
Tipo do Documento: Dissertação
Título: CARACTERIZAÇÃO E TRATAMENTO DE PROBLEMAS DE CASAMENTOS PARCIAIS NO RECONHECIMENTO DE MENÇÕES EM TEXTOS
Orientador
- RENATO FILETO
Aluno
- JEAN CARLOS OLIVEIRA DE ABREU
Conteúdo
Menções (e.g., a entidades, a conceitos) identificadas em textos por ferramentas do estado da arte não raramente apresentam incompatibilidades com as respectivas menções da regra ouro (menções anotadas e validadas por humanos em textos). esta dissertação propõe uma classificação formal desses problemas de incompatibilidade de menções, incluindo correspondências parciais. além disso, apresenta evidências de que, em muitos casos, menções mais longas levam a maior precisão e a informações mais específicas que menções mais curtas. com base nisso, foram desenvolvidos no âmbito deste mestrado algoritmos para melhorar a eficácia de ferramentas de reconhecimento de menções, mediante a expansão de menções em textos quando e o quanto possível. tais algoritmos funcionam como um passo de pós-processamento, baseado em dicionário de nomes de superfície, para melhorar os resultados retornados por qualquer ferramenta que identifique menções em texto. experimentos realizados com a coleção dourada do harem e o gerbil, framework que integra uma variedade de ferramentas do estado da arte e diversos conjuntos de dados contendo textos do mundo real, mostraram que sobre-segmentação (menções da regra outro contendo uma ou mais menções menores identificadas por ferramentas) é a classe de problema de incompatibilidade de menções mais prevalente dentre as classes formalizadas neste trabalho. alguns dos algoritmos propostos nesta dissertação solucionaram a maior parte dos casos de sobre-segmentação, sem ocasionar muitos casos do problema oposto, sub-segmentação (i.e., menções maiores que as da regra ouro), com consequentes melhorias na precisão e na cobertura. o algoritmo mint noover também gerou ganhos de medida-f sobre os resultados de ligação de entidades da ferramenta agdistis.
Pós-processamento: Índice de Shannon: 3.96262
ODS 1 | ODS 2 | ODS 3 | ODS 4 | ODS 5 | ODS 6 | ODS 7 | ODS 8 | ODS 9 | ODS 10 | ODS 11 | ODS 12 | ODS 13 | ODS 14 | ODS 15 | ODS 16 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
4,62% | 5,31% | 7,07% | 6,27% | 7,24% | 5,69% | 4,46% | 10,30% | 5,50% | 4,85% | 8,04% | 5,32% | 5,61% | 5,97% | 5,95% | 7,80% |
ODS Predominates


4,62%

5,31%

7,07%

6,27%

7,24%

5,69%

4,46%

10,30%

5,50%

4,85%

8,04%

5,32%

5,61%

5,97%

5,95%

7,80%