Responsive image
Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado

Centro: Tecnológico

Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação

Dimensão Institucional: Pós-Graduação

Dimensão ODS: Institucional

Tipo do Documento: Dissertação

Título: SSP: A LINGUISTIC PATTERN MINING APPROACH FOR DISCOURSE ANALYSIS AND INFORMATION EXTRACTION IN SHORT TEXTS USING WORD EMBEDDINGS

Orientador
  • RENATO FILETO
Aluno
  • DANIELLY SORATO

Conteúdo

Postagens em microblogs, tais como tweets, frequentemente contêm opiniões e pensamentos de usuários sobre eventos, produtos, pessoas, entre outras possibilidades. contudo, o uso de mídias sociais para propagar discursos e ódio, promover desinformação e manipular opiniões não são ocorrências incomuns. a análise de postagens problemáticas é crucial para entender, combater e desencorajar tais ações. repetições de expressão, i.e. padrões de discurso, ocorrem na linguagem natural. extrair fragmentos de texto com semântica recorrente podem levar à descoberta de padrões linguísticos usados em certos tipos de discurso textualmente expressos em postagens de microblogs. nessa dissertação, esses padrões são usados no contexto de extração de informação, análise de discurso e classificação de texto. através da abordagem aqui desenvolvida, chamada mineração de padrões semânticos curtos (em inglês short semantic patterns - ssp), é possível descobrir dinamicamente, bem como extrair, sequências de palavras que compartilham significado similar em relação à sua representação vetorial. o uso de vetores de palavras (word embeddings) permite a extração eficiente de padrões flexíveis, que não estão restritos à similaridade e ordem lexical. primeiramente, os ssp são formalmente descritos e sua incidência é mostrada em tweets reais. depois, a abordagem de mineração é aplicada para executar tarefas de extração de informação e análise de discurso em dois estudos de caso distintos, especificamente tweets da campanha presidencial de donald trump e de discurso de ódio. por fim, os ssp extraídos no caso de discurso de ódio são usados como features para construir classificadores para detectar se um tweet contém discurso de ódio (classificação binária) e também para distinguir entre tweets contendo racismo, sexismo, ou conteúdo normal (classificação ternária). a análise das instâncias de ssp em relação aos tweets de donald trump evidenciaram que sua estratégia de campanha consistia em sistematicamente difamar a mídia e seus oponentes. as instâncias de ssp encontradas nos tweets contendo sexismo mostraram que um grande número de tweets sexistas com a introdução ‘i’m not sexist but’ e ‘ call me sexist but’. enquanto isso, instâncias do ssp encontradas em tweets sobre racismo revelaram uma proeminência de discursos contra a religião islâmica, entidades e organizações associadas.

Pós-processamento: Índice de Shannon: 3.93978

ODS 1 ODS 2 ODS 3 ODS 4 ODS 5 ODS 6 ODS 7 ODS 8 ODS 9 ODS 10 ODS 11 ODS 12 ODS 13 ODS 14 ODS 15 ODS 16
5,89% 4,90% 6,33% 5,90% 5,95% 4,11% 5,65% 8,26% 6,01% 5,60% 6,84% 6,62% 5,12% 4,21% 5,74% 12,85%
ODS Predominates
ODS 16
ODS 1

5,89%

ODS 2

4,90%

ODS 3

6,33%

ODS 4

5,90%

ODS 5

5,95%

ODS 6

4,11%

ODS 7

5,65%

ODS 8

8,26%

ODS 9

6,01%

ODS 10

5,60%

ODS 11

6,84%

ODS 12

6,62%

ODS 13

5,12%

ODS 14

4,21%

ODS 15

5,74%

ODS 16

12,85%