
Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado
Centro: Não Informado
Departamento: Não Informado
Dimensão Institucional: Pós-Graduação
Dimensão ODS: Econômica
Tipo do Documento: Dissertação
Título: ALGORITMO NÃO SUPERVISIONADO PARA SEGMENTAÇÃO E REMOÇÃO DE RUÍDO DE PÁGINAS WEB UTILIZANDO TAG PATHS.
Orientador
- CARINA FRIEDRICH DORNELES
Aluno
- ROBERTO PANERAI VELLOSO
Conteúdo
Segmentação e remoção de ruído de páginas web são etapas essenciais no processo de extração de dados estruturados. identificar a região principal da página, eliminando o que não é importante (menus, anúncios, etc.), pode melhorar significativamente o desempenho do processo de extração. para essa tarefa é proposto um novo algoritmo, totalmente automático, que utiliza uma seqüência de tag paths (tps) como representação da página web. a tps é composta por uma sequência de símbolos (string), cada um representando um tag path diferente. o algoritmo proposto procura por posições na tps onde é possível dividi-la em duas regiões de tal forma que seus alfabetos não se intersectem, o que significa que as regiões têm conjuntos de tag paths completamente distintos e, portanto, são regiões diferentes da página. os resultados mostram que o algoritmo é muito efetivo em identificar o conteúdo principal de vários sites, e melhora a precisão da extração, removendo resultados irrelevantes.
Índice de Shannon: 3.98399
Índice de Gini: 0.936105
ODS 1 | ODS 2 | ODS 3 | ODS 4 | ODS 5 | ODS 6 | ODS 7 | ODS 8 | ODS 9 | ODS 10 | ODS 11 | ODS 12 | ODS 13 | ODS 14 | ODS 15 | ODS 16 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
4,98% | 6,07% | 7,61% | 6,22% | 6,53% | 5,38% | 6,19% | 7,84% | 7,38% | 5,46% | 7,53% | 5,52% | 4,89% | 6,73% | 5,30% | 6,37% |
ODS Predominates


4,98%

6,07%

7,61%

6,22%

6,53%

5,38%

6,19%

7,84%

7,38%

5,46%

7,53%

5,52%

4,89%

6,73%

5,30%

6,37%