Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado
Centro: Tecnológico
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação
Dimensão Institucional: Pós-Graduação
Dimensão ODS: Econômica
Tipo do Documento: Dissertação
Título: ALGORITMO NÃO SUPERVISIONADO PARA SEGMENTAÇÃO E REMOÇÃO DE RUÍDO DE PÁGINAS WEB UTILIZANDO TAG PATHS.
Orientador
- CARINA FRIEDRICH DORNELES
Aluno
- ROBERTO PANERAI VELLOSO
Conteúdo
Segmentação e remoção de ruído de páginas web são etapas essenciais no processo de extração de dados estruturados. identificar a região principal da página, eliminando o que não é importante (menus, anúncios, etc.), pode melhorar significativamente o desempenho do processo de extração. para essa tarefa é proposto um novo algoritmo, totalmente automático, que utiliza uma seqüência de tag paths (tps) como representação da página web. a tps é composta por uma sequência de símbolos (string), cada um representando um tag path diferente. o algoritmo proposto procura por posições na tps onde é possível dividi-la em duas regiões de tal forma que seus alfabetos não se intersectem, o que significa que as regiões têm conjuntos de tag paths completamente distintos e, portanto, são regiões diferentes da página. os resultados mostram que o algoritmo é muito efetivo em identificar o conteúdo principal de vários sites, e melhora a precisão da extração, removendo resultados irrelevantes.
Pós-processamento: Índice de Shannon: 3.98399
| ODS 1 | ODS 2 | ODS 3 | ODS 4 | ODS 5 | ODS 6 | ODS 7 | ODS 8 | ODS 9 | ODS 10 | ODS 11 | ODS 12 | ODS 13 | ODS 14 | ODS 15 | ODS 16 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 4,98% | 6,07% | 7,61% | 6,22% | 6,53% | 5,38% | 6,19% | 7,84% | 7,38% | 5,46% | 7,53% | 5,52% | 4,89% | 6,73% | 5,30% | 6,37% |
ODS Predominates
4,98%
6,07%
7,61%
6,22%
6,53%
5,38%
6,19%
7,84%
7,38%
5,46%
7,53%
5,52%
4,89%
6,73%
5,30%
6,37%