Responsive image
Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado

Centro: Não Informado

Departamento: Não Informado

Dimensão Institucional: Pós-Graduação

Dimensão ODS: Social

Tipo do Documento: Tese

Título: OPTIMIZED RECORD EXTRACTION FROM WEB PAGES USING SIGNAL PROCESSING AND MACHINE LEARNING

Orientador
  • CARINA FRIEDRICH DORNELES
Aluno
  • ROBERTO PANERAI VELLOSO

Conteúdo

A extração de dados estruturados (i.e. registros) de páginas da web permite uma série de aplicações importantes e possui imenso valor devido à quantidade e diversidade de informações disponíveis que podem ser extraídas. esse problema, embora amplamente estudado, permanece em aberto pois não é trivial. devido ao volume dos dados, uma abordagem viável precisa ser automática e eficiente (e, é claro, eficaz). é apresentada aqui uma nova abordagem, automática e computacionalmente eficiente, usando técnicas de processamento de sinais para detectar regularidades e padrões na estrutura de páginas da web e também aprendizado de máquina supervisionado para classificar os dados extraídos como conteúdo ou ruído. também é apresentado um estudo comparativo das várias técnicas de aprendizado de máquina supervisionado, incluindo ensembles homogêneos e heterogêneos, para resolver o problema de classificação de conteúdo e ruído em páginas da web. utilizamos o aprendizado de máquina, especificamente, para resolver o problema de detectar conteúdo em dados semiestruturados (por exemplo, resultados de pesquisa de comércio eletrônico) em duas situações distintas: primeiro em um ambiente controlado contendo apenas documentos com conteúdo estruturado e depois; em um ambiente aberto em que a página da web que está sendo processada pode ou não ter conteúdo estruturado. as características usadas para classificar o conteúdo são obtidas automaticamente a partir da abordagem de extração. além de comparar o desempenho entre diferentes modelos, também foi realizada uma ampla análise das combinações de caracteristicas para apurar sua relevância para o problema. a abordagem proposta segmenta a página da web, detecta as regiões de dados dentro do documento, identifica os limites (início e fim) dos registros, alinha os registros encontrados e os classifica como conteúdo ou ruído. também é apresentada uma otimização da abordagem de extração ingênua. a otimização proposta melhora o limite superior de o(nlogn) para o(n), mantendo os mesmos resultados qualitativos (ou seja, sem perda de eficácia) e alcançando uma melhoria de 11,77% no tempo de execução. os resultados demonstram que a abordagem proposta tem comportamento linear de complexidade de tempo e f-score de cerca de 93% em um ambiente controlado e 91% em um ambiente aberto. a abordagem proposta é mais eficiente e tão eficaz quanto o estado da arte além de abordar a questão da detecção de conteúdo, normalmente negligenciada na maioria dos trabalhos.

Índice de Shannon: 3.89704

Índice de Gini: 0.927557

ODS 1 ODS 2 ODS 3 ODS 4 ODS 5 ODS 6 ODS 7 ODS 8 ODS 9 ODS 10 ODS 11 ODS 12 ODS 13 ODS 14 ODS 15 ODS 16
3,56% 4,04% 6,00% 13,34% 4,30% 5,25% 5,18% 6,01% 9,94% 3,36% 7,17% 7,88% 4,55% 5,41% 6,36% 7,65%
ODS Predominates
ODS 4
ODS 1

3,56%

ODS 2

4,04%

ODS 3

6,00%

ODS 4

13,34%

ODS 5

4,30%

ODS 6

5,25%

ODS 7

5,18%

ODS 8

6,01%

ODS 9

9,94%

ODS 10

3,36%

ODS 11

7,17%

ODS 12

7,88%

ODS 13

4,55%

ODS 14

5,41%

ODS 15

6,36%

ODS 16

7,65%