
Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado
Centro: Não Informado
Departamento: Não Informado
Dimensão Institucional: Pós-Graduação
Dimensão ODS: Social
Tipo do Documento: Tese
Título: OPTIMIZED RECORD EXTRACTION FROM WEB PAGES USING SIGNAL PROCESSING AND MACHINE LEARNING
Orientador
- CARINA FRIEDRICH DORNELES
Aluno
- ROBERTO PANERAI VELLOSO
Conteúdo
A extração de dados estruturados (i.e. registros) de páginas da web permite uma série de aplicações importantes e possui imenso valor devido à quantidade e diversidade de informações disponíveis que podem ser extraídas. esse problema, embora amplamente estudado, permanece em aberto pois não é trivial. devido ao volume dos dados, uma abordagem viável precisa ser automática e eficiente (e, é claro, eficaz). é apresentada aqui uma nova abordagem, automática e computacionalmente eficiente, usando técnicas de processamento de sinais para detectar regularidades e padrões na estrutura de páginas da web e também aprendizado de máquina supervisionado para classificar os dados extraídos como conteúdo ou ruído. também é apresentado um estudo comparativo das várias técnicas de aprendizado de máquina supervisionado, incluindo ensembles homogêneos e heterogêneos, para resolver o problema de classificação de conteúdo e ruído em páginas da web. utilizamos o aprendizado de máquina, especificamente, para resolver o problema de detectar conteúdo em dados semiestruturados (por exemplo, resultados de pesquisa de comércio eletrônico) em duas situações distintas: primeiro em um ambiente controlado contendo apenas documentos com conteúdo estruturado e depois; em um ambiente aberto em que a página da web que está sendo processada pode ou não ter conteúdo estruturado. as características usadas para classificar o conteúdo são obtidas automaticamente a partir da abordagem de extração. além de comparar o desempenho entre diferentes modelos, também foi realizada uma ampla análise das combinações de caracteristicas para apurar sua relevância para o problema. a abordagem proposta segmenta a página da web, detecta as regiões de dados dentro do documento, identifica os limites (início e fim) dos registros, alinha os registros encontrados e os classifica como conteúdo ou ruído. também é apresentada uma otimização da abordagem de extração ingênua. a otimização proposta melhora o limite superior de o(nlogn) para o(n), mantendo os mesmos resultados qualitativos (ou seja, sem perda de eficácia) e alcançando uma melhoria de 11,77% no tempo de execução. os resultados demonstram que a abordagem proposta tem comportamento linear de complexidade de tempo e f-score de cerca de 93% em um ambiente controlado e 91% em um ambiente aberto. a abordagem proposta é mais eficiente e tão eficaz quanto o estado da arte além de abordar a questão da detecção de conteúdo, normalmente negligenciada na maioria dos trabalhos.
Índice de Shannon: 3.89704
Índice de Gini: 0.927557
ODS 1 | ODS 2 | ODS 3 | ODS 4 | ODS 5 | ODS 6 | ODS 7 | ODS 8 | ODS 9 | ODS 10 | ODS 11 | ODS 12 | ODS 13 | ODS 14 | ODS 15 | ODS 16 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
3,56% | 4,04% | 6,00% | 13,34% | 4,30% | 5,25% | 5,18% | 6,01% | 9,94% | 3,36% | 7,17% | 7,88% | 4,55% | 5,41% | 6,36% | 7,65% |
ODS Predominates


3,56%

4,04%

6,00%

13,34%

4,30%

5,25%

5,18%

6,01%

9,94%

3,36%

7,17%

7,88%

4,55%

5,41%

6,36%

7,65%