
Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado
Centro: Comunicação e Expressão
Programa de Pós-Graduação: Programa de Pós-Graduação em Estudos da Tradução
Dimensão Institucional: Pós-Graduação
Dimensão ODS: Econômica
Tipo do Documento: Tese
Título: UMA PROPOSTA METODOLÓGICA PARA COMPILAÇÃO DE CORPUS PARALELO BILÍNGUE E DE PEQUENA DIMENSÃO
Orientador
- MARIA LUCIA BARBOSA DE VASCONCELLOS
Aluno
- LILIAN JURKEVICZ FLEURI
Conteúdo
Localizando-se no contexto de pesquisa do projeto cordiall (corpus discursivo para análises linguísticas e literárias) (ufmg) e do grupo de pesquisa tracor (grupo de pesquisa em tradução e corpora) (ufsc), esta tese apresenta uma proposta metodológica de compilação de corpus, pautada no perfil e nas necessidades emergentes em 20 dissertações de mestrado produzidas entre 2003 e 2010 em estudos da tradução, utilizando simultaneamente o arcabouço metodológico de corpus e teórico da linguística sistêmico-funcional. nesta tese a linguística de corpus oferece os fundamentos teórico-metodológicos, no que tange à metodologia de corpus(barnbrook, 1996 kennedy, 1998; bowker, 2001; mason, 2008) e os estudos da tradução baseados em corpus (etbc) oferecem os fundamentos teórico-metodológicos voltados aos estudos da tradução (cf. baker, 1995; olohan, 2004; vasconcellos, 2009; assis, 2012; feitosa, 2005; fernandes, 2006). para o desenvolvimento da pesquisa, são adotados procedimentos metodológicos para: a coleta e a descrição dos métodos das 20 pesquisas analisadas; a criação de uma proposta metodológica, por meio de templates em processadores de texto, como o ms word, e aplicativos de planilhas, como o ms excel; e o teste destes templates em um estudo piloto. a análise do perfil metodológico das 20 dissertações identifica que a maioria das dissertações passa pelos seguintes processos de compilação de corpus: (i) preparação do corpus para um alinhamento semiautomático; (ii) alinhamento das unidades desalinhadas; (iii) anotação do corpus e revisão da anotação e (iv) quantificação dos dados. a análise dessas dissertações evidencia, entretanto, algumas inconsistências metodológicas nos processos de compilação do corpus, o que pode comprometer a eficiência e a continuidade da pesquisa, tais como: (a) ausência de padronização metodológica que implica desperdício de tempo de pesquisa na fase de compilação do corpus; (b) excesso de etapas metodológicas para a execução de um único procedimento; (c) demasiadas transições de um programa a outro durante a fase de compilação do corpus e (d) produção de inúmeros documentos. com base nos resultados dessas análises, propõe-se um método mais eficiente, que implica em: (a) agilizar os processos de compilação de corpora paralelos bilíngues de pequena dimensão, (b) reduzir o número das etapas em cada processo, (c) reduzir o número dos programas utilizados; (d) reduzir o número da geração de diferentes documentos e (e) flexibilizar o modo de anotação do corpus. o modelo metodológico desenvolvido em um template no processador de texto e outro em um aplicativo de planilha. esses templates são testados em um estudo piloto e seus resultados comparados ao método de compilação adotado em fleuri (2006), tendo utilizado ambos o mesmo corpus. os resultados desse estudo apontam para a produtividade e viabilidade da proposta metodológica, que mostra ser capaz de agilizar o processo (i) de preparação do corpus para o alinhamento, (ii) de correção das unidades desalinhadas no corpus paralelo, (iii) de quantificação dos dados, assim como, ser capaz de flexibilizar o código de anotação do corpus e de organizar a exposição em tabela e gráficos dos elementos anotados e dos dados quantificados. o estudo piloto, em comparação a fleuri (2006), mostrou ter reduzido a ¼ o tempo total de compilação, a metade o número de etapas totais executadas, a 1/5 o número de programas utilizados e a menos da metade o número de documentos gerado.
Pós-processamento: Índice de Shannon: 3.96211
ODS 1 | ODS 2 | ODS 3 | ODS 4 | ODS 5 | ODS 6 | ODS 7 | ODS 8 | ODS 9 | ODS 10 | ODS 11 | ODS 12 | ODS 13 | ODS 14 | ODS 15 | ODS 16 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
5,33% | 6,69% | 7,28% | 5,72% | 5,41% | 4,47% | 5,85% | 7,03% | 11,23% | 5,31% | 7,20% | 6,06% | 4,59% | 6,22% | 5,53% | 6,08% |
ODS Predominates


5,33%

6,69%

7,28%

5,72%

5,41%

4,47%

5,85%

7,03%

11,23%

5,31%

7,20%

6,06%

4,59%

6,22%

5,53%

6,08%