Perfil ODS

Universidade Federal de Santa catarina (UFSC)

Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)

Detalhes do Documento Analisado

Centro: Comunicação e Expressão

Programa de Pós-Graduação: Programa de Pós-Graduação em Estudos da Tradução

Dimensão Institucional: Pós-Graduação

Dimensão ODS: Econômica

Tipo do Documento: Tese

Título: UMA PROPOSTA METODOLÓGICA PARA COMPILAÇÃO DE CORPUS PARALELO BILÍNGUE E DE PEQUENA DIMENSÃO

Orientador

MARIA LUCIA BARBOSA DE VASCONCELLOS

Aluno

LILIAN JURKEVICZ FLEURI

Conteúdo

Localizando-se no contexto de pesquisa do projeto cordiall (corpus discursivo para análises linguísticas e literárias) (ufmg) e do grupo de pesquisa tracor (grupo de pesquisa em tradução e corpora) (ufsc), esta tese apresenta uma proposta metodológica de compilação de corpus, pautada no perfil e nas necessidades emergentes em 20 dissertações de mestrado produzidas entre 2003 e 2010 em estudos da tradução, utilizando simultaneamente o arcabouço metodológico de corpus e teórico da linguística sistêmico-funcional. nesta tese a linguística de corpus oferece os fundamentos teórico-metodológicos, no que tange à metodologia de corpus(barnbrook, 1996 kennedy, 1998; bowker, 2001; mason, 2008) e os estudos da tradução baseados em corpus (etbc) oferecem os fundamentos teórico-metodológicos voltados aos estudos da tradução (cf. baker, 1995; olohan, 2004; vasconcellos, 2009; assis, 2012; feitosa, 2005; fernandes, 2006). para o desenvolvimento da pesquisa, são adotados procedimentos metodológicos para: a coleta e a descrição dos métodos das 20 pesquisas analisadas; a criação de uma proposta metodológica, por meio de templates em processadores de texto, como o ms word, e aplicativos de planilhas, como o ms excel; e o teste destes templates em um estudo piloto. a análise do perfil metodológico das 20 dissertações identifica que a maioria das dissertações passa pelos seguintes processos de compilação de corpus: (i) preparação do corpus para um alinhamento semiautomático; (ii) alinhamento das unidades desalinhadas; (iii) anotação do corpus e revisão da anotação e (iv) quantificação dos dados. a análise dessas dissertações evidencia, entretanto, algumas inconsistências metodológicas nos processos de compilação do corpus, o que pode comprometer a eficiência e a continuidade da pesquisa, tais como: (a) ausência de padronização metodológica que implica desperdício de tempo de pesquisa na fase de compilação do corpus; (b) excesso de etapas metodológicas para a execução de um único procedimento; (c) demasiadas transições de um programa a outro durante a fase de compilação do corpus e (d) produção de inúmeros documentos. com base nos resultados dessas análises, propõe-se um método mais eficiente, que implica em: (a) agilizar os processos de compilação de corpora paralelos bilíngues de pequena dimensão, (b) reduzir o número das etapas em cada processo, (c) reduzir o número dos programas utilizados; (d) reduzir o número da geração de diferentes documentos e (e) flexibilizar o modo de anotação do corpus. o modelo metodológico desenvolvido em um template no processador de texto e outro em um aplicativo de planilha. esses templates são testados em um estudo piloto e seus resultados comparados ao método de compilação adotado em fleuri (2006), tendo utilizado ambos o mesmo corpus. os resultados desse estudo apontam para a produtividade e viabilidade da proposta metodológica, que mostra ser capaz de agilizar o processo (i) de preparação do corpus para o alinhamento, (ii) de correção das unidades desalinhadas no corpus paralelo, (iii) de quantificação dos dados, assim como, ser capaz de flexibilizar o código de anotação do corpus e de organizar a exposição em tabela e gráficos dos elementos anotados e dos dados quantificados. o estudo piloto, em comparação a fleuri (2006), mostrou ter reduzido a ¼ o tempo total de compilação, a metade o número de etapas totais executadas, a 1/5 o número de programas utilizados e a menos da metade o número de documentos gerado.

Pós-processamento: Índice de Shannon: 3.96211