Responsive image
Universidade Federal de Santa catarina (UFSC)
Programa de Pós-graduação em Engenharia, Gestão e Mídia do Conhecimento (PPGEGC)
Detalhes do Documento Analisado

Centro: Comunicação e Expressão

Programa de Pós-Graduação: Programa de Pós-Graduação em Estudos da Tradução

Dimensão Institucional: Pós-Graduação

Dimensão ODS: Econômica

Tipo do Documento: Tese

Título: UMA PROPOSTA METODOLÓGICA PARA COMPILAÇÃO DE CORPUS PARALELO BILÍNGUE E DE PEQUENA DIMENSÃO

Orientador
  • MARIA LUCIA BARBOSA DE VASCONCELLOS
Aluno
  • LILIAN JURKEVICZ FLEURI

Conteúdo

Localizando-se no contexto de pesquisa do projeto cordiall (corpus discursivo para análises linguísticas e literárias) (ufmg) e do grupo de pesquisa tracor (grupo de pesquisa em tradução e corpora) (ufsc), esta tese apresenta uma proposta metodológica de compilação de corpus, pautada no perfil e nas necessidades emergentes em 20 dissertações de mestrado produzidas entre 2003 e 2010 em estudos da tradução, utilizando simultaneamente o arcabouço metodológico de corpus e teórico da linguística sistêmico-funcional. nesta tese a linguística de corpus oferece os fundamentos teórico-metodológicos, no que tange à metodologia de corpus(barnbrook, 1996 kennedy, 1998; bowker, 2001; mason, 2008) e os estudos da tradução baseados em corpus (etbc) oferecem os fundamentos teórico-metodológicos voltados aos estudos da tradução (cf. baker, 1995; olohan, 2004; vasconcellos, 2009; assis, 2012; feitosa, 2005; fernandes, 2006). para o desenvolvimento da pesquisa, são adotados procedimentos metodológicos para: a coleta e a descrição dos métodos das 20 pesquisas analisadas; a criação de uma proposta metodológica, por meio de templates em processadores de texto, como o ms word, e aplicativos de planilhas, como o ms excel; e o teste destes templates em um estudo piloto. a análise do perfil metodológico das 20 dissertações identifica que a maioria das dissertações passa pelos seguintes processos de compilação de corpus: (i) preparação do corpus para um alinhamento semiautomático; (ii) alinhamento das unidades desalinhadas; (iii) anotação do corpus e revisão da anotação e (iv) quantificação dos dados. a análise dessas dissertações evidencia, entretanto, algumas inconsistências metodológicas nos processos de compilação do corpus, o que pode comprometer a eficiência e a continuidade da pesquisa, tais como: (a) ausência de padronização metodológica que implica desperdício de tempo de pesquisa na fase de compilação do corpus; (b) excesso de etapas metodológicas para a execução de um único procedimento; (c) demasiadas transições de um programa a outro durante a fase de compilação do corpus e (d) produção de inúmeros documentos. com base nos resultados dessas análises, propõe-se um método mais eficiente, que implica em: (a) agilizar os processos de compilação de corpora paralelos bilíngues de pequena dimensão, (b) reduzir o número das etapas em cada processo, (c) reduzir o número dos programas utilizados; (d) reduzir o número da geração de diferentes documentos e (e) flexibilizar o modo de anotação do corpus. o modelo metodológico desenvolvido em um template no processador de texto e outro em um aplicativo de planilha. esses templates são testados em um estudo piloto e seus resultados comparados ao método de compilação adotado em fleuri (2006), tendo utilizado ambos o mesmo corpus. os resultados desse estudo apontam para a produtividade e viabilidade da proposta metodológica, que mostra ser capaz de agilizar o processo (i) de preparação do corpus para o alinhamento, (ii) de correção das unidades desalinhadas no corpus paralelo, (iii) de quantificação dos dados, assim como, ser capaz de flexibilizar o código de anotação do corpus e de organizar a exposição em tabela e gráficos dos elementos anotados e dos dados quantificados. o estudo piloto, em comparação a fleuri (2006), mostrou ter reduzido a ¼ o tempo total de compilação, a metade o número de etapas totais executadas, a 1/5 o número de programas utilizados e a menos da metade o número de documentos gerado.

Pós-processamento: Índice de Shannon: 3.96211

ODS 1 ODS 2 ODS 3 ODS 4 ODS 5 ODS 6 ODS 7 ODS 8 ODS 9 ODS 10 ODS 11 ODS 12 ODS 13 ODS 14 ODS 15 ODS 16
5,33% 6,69% 7,28% 5,72% 5,41% 4,47% 5,85% 7,03% 11,23% 5,31% 7,20% 6,06% 4,59% 6,22% 5,53% 6,08%
ODS Predominates
ODS 9
ODS 1

5,33%

ODS 2

6,69%

ODS 3

7,28%

ODS 4

5,72%

ODS 5

5,41%

ODS 6

4,47%

ODS 7

5,85%

ODS 8

7,03%

ODS 9

11,23%

ODS 10

5,31%

ODS 11

7,20%

ODS 12

6,06%

ODS 13

4,59%

ODS 14

6,22%

ODS 15

5,53%

ODS 16

6,08%