LINGUÍSTICA DE CORPUS: AQUISIÇÃO DE TERCEIRA PESSOA DO SINGULAR NA LÍNGUA INGLESA

REGISTRO DOI: 10.5281/zenodo.7838890

ÍKARO BRUMATTI ALVARENGA

RESUMO

O objetivo deste estudo é verificar se a pré-ativação lexical (HOEY, 2005) influencia a aquisição de terceira pessoa do singular do presente simples por falantes do Português Brasileiro de Inglês como Língua Estrangeira. Para tanto, o corpus de aprendiz BR-ICLE, composto por 412 textos, com cerca de 500 palavras cada, foi analisado por meio da abordagem da linguística de corpus. Os padrões que foram produzidos corretamente pelos aprendizes foram comparados aos encontrados nos textos dos anos de 1990-2005 do Corpus of Contemporary American English (COCA), um corpus de monitor de múltiplos registros, que contém mais de 1 bilhão de palavras em sua totalidade. As frequências dos verbos que foram usados incorretamente pelos aprendizes foram verificadas no COCA completo (1990-até a última atualização). Essas etapas nos ajudaram a verificar se a pré-ativação lexical (HOEY, 2005) influencia a aquisição da terceira pessoa do singular, pois uma das hipóteses desta teoria é que a produção de um padrão de linguagem está fortemente associada à sua recorrência na língua. A análise dos padrões de acertos e erros identificados no corpus BR-ICLE sugere que os aprendizes brasileiros produziram, com maior grau de acerto, os padrões dos verbos mais recorrentes no corpus COCA. Tal resultado parece indicar que a pré-ativação lexical de fato influencia na aquisição de terceira pessoa do singular do presente simples por falantes do Português Brasileiro de Inglês como Língua Estrangeira.

Palavras chaves: Pré-ativação lexical. Linguística de corpus. Corpus BR-ICLE. Corpus COCA

1.INTRODUÇÃO

De modo geral, usa-se o tempo verbal presente simples da língua para descrever um estado (eg. I want a packet of crisps) ou a frequência de eventos no presente (eg. She´s vegetarian but she eats chicken). Segundo Biber et al. (1999, p. 456), o presente simples é mais presente na língua inglesa do que outros tempos verbais e sua frequência é maior na conversação, prosa acadêmica e notícias, nesta ordem. A ocorrência deste tempo verbal pode ser influenciada pelo registro¹em que ele ocorre. Na conversação, o uso do presente simples se justifica pelo fato do falante estar concentrado no contexto imediato. Um grande número de ocorrências de uso do presente simples, mais especificamente de terceira pessoa do singular, também pode ser observado em diálogos de televisão. Segundo o The TV corpus (DAVIS, 2019), a ocorrência deste traço é 11% maior neste registro do que o tempo passado, por exemplo. Já na prosa acadêmica, o uso desse tempo verbal ajuda a atestar a veracidade de proposições científicas através da ausência de restrição de tempo, haja vista que o presente simples abarca o passado e futuro.

O fato de ser morfologicamente marcado apenas na terceira pessoa do singular com a adição dos sufixos –s, -es ou –ies a forma base do verbo pode nos levar ao entendimento superficial de que a aquisição deste traço linguístico não envolve estrutura gramatical complexa. No entanto, ao discutir estudos embasados pela teoria gerativa, Slabakova (2016) demonstra que embora aparentemente superficial, o morfema -s, adicionado ao verbo na terceira pessoa do singular do presente simples estabelece, por meio de uma computação complexa no nível funcional, concordância com o sujeito que, por sua vez, contribui para o significado da sentença informando o gênero gramatical e pessoa do discurso. Além de atestar a obrigatoriedade do sujeito na língua inglesa em casos nominativos (acionado pela concordância), essa marcação morfológica indica o aspecto expresso pelo verbo (atividade frequente ou habitual) e o tempo verbal. Em outras palavras, a aquisição desse traço linguístico implica na aquisição simultânea de categorias funcionais que incluem aspectos morfológicos, semânticos e sintáticos.

Ao mencionar as hipóteses de transferência prosódica (Prosodic Transfer Hypothesis) e de reconstrução de traços (The Feature Reassembly Hypothesis), a autora postula ainda que a aquisição de uma L2 envolve adquirir um segundo conjunto de categorias funcionais que podem ser diferentes daqueles encontrados na L1. Desse modo, a reconstrução inapropriada de categorias associadas ao traço de terceira pessoa do singular, em uma eventual transferência, pode resultar na produção de inadequações desse traço linguístico (STUBS,2007).

O entendimento de Biber et al. (1999, p. 180-192), apesar de advir de uma visão de linguagem empirista, e não racionalista como a de Slabakova (2016), converge com o entendimento apresentado por ela. Essa convergência de entendimentos se dá no modo como Biber et al. apresentam a complexidade da estrutura, isto é, segundo eles há diversos fatores relacionados à concordância sujeito-verbo , em inglês — que entendemos aqui como situações de uso — , que podem dificultar sua produção, como por exemplo, (1) a distância entre o verbo e o sujeito quando, dentre outros elementos, os pronomes relativos ou as palavras former (o primeiro)/latter (o último) são utilizadas (2) os plurais irregulares (sheep, data, police etc.) (3) palavras que terminam em –s, mas que podem ser tratadas como forma plural ou singular dependendo do contexto (mathematics, ethics, politics) (4) sujeitos coordenados (Bob and Margareth; Mark, or his daughter, or Kim) (5) pronomes indefinidos e quantificadores (everything, nobody, most, plenty) (6) nomes e títulos (The United States, The New York Times) coletivos (staff, audience, government).

As inadequações na produção desse traço por aprendizes de inglês como língua estrangeira observadas ao longo da carreira de professor desempenhada por este pesquisador somam-se as evidências iniciais extraídas do corpus BR-ICLE (Brazilian International corpus of Learner English), o corpus de estudo utilizado neste trabalho de pesquisa. Ambas nos mostram que a maior ocorrência do tempo presente e, consequentemente, a maior probabilidade de exposição por meio dos registros aos quais os aprendizes brasileiros de língua inglesa têm amplo acesso (como diálogos de televisão, notícias e conteúdo de websites) não parece, em primeira análise, promover a produção da terceira pessoa do singular do presente simples sem inadequações relativas à norma culta da língua inglesa. Entretanto, isso não implica a não atuação da teoria de pré-ativação lexical (HOEY, 2005), que dentre outras hipóteses postula.

A teoria de pré-ativação lexical, proposta por Hoey (2005), é oriunda dos conceitos e métodos da Linguística de corpus e busca suporte teórico no fenômeno da psicolinguística conhecido como pré-ativação (priming). Para o autor, as ocorrências de palavras em determinados contextos experienciados ao longo da vida de um falante, possibilita a pré- ativação para tais palavras nesses contextos. Essas pré-ativações serão utilizadas por esse falante em situações futuras contribuindo significativamente para o aumento da probabilidade de ocorrências e finalmente levará à formação de colocações. A teoria postula ainda que (1) as pré-ativações não são escolhas conscientes; (2) sem um determinado grau de linguagem formulaica, o tempo de produção e compreensão da linguagem seria muito mais lento e (3) as pré-ativações refletem a exposição à linguagem em uso e são características de determinados registros (PACE-SIGGE ; PATTERSON, 2017).

O objetivo principal deste trabalho de pesquisa é verificar o grau de influência da pré- ativação lexical na aquisição da terceira pessoa do singular do tempo verbal presente simples da língua inglesa em textos escritos por falantes de português brasileiro.

2.LINGUÍSTICA DE CORPUS: HISTÓRICO E CONFIGURAÇÃO ATUAL

Embora seja uma área relativamente recente, a LC está consolidada como uma das mais importantes áreas da linguística. Seus métodos e abordagens têm estabelecido interfaces com diversas áreas de estudo (OLIVEIRA, 2009). Porém, a preocupação com a coleta de dados e uso de corpora nos estudos da língua, uma das preocupações centrais da LC, parece ter suas origens ainda no século XIII quando monges copistas examinavam linha por linha dos textos da bíblia em busca de padrões que pudessem evidenciar uma harmoniosa mensagem divina entre eles (McCARTHY; O’KEEFFE, 2010).

Outra evidência de coleta e observação de dados em estudos anteriores à LC atual está em uma lista de palavras e seus contextos usados em obras de Shakespeare publicada por Samuel Ayscough em 1790. Além de contribuir para os estudos literários, o trabalho intitulado Um índice de memoráveis trechos e palavras usadas por Shakespeare; calculadas para apontar os diferentes significados para os quais tais palavras são aplicadas já mencionava o fato de o significado das palavras estar no uso, um dos conceitos fundamentais da LC que será abordado na próxima seção deste capítulo (STUBBS, 2007).

Já no século XX, estudos baseados em corpora ainda não computadorizados como a American English Grammar (FRIES, 1940) e Race, Language and Culture (BOAS, 1940) conduzidos por linguistas estruturalistas da era pré-chomskiana contribuíram para o fortalecimento da LC nos Estados Unidos. Com maior ênfase no ensino de línguas, os corpora daquela época eram coletados e armazenados manualmente envolvendo muitos analistas. Tais procedimentos eram alvos de críticas e com a publicação de Syntactic Structures ,os estudos linguísticos baseados em corpora perderam espaço nos Estados Unidos. Por consequência, a maior parte dos linguistas americanos abandonou o empirismo e retornou à tradição racionalista, que têm a introspecção como a principal forma de inferir sobre a língua. (McCARTHY e O´KEEFFE, 2010; BERBER SARDINHA, 2004; VEIRANO PINTO, 2013).

Nas décadas seguintes, os linguistas Randolph Quirk, Geoffrey Leech e John Sinclair, cada um em associação com as universidades britânicas London College, Lancaster e Birmingham respectivamente, lideraram projetos e estudos em língua inglesa que, direta ou indiretamente, influenciaram trabalhos de linguistas dentro e fora da Europa. Esses trabalhos contribuíram substancialmente para o desenvolvimento e atual configuração da LC motivando a construção de diversos tipos corpora e, por consequência, estudos de outras variedades da língua inglesa e de outras línguas (McENERY; HARDIE, 2012).

Em 1959, Randolph Quirk e sua equipe iniciaram a compilação do Survey of English Usage (SEU). Um corpus composto por 1 milhão de palavras, que, entre outras contribuições, possibilitou a publicação das gramáticas Grammar of Contemporary English (QUIRK et al., 1972), A University Grammar of English (QUIRK et al., 1973 e A Comprehensive Grammar of the English Language (QUIRK et al., 1985). As características dessas obras, como número, extensão dos textos e classificação gramatical das palavras, serviram como referência para a composição de outros corpora, como o corpus Brown (o primeiro corpus eletrônico) e posteriormente, para o desenvolvimento de softwares para a construção de corpora e identificação automática de traços gramaticais. (McENERY e HARDIE, 2012; BERBER SARDINHA, 2004).

Apesar do foco em estudos de inglês britânico, na época justificado pela maior disponibilidade de corporações dessa variedade, a London College também atendeu o crescente interesse na realização de estudos comparativos com outras variedades da língua inglesa com a construção do International corpus of English (ICE). Também composto por 1 milhão de palavras, o ICE permitiu a comparação direta entre 23 variedades da língua inglesa (ESIMAGE e HUNSTON, 2019).

Na universidade de Lancaster, Geoffrey Leech, em colaboração com cientistas da computação e fazendo uso da experiência que havia adquirido com o time do SEU na London College, foi responsável pela introdução de ferramentas computacionais que viabilizaram a construção e anotação de corpora com dimensões nunca vistas até então (McENERY e HARDIE, 2012).

Em 1980, a parceria entre a Universidade de Birmingham e a editora Collins, sob a direção do lexicógrafo John Sinclair, se solidificou com o projeto Collins-Birmingham University International Lexical Database (COBUILD). Uma base de dados linguísticos que forneceu análises e ideias para a produção de dicionários como o Collins COBUILD dictionary e o desenvolvimento do corpus de monitoramento Bank of English (McENERY e HARDIE, 2012).

Embora a contribuição de Sinclair para a LC e outras áreas da linguística seja inquestionável, principalmente a partir do projeto COBUILD, sua maior influência parece estar na abordagem filosófica empregada em seus estudos. Suas noções de significação que levam em conta a recorrência de associações entre palavras observadas em linhas de concordância motivaram outros linguistas como Susan Hunston, Gil Francis e Michael Hoey e foram cruciais para o estabelecimento de conceitos-chave da LC como colocação e coligação e prosódia semântica (VEIRANO PINTO, 2013; TOGNINI-BONELLI, 2001). Estes conceitos serão abordados com maior profundidade na seção 2.2, que apresentará os principais debates e conceitos-chave da LC.

Ainda na Inglaterra, mais precisamente na universidade de Nottingham, o trabalho de Ronald Carter e Michael McCarthy com o Cambridge and Nottingham corpus of Discourse in English (CANCODE), um corpus de 5 milhões de palavras de inglês falado, chamou a atenção para as variações e especificidades do modo oral da língua inglesa cuja gramática poderia ser descrita de forma diferente da gramática do modo escrito. Os resultados desse trabalho levaram o time de Nottingham a concentrar esforços nas investigações das variações gramaticais do discurso oral que pareciam ser influenciadas pelo contexto e pela relação entre falante e ouvinte (op.cit, p.86). Esse estudo resultou na publicação da Cambridge Grammar of English( CARTER;McCARTHY, 2006).

A gramática que, segundo Leech (2015, p.153), foi “a primeira grande gramática da língua inglesa a priorizar dados do modo falado de uma língua”. O interesse nas variações entre registros¹²orais e escritos também motivou o desenvolvimento da abordagem metodológica do linguista norte americano Douglas Biber. Sua abordagem é conhecida como Análise Multidimensional (AMD) e, baseada em cálculos estatísticos, foi desenvolvida para identificar a variações linguísticas existentes entre registros orais e escritos. A inclusão de um maior número de funções textuais e variáveis linguísticas (além de formal-informal, planejado-espontâneo ou verbo no tempo presente e verbo no tempo presente-passado) na análise também tornou a distinção entre os textos mais completa (VEIRANO PINTO, 2013 e BERBER SARDINHA, 2004).

Os projetos conduzidos por Biber, inicialmente na Universidade da Sul da Califórnia e posteriormente na Universidade do norte do Arizona, além de estabelecerem importantes interfaces com a linguística computacional, foram responsáveis pela reinserção da LC nos Estados Unidos e, por consequência, pelo aumento da participação de estudos da variedade americana da língua inglesa na LC. Instituições como as Universidades da Califórnia do Sul (Santa Barbara), Michigan e Brigham Young contribuíram com esse processo com realizações bastante significativas para a área destacando-se: 1) a compilação do Santa Barbara corpus of Spoken American 2) o Michigan corpus of Academic Spoken English (MICASE) 3) o English- Corpora.org (McENERY e HARDIE, 2012), uma poderosa ferramenta online que, entre outras possibilidades, viabiliza o acesso e exploração de diferentes corpora como o corpus of Contemporary American English (COCA).

Os desenvolvimentos em LC no Brasil se concentram principalmente em estudos e construção de corporações para o ensino-aprendizagem de inglês e português brasileiro, tradução, terminologia, lexicografia, além da interface com a linguística computacional. Dentre as diversas realizações resultantes desses estudos como o corpus Brasileiro, o CorpoBras-PUC- RIO e o corpus NILC, destaco o projeto BR-ICLE, o corpus de estudo utilizado nesta pesquisa cuja compilação se deu pela colaboração de membros do Grupo de Estudos em Linguística de corpus (GELC), liderado pelo Professor Tony Berber Sardinha.

É importante salientar que o desenvolvimento da LC no Brasil e no mundo só foi possível graças ao desenvolvimento tecnológico, que possibilitou o aumento da capacidade de processamento e armazenamento dos computadores, a popularização dos computadores pessoais e a universalização do acesso à rede mundial de computadores nos últimos 50 anos. Essa evolução facilitou a criação e exploração de corpora por um maior número de pesquisadores por meio do uso de ferramentas computacionais com interfaces amigáveis como o WordSmith tools (SCOTT, 1999), o AntConc 3.5.8 (ANTHONY, 2019) ou a supracitada ferramenta online English-Corpora.org. Afinal, um corpus per se não pode fazer absolutamente nada. Ele é apenas um estoque de língua em uso. São as ferramentas computacionais que reorganizam esse estoque para que possamos observar a língua (HUNSTON 2002).

3.CRITÉRIOS DE CONSTRUÇÃO E TIPOS DE CORPORA

A validade dos estudos baseados em corpora está diretamente ligada ao rigor desprendido durante a coleta de dados e construção de corpora. Para Hunston (2002, p. 20), o principal argumento para o uso de corpora na investigação linguística está no nível de confiabilidade das informações extraídas dele que é muito maior do que o nível das abstrações que resultam das intuições de um falante de uma língua ou variedade dela.

Como visto nos parágrafos anteriores, a construção de diferentes tipos de corpora obedeceu a uma agenda natural e não estabelecida gerada por uma demanda de estudos cujas perguntas de pesquisa exigiram corpora mais adequados. Um corpus também pode ser construído para atender as necessidades de uma investigação, ou seja, ele deve ser composto por um conjunto de textos que sejam suficientemente representativos de uma população oferecendo subsídios para que fenômenos linguísticos possam ser observados e eventualmente descritos.

Segundo Sinclair (1991), os resultados de um trabalho de pesquisa serão diretamente influenciados pelas decisões tomadas acerca de como o corpus será composto e organizado. Dentre essas decisões, o conteúdo, a extensão e até que ponto o corpus será representativo e equilibrado são questões cruciais para a sua construção.

Para que um corpus seja classificado como de um determinado tipo ou que possa representar a população a ser investigada de forma adequada, Berber Sardinha (2004) sugere que as seguintes perguntas sejam respondidas: (1) Os textos foram produzidos por um autor apenas ou mais de um? (2) Os textos foram produzidos por falantes nativos ou não nativos?;

(3) Os textos foram escritos ou falados?; (4) As variedades presentes no corpus são do tipo padrão ou regionais/dialetais?; (5) As variedades do corpus são distribuídas equitativamente?;

(6) A inclusão de conteúdos novos é permitida?; (7) O conteúdo do corpus reflete um período definitivo ou se renova?; (8) O corpus é planejado para retratar períodos históricos ou não? (9) O corpus possui só textos originais ou também a tradução desses textos para uma ou mais línguas? e (10) As traduções dos textos são incorporadas a cada linha do texto original ou vêm em textos separados?

Quanto a sua extensão, Sinclair (1991, p.18) postula que um corpus deve ser o mais extenso possível e em constante evolução. Para o autor, cerca da metade do vocabulário de um texto, até mesmo um texto muito longo, consiste em palavras que ocorrem apenas uma vez no texto, ou seja, a maioria das palavras que o compõem é de baixa frequência. Por isso, quanto maior o corpus, maior será a probabilidade de ocorrência de palavras mais raras.

No que concerne ao significado das palavras, ainda segundo Sinclair (ibidem), teremos o mesmo “desequilíbrio”. Um sentido de uma palavra pode ser duas vezes mais frequente que outros ou ainda, ocorrer apenas uma vez em um determinado texto. É por esse motivo que, para ele, um corpus deve conter muitos milhões de palavras distribuídas em um extenso número de tipos textuais, gêneros e registros. Berber Sardinha (2004) reitera a posição de Sinclair e usa a palavra “como” para chamar a atenção para as limitações encontradas no processo de construção de um corpus que seja representativo. Essa forma é bastante frequente na língua portuguesa, podendo ser usada como segunda pessoa do singular do verbo “comer” no presente do indicativo, como substantivo, advérbio, conjunção ou preposição. Portanto, a compilação de um corpus que seja capaz de abarcar todos os sentidos dessa forma não seria tarefa fácil.

Na visão de Esimaje e Hunston (2019), um corpus sempre tem o objetivo de ser representativo de uma determinada língua ou variedade. Entretanto, os conflitos entre as questões de conteúdo, extensão, representatividade e equilíbrio podem impor limitações importantes durante o processo de construção. As autoras demonstram tais limitações usando como exemplo a produção de um corpus que busca investigar mudanças em estilos literários durante um certo período. Considerando que os textos do gênero poesia são geralmente menores que os do gênero romance, a inclusão de poemas pode causar desequilíbrio no corpus. Se o corpus for muito extenso, os textos de poema poderão desaparecer ou se, com o objetivo de alcançar equilíbrio entre os gêneros, apenas partes dos textos de ficção forem incluídas, a extensão do corpus poderá ser comprometida. Em alguns casos, a solução para compensar o desequilíbrio entre os textos está na normalização da frequência das palavras. Outra saída seria a construção de pequenos subcorpora compostos por cada gênero permitindo uma comparação mais significativa entre eles. Como já mencionado, as decisões tomadas durante a construção de um corpus devem atender ao propósito da investigação que se deseja fazer e, em seu turno, esse propósito irá forjar o tipo do corpus.

Há certa variação na literatura quanto aos tipos de corpo mais comuns. Todavia, ao listá-los, Sinclair (1991), Tognini-Bonelli (2001), Hunston (2002) e Esimaje e Hunston (2019) parecem demonstrar que há um consenso com relação ao protagonismo dos seguintes corpora nas mais diversas investigações linguísticas: o corpus que representa uma determinada língua, o corpus especializado, o corpus comparável, o corpus paralelo, o corpus de aprendiz, o corpus pedagógico, o corpus diacrônico e o corpus de monitoramento.

O corpus que representa uma determinada língua é normalmente um corpus extenso e é sistematicamente composto por uma grande diversidade de tipos e gêneros textuais. Apesar de parecer servir qualquer tipo de estudo, segundo Esimaje e Hunston (2019), esse tipo de corpus não tem a pretensão de ser representativo de uma população específica. Porém, pode ser usado como corpus de referência na exploração de outras corporações. Dentre os mais conhecidos, destacam-se o British National corpus com 111.5 milhões de palavras, o Bank of English contendo 400 milhões de palavras, o Lancaster-Oslo-Bergen corpus (LOB) e o Brown corpus (compostos por textos escritos em inglês Britânico e Americano respectivamente), ambos compilados em 1960 e compostos por 1 milhão de palavras.

Diferentemente de um corpus que representa uma determinada língua, que não pretende ser totalmente representativo de variedades de línguas específicas, o corpus especializado deve ser representativo de uma população específica. Isso porque a exploração desse tipo de população objetiva responder perguntas sobre traços ou tópicos específicos dela. A obra de um determinado autor, artigos de uma determinada seção de um jornal, transcrições de conversas de aprendizes de uma determinada série escolar ou de um ano específico são exemplos desse tipo de corpus. Como o corpus especializado é normalmente compilado para responder perguntas individuais de pesquisadores, a maioria deles não se torna conhecida. Alguns exemplos de corpora especializado são o Cambridge and Nottingham corpus of Discourse in English (CANCODE), composto por 5 milhões de palavras de registros de inglês britânico informal, o Michigan corpus of Academic English (MICASE), composto por 1.7 milhões de palavras, o corpus of Professional Spoken American English (CPSA), composto por dois sub corpora de 1 milhão de palavras cada.

Usado por tradutores ou por estudantes de línguas interessados em analisar diferenças e correspondências entre línguas ou variedade dela, o corpus comparável pode conter sub corpora de duas ou mais línguas diferentes (inglês e português) ou de variedades de uma mesma língua (inglês indiano e inglês canadense). A construção dos sub corpora que compõem um corpus comparável deve seguir os mesmos critérios, ou seja, o mesmo número e extensão de textos, os mesmos registros ou modo de comunicação (escrito ou falado) viabilizando a comparação direta entre os textos. Os textos de um subcorpus não podem ser versões traduzidas dos textos do subcorpus correspondente. No entanto, a presença de traços linguísticos correspondentes pode ser preestabelecida. O International corpus of English (ICE) é um exemplo de corpora comparáveis. O ICE possibilita a comparação entre variedades da língua inglesa faladas no mundo todo.

Também usado por tradutores, o corpus paralelo é composto por sub-corpora de duas ou mais línguas. Os textos de cada subcorpus são versões traduzidas dos mesmos textos que compõem os sub-corpora com os quais se pretende comparar. Antes da introdução de computadores na atividade de tradução, as traduções eram feitas de forma livre e os métodos não podiam ser avaliados. Com a ajuda de ferramentas computacionais e o uso de corpora, os tradutores passaram a ver as traduções como repetições de outras traduções com poucas variações (TOGNINI-BONELLI, 2001).

Um corpus de aprendiz é uma compilação de textos escritos por aprendizes de uma língua e fornece dados para o estudo de traços linguísticos da interlíngua de falantes não nativos de uma língua ou para análise das inadequações mais comuns entre esse grupo. A análise das inadequações produzidas por falantes não-nativos da língua inglesa têm sido uma questão controversa para proponentes do Inglês como Língua Franca (ILF), como Seidlhofer (2011) e Jenkins (2006), que acreditam que a linguagem do falante não-nativo é um gênero específico e não deve ser comparada com a linguagem do falante nativo. De qualquer forma, é crucial que estudos em LC sejam comparativos. Por isso traços linguísticos específicos encontrados em um corpus de aprendizes não-nativos devem ser sempre comparados com os respectivos traços evidenciados por um corpus de referência. Os dados oferecidos por um corpus de aprendiz, além de orientar o trabalho do professor de línguas na preparação mais eficiente de suas aulas, também servem como referência para a produção de materiais didáticos que possam melhor atender as reais necessidades dos estudantes de uma língua. O International Corpus of Learner English (ICLE) é um exemplo de corpus de aprendiz. Sob a direção de Sylviane Granger, a primeira versão do ICLE começou a ser compilada na Universidade Católica de Louvain (Bélgica) e sua mais recente versão (ICLEv3) reúne sub corpora de 25 diferentes nacionalidades de aprendizes de Inglês como Língua Estrangeira (doravante ILE) totalizando mais de 5.5 milhões de palavras (GRANGER 2020).

Outro tipo de corpus cujo objetivo principal é orientar o trabalho de professores no ensino de idiomas é o corpus pedagógico. Livros, transcrições de áudio e vídeo e todo conteúdo ao qual o aprendiz é exposto, durante a aprendizagem de uma língua, pode compor esse tipo de corpus. A exploração do corpus pedagógico se faz muito útil para o professor que deseja verificar se seus aprendizes estão sendo expostos a porções de linguagem reais, bem como aos traços linguísticos realmente necessários.

Um corpus histórico ou diacrônico é um corpus composto por textos de diferentes períodos e é usado para identificar mudanças linguísticas ao longo da história. Um exemplo de corpus histórico é o Helsinki corpus. Trata-se de um corpus de 1.5 milhões de palavras distribuídas em textos de língua inglesa que contemplam o período entre os anos 700 e 1700.

Mais recentemente, com o intuito de representar a linguagem usada na Internet de forma diacrônica, o Diachronic English Web corpus extrai textos da Internet desde o ano 2000. O corpus é dividido em meses e cada mês contém 1 milhão de palavras cujas variações de uso durante um curto período podem ser analisadas.

O corpus de monitoramento é um corpus que “como a própria língua, está em constante evolução” (tradução minha) (SINCLAIR, 1991, p.25). Embora a extensão dos textos que o compõem seja mantida, esse tipo de corpus é atualizado todos os anos, meses ou todos os dias. Tais critérios fazem com que o corpus de monitoramento também seja, muito frequentemente, usado como corpus de referência em análises de mudanças contemporâneas em uma língua ou na comparação de traços linguísticos evidenciados pela análise de outros corpora. Um exemplo desse tipo de corpus é o corpus de Contemporary American English (COCA). Um corpus multi registro, composto por mais de 1 bilhão de palavras (DAVIS 2008). Coletado com o objetivo de representar a língua inglesa da variedade americana, o COCA é o corpus de referência utilizado nesta pesquisa e fornecerá pistas para a verificação ou refutação da influência da pré-ativação lexical na aquisição da terceira pessoa do singular por falantes de português brasileiro.

Embora a LC já esteja estabelecida como uma importante área da linguística e ter influenciado o nosso entendimento de como a linguagem é usada, o caráter da LC como metodologia ou teoria linguística é uma questão ainda bastante discutida (SHEPHERD, 2009 e OLIVEIRA, 2009). Tais discussões já não parecem ter tanta relevância considerando seu status atual. Entretanto, conhecer as diferentes perspectivas que motivaram esse debate nos permite compreender as abordagens metodológicas e pressupostos teóricos que embasam importantes estudos.

Tognini-Bonelli (2001) cunhou os termos abordagem baseada em corpus (corpus- based) e abordagem dirigida pelo corpus (corpus-driven). O primeiro classifica os trabalhos de pesquisa que utilizam corporações, mas que se embasam em teorias pré-existentes. O segundo classifica estudos cujas hipóteses, e eventuais formulações teóricas, partem única e exclusivamente das observações e análises das evidências provenientes de corporações eletrônicas. Essa classificação, de certa forma, também separa aqueles que pensam a LC como metodologia daqueles que, embasados pelas noções de significado de Firth (1957) e pelo posicionamento de Sinclair (2004) quanto à centralidade do texto nas observações de padrões recorrentes na linguagem, pensam a LC como teoria.

Para McEnery e Hardie (2012), não é simplesmente a distinção entre as abordagens adotadas que separam os estudos em LC. A causa da disseminação está principalmente no status teórico que os adeptos da LC como teoria conferem ao corpus eletrônico. Os autores argumentam que em todas as ciências humanas há uma clara distinção conceptual entre a teoria que se deseja suportar e a evidência que irá suportá-la. Para eles, quando se assume que o corpus per se representa o fenômeno a ser explicado e as formulações teóricas acerca desse fenômeno, entende-se que essa distinção está sendo literalmente apagada.

Os adeptos da LC como metodologia postulam ainda que a LC não tem um objeto de estudo definido e, por isso, não têm o mesmo status teórico que a semântica, sintaxe ou a sociolinguística. Porém, seu caráter empírico subsidiado pela observação e análise de dados de linguagem real a define como metodologia. Por outro lado, a utilização de teorias pré-existentes também faz parte do escopo metodológico da LC. Eventuais generalizações teóricas oriundas de hipóteses sustentadas pelas observações de dados em corpora eletrônicos devem servir para validá-las, refutá-las ou corrigi-las (McENERY e HARDIE, 2012; McENERY e WILSON, 1996).

Argumentando contra a LC como metodologia, Tognini-Bonelli (2001) postula que os resultados de um estudo estão diretamente associados à abordagem adotada pelo pesquisador. A abordagem baseada em corpora pode ser usada em qualquer tipo de trabalho porque o corpus atribui certa autoridade ao trabalho. No entanto, a participação do corpus é insuficiente quando ele é usado apenas para explicar, testar ou exemplificar teorias que foram formuladas antes da disponibilidade de corpora extensos para o estudo da linguagem. O problema, segundo a autora, é que quando incongruências entre a teoria utilizada e o corpus são identificadas, a lealdade desses pesquisadores à tais teorias pode levá-los a tratar as variações de ocorrência típicas da linguagem natural como variáveis que podem comprometer os resultados esperados ou integridade da teoria em questão. Por vezes, alguns ajustes e correções acontecem, mas dificilmente, os resultados dessas análises podem propor mudanças substanciais em teorias formuladas antes da disponibilidade de corpora extensos.

Em favor da visão da LC como teoria, Tognini-Bonelli (Ibid, p.84) salienta que os estudos dirigidos pelo corpus se comprometem com o corpus em sua totalidade. Sendo assim, qualquer hipótese deve ser sustentada por evidências provenientes de corporações, tal como toda formulação teórica deve resultar de observação e análise de padrões recorrentes em um corpus. O corpus é mais que um simples estoque de exemplos usados para sustentar teorias preestabelecidas ou prováveis extensões de sistemas já bem definidos.

Os argumentos dos proponentes da LC como teoria parecem ter suas bases na teoria de significado do linguista inglês John Ruppert Firth. Para Firth (1957), o significado das palavras está ligado aos diversos eventos linguísticos e sociais experienciados pelo falante, bem como à recorrência de uso em determinados contextos situacionais. O contexto situacional, por sua vez, é um constructo teórico que permite a análise da repetição desses eventos no processo social, abarcando os níveis discursivo, textual, gramatical, lexical e o fonético. Nesse esquema, o texto é parte integrante do contexto e sua inter-relação com elementos verbais e não verbais lhe confere valor empírico na representação real de uso das palavras; não considerando idiossincrasias individuais e situacionais (FIRTH, 1957).

Além de corroborar o status teórico da LC defendido pelos também chamados neo firth anos, as ideias de Firth, somadas à disponibilidade de novas tecnologias, que possibilitam a identificação e quantificação de padrões recorrentes em um corpus, parecem ter originado alguns dos principais conceitos da LC, bem como sua visão de linguagem como sistema probabilístico (BERBER SARDINHA, 2004). A repetição de padrões em um corpus, verificada no eixo vertical de uma concordância, nos mostra exatamente o que os falantes fazem com a língua e como ela funciona em situações de uso (BERBER SARDINHA, 2004 e TOGNINI-BONELLE, 2001).

Para Esimaje e Hunston (2019), caracterizar a LC apenas como metodologia a serviço de outras áreas da linguística parece limitar o escopo da LC. Mas considerá-la apenas como teoria, também implica em limitações metodológicas estabelecidas pela centralidade do corpus. O uso de corpora anotados com base em categorias gramaticais tradicionais por exemplo, não pode fazer parte do ferramental de estudos em LC como teoria, haja vista que essa categorização não é resultado de observações do real comportamento das palavras ou itens lexicais, em linhas de concordância extraídas de um corpus representativo.

Sendo assim, considerando os pressupostos e implicações que envolvem as abordagens que motivaram o debate, a perspectiva adotada neste trabalho de pesquisa parte de uma visão intermediária entre LC como metodologia e como teoria, ou seja, os pressupostos metodológicos da LC podem ser aplicados em qualquer disciplina de linguística, mas também podem levar à atualização de teorias existentes ou mesmo o desenvolvimento de novas teorias de descrição de linguagem em uso.

O ponto de convergência para a formulação dessas teorias parece estar na padronização do léxico. Sinclair (2004) postula que ao analisar um corpus em busca de evidências, o foco deve estar na identificação e quantificação de padrões de ocorrência e a significância de um padrão está relacionada à sua frequência de ocorrência. Partington (2013) ressalta a visão da LC como sistema probabilístico, salientando que a regularidade desses padrões pode ser utilizada para prever o comportamento de outros padrões ainda não analisados, podendo levar a descrição de como a linguagem é construída.

A visão de linguagem e a noção de padronização em nível lexical, que Firth (1957) chamou de colocação, levaram Sinclair ao entendimento de que o léxico era o pilar da descrição linguística. O estudo do léxico permitiria a compreensão de como ele é estruturado e mostraria que léxico e gramática não são passíveis de serem separados. Tal entendimento o levou a propor dois princípios: o princípio idiomático e o princípio de livre-escolha. O princípio idiomático é “a tendência que as palavras têm de ocorrerem juntas e gerarem significados por meio dessa combinação” (SINCLAIR, 2004, p. 29). Essa tendência, por sua vez, faz com que elas sejam arquivadas mentalmente como unidades de sentido, equivalente-se a uma escolha única antes de serem usadas.

Ao exemplificar o princípio idiomático como o sintagma “of course”, Sinclair (1991, p. 110) argumenta que o sintagma opera como uma palavra única. O espaço entre “of” e “course” torna-se inútil e pode até desaparecer com o tempo, assim como podemos observar em maybe (may + be), anyway (any + way) e another (an + other). O princípio da livre escolha é a possibilidade de o falante selecionar as palavras que têm um significado fixo em relação ao mundo. Essas palavras são muito raras na língua e sua combinação de modo individual ocorre em função de seu sistema mental de regras gramaticais (ibid).

Outros neofirthianos, como Susan Hunston, Gil Francis e Michael Hoey, também enfatizaram o papel do léxico na língua, promovendo um completo ‘apagamento’ da distinção entre léxico e gramática. (McENERY e HARDIE, 2012). Com base no princípio idiomático e, portanto, descartando a dependência de uma gramática mental, esses linguistas propuseram a Gramática de Padrões (Pattern Grammar) e a teoria de pré-ativação lexical (Priming Lexical), respectivamente.

A Gramática de padrões (Pattern Grammar), proposta por Hunston e Francis (1999), procura identificar os padrões associados com itens lexicais específicos. Os padrões são definidos como todas as palavras e estruturas regularmente associadas a uma determinada palavra, que contribuem para sua significação. Um padrão, observado em linhas de concordância, é identificado quando apresenta (1) combinação de palavras que ocorrem com relativa frequência, (2) dependência de determinadas escolhas de palavras e (3) significado claro associado a ele.

Os principais padrões estudados pela LC são conhecidos como colocação (parte da significação de uma palavra se encontra nas palavras que co ocorrem com ela de modo recursivo (SINCLAIR, 2004)), coligação (“a relação entre uma palavra e um padrão gramatical, gerando assim um meio termo entre gramática e colocação” (HOEY, 2005, p. 43)) e prosódia semântica (palavras ou associações entre palavras adquirem uma “aura” negativa, positiva ou neutra, dependendo da significação das palavras ou associações entre palavras com as quais concorrem (LOUW, 1993)). Considerando os objetivos propostos por este trabalho de pesquisa, apesar de estarem intrinsecamente ligadas à conceitos chaves da LC, tais classificações (colocações, coligações e prosódia semântica) não serão utilizadas para classificação dos padrões eventualmente identificados nas situações de uso, isto é, nos fatores relacionados à concordância sujeito-verbo que podem dificultar a produção de terceira pessoa do singular por falantes de português brasileiro propostos por Biber et al. (1999, p. 180-192).

Nesse sentido, a busca pelo entendimento de como a frequência de ocorrência desses padrões de linguagem em diferentes registros pode influenciar a aquisição da terceira pessoa do singular por falantes de português brasileiro nos levou a formulação da hipótese de que a maior ou menor frequência dos padrões de terceira pessoa do singular na língua inglesa, pode resultar na reprodução adequada ou inadequada de padrões desse traço nos textos do corpus BR-ICLE. A confirmação ou refutação dessa hipótese só foi possível graças ao suporte metodológico, ferramental (ANTHONY, 2019 e DAVIS, 2020) e conceitual da linguística de corpus e, mais especificamente aos pressupostos teóricos da teoria da pré-ativação lexical (HOEY, 2005), que dentre outras hipóteses, postula que cada vez que um indivíduo tem um encontro com uma palavra, subconscientemente, ele armazena o contexto e cotexto linguístico em que ela ocorre. Se a frequência desses encontros aumenta, além de ter o reconhecimento e acesso desta palavra facilitado em sua memória semântica, o indivíduo passa a reconhecer e eventualmente reproduzir os padrões dos quais ela participa, reiniciando o fenômeno da pré-ativação lexical.

CONSIDERAÇÕES FINAIS

Assim como mencionado no primeiro capítulo, a discreta manifestação morfológica da terceira pessoa do singular no presente simples da língua inglesa, a forma base do verbo, através da adição dos sufixos -s, -es ou -ies, pode nos levar ao entendimento superficial de que a aquisição deste traço linguístico não envolve estrutura gramatical complexa. No entanto, estudos dos processos de aquisição de traços linguísticos (HOEY 2005; SLABAKOVA 2016) demonstram que sua aquisição pode estar relacionada à aquisição simultânea de aspectos morfológicos, semânticos, sintáticos e discursivos na forma de categorias funcionais e padrões de linguagem que não ocorrem com a mesma frequência de ocorrência em suas diferentes situações de uso.

A verificação do grau de influência da pré-ativação lexical na aquisição da terceira pessoa do singular do tempo verbal presente simples da língua inglesa em textos escritos por falantes de português brasileiro no corpus BR-ICLE (GRANGER, 2020) foi o objetivo principal deste trabalho cujos passos metodológicos buscaram responder perguntas de pesquisa que nortearam este estudo baseado em corpora.

A extração e separação das ocorrências do presente simples e terceira pessoa do singular do corpus BR-ICLE considerando as diferentes situações de uso que podem dificultar sua produção (Biber et al., 1999, p. 180-192), foi o ponto de partida para a identificação das linhas de concordância contendo adequações e inadequações na produção deste traço. O próximo passo foi a seleção dos verbos mais frequentes nos textos do corpus BR-ICLE e a identificação dos padrões formados por eles. Finalmente, a frequência dos padrões reproduzidos pelos aprendizes foi verificada em cada registro do corpus COCA.

Os resultados das análises demonstraram que a maior parte das ocorrências de presente simples e terceira pessoa do singular e consequentemente, o maior número de linhas de concordância contendo adequações e inadequações estão nas situações de uso onde: 1) há distância entre o verbo e o sujeito e quando, dentre outros elementos, os pronomes relativos são utilizados, 2) em que pronomes indefinidos e quantificadores estão na posição de sujeito e por fim, 3) onde há plurais irregulares na posição de sujeito. Já as situações com menor número de ocorrências foram 1) as situações em que há substantivos coletivos na posição de sujeito, 2) quando há nomes e títulos a posição de sujeito, 3) quanto os sujeitos são coordenados e 4) quando há substantivos terminados em -s, mas que podem ser tratados como forma plural ou singular dependendo do contexto.

Após a análise das linhas de concordância com e sem inadequações de terceira pessoa do singular em cada situação de uso observou-se que do(es), get(s), live(s), make(s), need(s), work(s) e think(s) são os verbos mais frequentes e de maior abrangência nos textos do corpus BR-ICLE. A partir desses verbos, identificamos os padrões formados por eles e observamos que todos os padrões foram produzidos sem inadequações e a maior parte deles está nas situações de uso onde: 1) há distância entre o verbo e o sujeito e quando, dentre outros elementos, os pronomes relativos são utilizados, 2) em que plurais irregulares estão na posição de sujeito e 3) onde há pronomes indefinidos quantificadores na posição de sujeito respectivamente.

A verificação de que os padrões sem inadequações identificados no corpus BR-ICLE se assemelham àqueles encontrados nos registros do corpus COCA, parece sugerir que, de alguma forma, os aprendizes foram expostos a esses registros e os produziram. Esses resultados parecem confirmar a hipótese formulada de que a maior ou menor frequência dos padrões de terceira pessoa do singular na língua inglesa, pode resultar na reprodução adequada ou inadequada de padrões de terceira pessoa do singular nos textos do corpus BR-ICLE.

Não foram identificados padrões de repetição nas linhas de concordância com inadequações na produção da terceira pessoa do singular. Porém, as análises das inadequações de terceira pessoa do singular identificadas demonstraram que a maior delas também estão nas situações de uso onde: 1) há distância entre o verbo e o sujeito e quando, dentre outros elementos, os pronomes relativos são utilizados, 2) em que plurais irregulares estão na posição de sujeito e 3) onde há pronomes indefinidos e quantificadores na posição de sujeito.

Algumas das produções de terceira pessoa também parecem ter sido influenciadas pela teoria da pré-ativação lexical. Elas se assemelham a padrões frequentes em determinados registros do corpus COCA e o fato de uma possível exposição a esses registros ter levado à produção inadequada deste traço não significa que a teoria não tenha influenciado a reprodução de um padrão. A reprodução do padrão who fight na linha concordância a poor or […] individual who fight hard (Tabela 10) é um desses casos. O padrão reproduzido na linha de concordância ocorre 429 vezes no corpus COCA com maior número de ocorrências no registro SPOK, enquanto o padrão que seria mais adequado who fights ocorre 296 vezes e têm maior frequência no registro ACAD.

Apesar dos indícios da ação da teoria de pré-ativação lexical, que têm o princípio idiomático de Sinclair (1991) como um dos seus principais alicerces conceituais, os resultados das análises também dão pistas da ação do princípio de livre escolha (ibid) na produção da terceira pessoa do singular nos textos do corpus BR-ICLE. O princípio de livre escolha parece facilitar a operação da transferência linguística (SELINKER, 1972; CORDER, 1981; ODLIN, 1989 e TARONE, 2018) na produção de aprendizes de L2. Um exemplo de como a ação desse processo cognitivo pode levar a produção inadequada da terceira pessoa do singular está na linha de concordância the men consumes natural (Tabela 22) em que o uso do verbo consumes (do latim consūmere) cuja forma e significado similares também são encontradas no léxico da língua portuguesa, evidenciam o processo de transferência linguística na produção do aprendiz. O fato é que muitos desses verbos podem ser menos frequentes na língua inglesa e por consequência, formar menos padrões. A frequência do verbo consumir no corpus COCA é de 1,86 a cada 1 milhão de palavras e, ao verificar a ocorrência de padrões de terceira pessoa do singular formados por ele, não encontramos ocorrências em nenhum dos registros. Possivelmente, o menor número de encontros com o verbo e a ausência de padrões formados por ele levou o aprendiz a produzir a terceira pessoa do singular de forma inadequada.

REFERÊNCIAS

ANTHONY, L. AntConc (Version 3.5.8) Tokyo. Waseda University, 2019.

BERBER SARDINHA, T. A. Linguística de corpus. São Paulo: Manole, 2004.

BIBER, D. et al. Longman grammar of spoken and written English. Harlow: Pearson Education Limited, 1999.

BOAS, F. Race, Language and Culture. New York: Macmillan, 1940.

CARTER, R.; McCARTHY, M. Cambridge Grammar of English: a comprehensive Guide. Cambridge University Press, 2006.

DAVIS, M. corpus of contemporary American English (COCA), 2019. Disponível em:<https://www.english-corpora.org/coca>. Acesso em: 20 de maio de 2022.

ESIMAJE, Alexandra U.; HUNSTON, Susan. What is corpus linguistics? In: ESIMAJE, Alexandra U.; GUT, Ulrike; ANTIA, Bassey E. (ed.). Studies in corpus linguistics.

Amsterdam: John Benjamins Publishing Company, v. 88, 2019. p. 7–35

FIRTH, J. Papers in Linguistics. Oxford, UK: Oxford University Press, 1957.

GRANGER, S et al. International corpus of Learner English – Version 3. Louvain-la- Neuve: UCL Presses Universitaires de Louvain, 2020.

HOEY, M. Lexical priming. London: Routledge, 2005.

HUNSTON, S. corpora in applied linguistics. Cambridge: Cambridge University Press, 2002.

JENKINS, J. Current perspectives on teaching World Englishes and English as a Lingua Franca. Tesol Quartely, Vol. 46, No. 1, p. 157-181, 2006.

LOUW, W. E. Irony in the text or insincerity in the writer? The disgnostic potential of semantic prosodies. In: BAKER, M. et al (eds.). Text and technology: in honour of John Sinclair. Amsterdã: John Benjamins, p.157-176, 1993.

MCCARTHY, M.; O’KEEFFE, A. Historical Perspective: what are corpora and how have they evolved? In: O’KEEFFE, A. e MCCARTHY, M. (eds.). The Routledge handbook of corpus linguistics. Londres: Routledge, 2010. pp.3-13, 2010.

McENERY, T.; HARDIE, A.. corpus linguistics. Cambridge: Cambridge University Press, 2012.

OLIVEIRA, L. P. Linguística de corpus: Teoria, Interfaces e Aplicações. Matraga, Rio de Janeiro, v.16, n. 24, jan./jun. 2009.

PACE-SIGGE, Michael; PATTERSON, Katie J. (ed.). Lexical Priming: Applications and advances. Amsterdam: John Benjamins Publishing Company, 2017.

SCOTT, M. Wordsmith Tools. Oxford: OUP, 1999.

SEIDLHOFER, B. Understanding English as a lingua franca. Oxford, UK: Oxford, 2011.

SHEPHERD, T.M.G. O estatuto da linguística de corpus: Metodologia ou área da linguística?. Matraga, Rio de Janeiro, v.16, n. 24, jan./jun. 2009.

SINCLAIR, J. corpus, concordance, collocation. Oxford: Oxford University Press, 1991.

SLABAKOVA, Roumyana. Second language acquisition. Oxford: Oxford UniversityPress, 2016.

STUBBS, M. Notes on the History of corpus Linguistics and Empirical Semantics. Nenonen & S Niemi eds. Collocations and Idioms. Joensuu: Joensuun Yliopisto, 2007.

TOGNINI BONELLI, E. corpus Linguistics at Work. Amsterdam: John Benjamins, 2001. University Press, 2011.

VEIRANO PINTO, M., A linguagem dos filmes norte-americanos ao longo dos anos: uma abordagem multidimensional. Tese de Doutorado, PUC, São Paulo: 2013.