Em uma colaboração entre a Universidade de São Paulo (USP) através do Centro de Inteligência Artificial (C4AI) e a IBM Research, está em andamento um projeto que utiliza a inteligência artificial (IA) para a preservação e o fortalecimento das línguas indígenas do Brasil. Ainda em seus estágios iniciais, a iniciativa busca criar e aprimorar ferramentas impulsionadas pela tecnologia para auxiliar na documentação, proteção e promoção dessas línguas, em parceria com as comunidades indígenas.
A inspiração para o projeto surgiu aproximadamente um ano atrás, quando o vice-diretor do C4AI, Claudio Pinhanez, estabeleceu um contato pessoal com a comunidade indígena da Terra Indígena Tenonde Porã, localizada no sul da cidade de São Paulo. Dentro do ambiente de pesquisa da IBM, essa ideia foi desenvolvida. O professor, que lidera o projeto juntamente com a professora Luciana Storto da Faculdade de Filosofia, Letras e Ciências Humanas (FFLCH) da USP, reconheceu na comunidade um ambiente propício para a exploração de soluções tecnológicas em prol das línguas indígenas.
“Como é que a gente mantém vivas essas línguas? No Brasil, a gente tem em torno de 200 línguas faladas hoje, e metade tem chance de desaparecer nos próximos 20 a 50 anos. Cada língua que se perde é como se tratorasse um sítio arqueológico. É a imagem que tem que fazer. Imagina que você tem um sítio arqueológico onde existe uma cultura e alguém passa o trator lá em cima. Isso é perder uma língua, é perder um jeito de pensar, um jeito de ver o mundo, o conhecimento sobre o mundo etc”, questiona Pinhanez.
Ele enfatiza que as línguas indígenas enfrentam a ameaça da extinção quando os jovens deixam de usá-las. Este projeto, aliando-se à tecnologia, desempenha um papel crucial no fortalecimento e revitalização dessas línguas, incentivando seu uso mais amplo. Além disso, oferece um auxílio valioso aos linguistas na documentação das línguas que estão em processo avançado de extinção, tornando o processo mais eficiente.
Parceria
Por essa razão, o projeto estabeleceu uma parceria com as escolas dentro da comunidade da Terra Indígena Tenonde Porã. Embora as crianças e jovens da comunidade falem fluentemente a língua guarani mbya e a considerem sua língua materna, eles enfrentam desafios na escrita.
Portanto, a comunidade e o centro de pesquisa decidiram realizar oficinas semanais, com duração de uma a duas horas, envolvendo estudantes e professores do ensino médio. O objetivo dessas oficinas é desenvolver as habilidades de escrita e o processo de documentação da língua. O vice-diretor do C4AI explica: "Eles compreendem as nossas dificuldades, oferecem sugestões e estamos em processo de aprimoramento contínuo. Temos um protótipo em estágio inicial com funcionalidades básicas, mas reconhecemos a necessidade de expandir essas ferramentas para dispositivos móveis e computadores".
“Jovens de muitas dessas línguas estão na internet, a gente também tem que pensar como eles vão falar no WhatsApp, como eles vão falar essa língua nos vídeos deles no YouTube e assim por diante. Um deles é influencer no TikTok, o outro faz rap, tem rap em guarani no YouTube”, conta. Segundo ele, a internet não é acolhedora para uma linguagem indígena, porque a função de busca não funciona para a língua deles. “Fazer uma busca no YouTube não funciona, ele acha que é árabe, não acha que é a língua deles. Na hora de escrever, o WhatsApp fica tentando completar em português, em árabe, tudo menos na língua dele”, informa Pinhanez.
Inteligência Artificial
A inteligência artificial, com enfoque na área de Processamento de Linguagem Natural (PLN), desempenhará um papel crucial na criação de sistemas de conversão de fala para texto e vice-versa. Além disso, ela contribuirá para o desenvolvimento de ferramentas de tradução e enriquecimento de vocabulário, aprimorando programas de coleta e análise linguística. Isso inclui sistemas de transcrição fonética, tradução automática, análise gramatical e a criação de dicionários digitais.
Além disso, essas línguas indígenas serão incorporadas às redes sociais e serão utilizadas em conjunto com chatbots voltados para a educação das comunidades indígenas. Esses avanços tecnológicos têm o potencial de serem aplicados de forma significativa na preservação das línguas nativas.
Ele ressalta que atualmente têm um projeto ativo na área de processamento de texto e estão iniciando um projeto na área de síntese de texto para voz. "Quando mencionamos síntese de texto para voz, estamos buscando tornar a tecnologia de computação acessível para aqueles que falam a língua, mas não dominam a leitura. Por exemplo, imagine receber uma mensagem escrita no WhatsApp, mas você não lê, você fala. Você aperta um botão e a mensagem é transcrita para aquela língua em forma de voz, ou é convertida para o menu de um computador, um aplicativo ou um site. Isso é relevante também porque é um desafio comum; metade das línguas no Brasil possui uma forma de escrita relativamente estabelecida, mas a quantidade de indígenas capazes de ler e escrever em sua própria língua é limitada", enfatiza o cientista.
A equipe do projeto está desenvolvendo um corretor ortográfico, completador de palavra, de sentença e tradutor, dado um modelo calibrado de IA, através de grandes modelos que foram tratados com milhões de frases de muitas línguas, além de calibrar com outros materiais que procuram no dicionário, nos websites e textos. “Eles riem do tradutor, brincam, ‘mas olha, acertou ali’. A gente vai encontrando a maneira, não é só a tecnologia, é como colocar essa tecnologia na mão desses jovens e depois de toda a comunidade”.
Próximos Desafios
Pinhanez observa que atualmente o site da Fundação Nacional do Índio (FUNAI) não disponibiliza traduções em nenhuma língua indígena, incluindo a Constituição Brasileira e o Estatuto do Índio. Ele enfatiza que não é possível falar em preservação, manutenção e fortalecimento de uma língua sem estabelecer presença na internet e no mundo digital.
Além disso, ele aguarda com expectativa o próximo desafio, que ainda não começaram a abordar: permitir que essas comunidades continuem a se desenvolver. Para isso, é fundamental investigar como levar a computação até essas comunidades e como capacitar os jovens locais a preservarem suas próprias ferramentas linguísticas, incluindo a aprendizagem da computação.
“A ideia básica é fazer com que essas línguas fiquem mais fortes, ou seja, mais gente fale essas línguas. É lógico que o espectro das comunidades indígenas é muito grande, vai desde povos que tiveram pouquíssimo contato até povos que estão em ambientes urbanos, como esses guaranis, mas o caminho é sempre fortalecer. Não vamos deixar esse patrimônio se perder”, expõe.
Ele relembra um trecho da música do cantor e compositor Caetano Veloso, “Língua”, “só é possível filosofar em alemão”, fazendo uma comparação ao projeto. “A gente não sabe se alguma dessas línguas têm mecanismos, têm jeitos de representar as coisas que, por exemplo, ajude a gente a entender depressão, entender autismo, entender uma série de processos mentais. Pode ser que tenham jeitos melhores de pensar para certas situações da vida”, sugere.
O cientista estima que o projeto terá uma duração de aproximadamente um a dois anos, com os primeiros protótipos de pesquisa previstos para testes no segundo semestre de 2023. Ele tem a intenção de utilizar os resultados desse trabalho como base para a criação de modelos de código aberto (open source), permitindo que outras comunidades apliquem esses conceitos a diversas línguas no Brasil. Inicialmente, estão explorando outras comunidades próximas à região de São Paulo, e, por esse motivo, ainda não há previsão quanto ao número e quais línguas serão incorporadas ao projeto, além da língua guarani mbya.
A equipe envolvida no projeto é diversificada, composta por pesquisadores, professores, estudantes bolsistas, profissionais técnicos e estagiários. O projeto conta com o apoio da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp) e inclui um bolsista de pós-doutorado, quatro bolsistas de graduação e um bolsista para auxílio técnico do C4AI. Da IBM Research, participam um engenheiro de software, um doutorando e dois estagiários de graduação.
É importante ressaltar que o C4AI e a IBM Research estão ativamente buscando novos membros para integrar a equipe, incluindo professores, profissionais, estudantes e membros de comunidades indígenas. A ideia é que o projeto conte com a participação de indígenas desempenhando papéis diversos, como professores, linguistas, programadores, profissionais de TI e tradutores.
Fonte: Mobiletime