NURC
O projeto NURC (Norma Urbana Linguística Culta) teve seu início em 1969 com o objetivo de documentar
e estudar o Português falado por pessoas com alto grau de educação formal (uso da norma culta) de cinco capitais brasileiras:
Recife, Salvador, Rio de Janeiro, São Paulo e Porto Alegre. O projeto resultou em um grande corpora
(aproximadamente 1.570 horas de aúdio com 2.356 falantes) coletados ao longo das décadas de 1970 e 1980 e
sua coleção de registros orais tem sido utilizada em vários estudos de aspectos da
língua falada, tornando-se um dos corporas mais influentes na Linguística Brasileira.
NURC-SP
O NURC-SP teve grande impacto na história do NURC. Situado na Universidade de São Paulo
(USP-FFLCH-NURC),
foi um centro bastante ativo. Além de coletar mais de 300 horas de falantes paulistanos,
o grupo produziu 3 volumes contendo a transcrição de seu corpus compartilhado, também conhecido como corpus mínimo,
e uma série de 14 livros em diferentes tópicos, como léxico, relações entre escrita e fala, interação,
gêneros discursivos e textuais, polidez, variação linguística, comunicação, ensino, entre outros.
NURC-SP Digital
O NURC-SP Digital surge com a proposta de preparar e tornar acessível o corpus do NURC-SP
para atender as demandas atuais trazidas com o desenvolvimento da tecnologia.
Ele é parte do grande corpus
CORAA
(CORpus de Áudios Anotados) do projeto TaRSila no Centro de Inteligência Artificial (C4AI).
A disponibilização de dados de língua tornou-se uma necessidade não apenas para facilitar os estudos linguísticos,
mas também em pesquisa relacionada à Ciência da Computação, como por exemplo para o desenvolvimento de reconhecedores automáticos de fala
(ASR, em inglês) e sintetizadores de fala (TTS, em inglês).
O NURC-SP Digital fez uso da digitalização da coleção do NURC-SP realizada pelo
CEDAE
(Centro de Documentacão Cultural “Alexandre Eulalio”), cedida ao Projeto TaRSila em 2020,
e teve como base para seu protocolo de anotação o protocolo desenvolvido pelo
NURC-Digital
(projeto que criou metodologias e práticas específicas para gestão de registros sonoros resultantes da coleção do
NURC de Recife).
Além disso, incorpora pesquisa em processamento de fala (ASRs, TTSs) e
segmentação prosódica automática via alinhamento fonético forçado,
unindo conhecimentos das áreas de Linguística e de Computação através de sua equipe multidisciplinar.
NURC-SP Digital - Linha do tempo
-
Dezembro de 2020
Material digitalizado
- CEDAE fornece NURC-SP e CERTAS PALAVRAS para o projeto TaRSila.
-
1º Semestre de 2021
Preparação para anotação
- Início do Treinamento da Equipe de Anotadores no Protocolo NURC-DIGITAL
- Estudo de Alinhadores Forçados para CM e CATNA
-
2022
Transcrição automática
- Avaliação de modelos de ASRs para transcrever o Corpus de Áudios.
-
1º Semestre de 2023
Transcrição e Revisão
- Processamento do Corpus de Áudios com o WhisperX.
- Início da Revisão da transcrição automática (equipe: 9-14 bolsistas).
-
2º Semestre de 2023
Revisão e Portal
- Fim da revisão das transcrições do CM e do Corpus de Áudio.
- Desenvolvimento do Portal NURC-Digital no NILC/ICMC
- Migração do portal para C4AI