NURC

O projeto NURC (Norma Urbana Linguística Culta) teve seu início em 1969 com o objetivo de documentar e estudar o Português falado por pessoas com alto grau de educação formal (uso da norma culta) de cinco capitais brasileiras: Recife, Salvador, Rio de Janeiro, São Paulo e Porto Alegre. O projeto resultou em um grande corpora (aproximadamente 1.570 horas de aúdio com 2.356 falantes) coletados ao longo das décadas de 1970 e 1980 e sua coleção de registros orais tem sido utilizada em vários estudos de aspectos da língua falada, tornando-se um dos corporas mais influentes na Linguística Brasileira.

NURC-SP

O NURC-SP teve grande impacto na história do NURC. Situado na Universidade de São Paulo (USP-FFLCH-NURC), foi um centro bastante ativo. Além de coletar mais de 300 horas de falantes paulistanos, o grupo produziu 3 volumes contendo a transcrição de seu corpus compartilhado, também conhecido como corpus mínimo, e uma série de 14 livros em diferentes tópicos, como léxico, relações entre escrita e fala, interação, gêneros discursivos e textuais, polidez, variação linguística, comunicação, ensino, entre outros.

NURC-SP Digital

O NURC-SP Digital surge com a proposta de preparar e tornar acessível o corpus do NURC-SP para atender as demandas atuais trazidas com o desenvolvimento da tecnologia. Ele é parte do grande corpus CORAA (CORpus de Áudios Anotados) do projeto TaRSila no Centro de Inteligência Artificial (C4AI).

A disponibilização de dados de língua tornou-se uma necessidade não apenas para facilitar os estudos linguísticos, mas também em pesquisa relacionada à Ciência da Computação, como por exemplo para o desenvolvimento de reconhecedores automáticos de fala (ASR, em inglês) e sintetizadores de fala (TTS, em inglês). O NURC-SP Digital fez uso da digitalização da coleção do NURC-SP realizada pelo CEDAE (Centro de Documentacão Cultural “Alexandre Eulalio”), cedida ao Projeto TaRSila em 2020, e teve como base para seu protocolo de anotação o protocolo desenvolvido pelo NURC-Digital (projeto que criou metodologias e práticas específicas para gestão de registros sonoros resultantes da coleção do NURC de Recife). Além disso, incorpora pesquisa em processamento de fala (ASRs, TTSs) e segmentação prosódica automática via alinhamento fonético forçado, unindo conhecimentos das áreas de Linguística e de Computação através de sua equipe multidisciplinar.

NURC-SP Digital - Linha do tempo

  • Dezembro de 2020
    Material digitalizado
    - CEDAE fornece NURC-SP e CERTAS PALAVRAS para o projeto TaRSila.
  • 1º Semestre de 2021
    Preparação para anotação
    - Início do Treinamento da Equipe de Anotadores no Protocolo NURC-DIGITAL
    - Estudo de Alinhadores Forçados para CM e CATNA
  • 2022
    Transcrição automática
    - Avaliação de modelos de ASRs para transcrever o Corpus de Áudios.
  • 1º Semestre de 2023
    Transcrição e Revisão
    - Processamento do Corpus de Áudios com o WhisperX.
    - Início da Revisão da transcrição automática (equipe: 9-14 bolsistas).
  • 2º Semestre de 2023
    Revisão e Portal
    - Fim da revisão das transcrições do CM e do Corpus de Áudio.
    - Desenvolvimento do Portal NURC-Digital no NILC/ICMC
    - Migração do portal para C4AI