O acervo do NURC-SP Digital é composto por três corpora: Corpus Mínimo, CATNA e Corpus de Áudios, disponíveis sob os termos da licença
Creative Commons CC BY-NC-ND 4.0 license. Cada corpus é composto por inquéritos (gravações de conversas/exposições) realizadas na década de 70 e 80, durante o período de coleta do projeto NURC.
O CATNA (Corpus de Áudios e Transcrições Não-Alinhadas) contém 26 inquéritos. Foi segmentado automaticamente por um método heurístico (Biron et al., 2021) que usa descontinuidades na taxa de fala e pausas silenciosas, adaptado para o português do Brasil, e foi revisado manualmente pelos bolsistas do projeto Tarsila. Atualmente, 14 inquéritos estão ainda sendo revisados. (Biron et al., 2021) - Tirza Biron, Daniel Baum, Dominik Freche, Nadav Matalon, Netanel Ehrmann, Eyal Weinreb, David Biron, and Elisha Moses. 2021. Automatic detection of prosodic boundaries in spontaneous speech. PLoS ONE, 16(5):1–21
Material: O material de cada inquérito compreende os seguintes arquivos:
arquivos de áudios (formato mp3 e wave),
arquivo de transcrição (formato txt e/ou pdf)
e arquivo de alinhamento entre a transcrição e o áudio (formato TextGrid). Para acessar os arquivos click no inquérito desejado.
Filtro: Os inquéritos também foram classificados de acordo com as características dos participantes e as condições da gravação.
Você pode filtrar o material desejado com base nestas informações.
Para saber mais detalhes sobre a classificação de cada inquérito e as legendas utilizadas, acesse a página Informações no menu Corpora ou
acesse aqui.
Busca: No menu Busca é possível pesquisar um termo dentro das transcrições.
Digite um termo para selecionar os inquéritos que contenham aquele termo na transcrição.