Corpus construction for Tibetan voiceprint recognition

Computer Engineering & Science

Previous Articles Next Articles

Corpus construction for Tibetan voiceprint recognition

ZHOU Yan,Shereb Dorje

(Research Center of Tibetan Information Technology,Tibet University,Lhasa 850000，China)

Received:2017-06-15 Revised:2017-12-08 Online:2018-11-25 Published:2018-11-25

Abstract

Abstract:

Research on Tibetan voiceprint recognition technology has just started, and it is an urgent and necessary task to establish a corpus. We design and build a corpus based on the characteristics of Tibetan language, which consists of two parts: textdependent part and textindependent part. Texts of the corpus are collected from a variety of materials, including newspaper, literature, education, science and technology, Buddhism, and history and traditional culture. As for the recording part, we invite 50 speakers from different regions of Tibet. The corpus contains 9500 speech files and it lays a certain foundation for Tibetan voiceprint recognition.

Key words: Tibetan, voiceprint recognition, corpus

ZHOU Yan,Shereb Dorje. Corpus construction for Tibetan voiceprint recognition[J]. Computer Engineering & Science.

[1]	TIAN Yonghong, ZHANG Junjin, SONG Zheyu. Construction of Mongolian-Chinese pseudo-parallel corpus enhanced by noisy data [J]. Computer Engineering & Science, 2025, 47(04): 751-760.
[2]	GU Tao-tao, LU Shuai-bing, LI Xiang, KUANG Xiao-hui, ZHAO Gang. Overview of parallel fuzzing [J]. Computer Engineering & Science, 2022, 44(06): 1046-1055.
[3]	ZHANG Yu-jie, ZHANG Zan. Application of DenseNet in voiceprint recognition [J]. Computer Engineering & Science, 2022, 44(01): 132-137.
[4]	ZHU Qianqian, CHE Wengang, MIAO Han. An implementation method of diversified fonts in digital Tibetan ancient books#br# #br# [J]. Computer Engineering & Science, 2020, 42(11): 2073-2079.
[5]	XIA Wu-ji1,2，HUAQUE Cai-rang1. Semantic dependence analysis of Tibetan based on projection [J]. Computer Engineering & Science, 2019, 41(10): 1868-1873.
[6]	XIA Wuji1,2，HUAQUE Cairang1. Automatic translation between Arabic numerals and Tibetan numerals based on finite state automata [J]. Computer Engineering & Science, 2018, 40(03): 550-554.
[7]	LIU Lu-fang1,LI Bo1,CHEN Peng1,ZHOU Ling-han1,WANG Bing2. Bilingual lexicon extraction based on word vector and comparable corpus [J]. Computer Engineering & Science, 2018, 40(02): 368-373.
[8]	WANG Yuelong. Construction of graded spoken interaction corpus of Mandarin Chinese [J]. J4, 2016, 38(02): 395-400.
[9]	WANG Shihong,NIU Yun. A weighting method of emotion words based on the level of arousal [J]. J4, 2016, 38(02): 386-394.
[10]	ZHANG Jinpeng1,2,ZHOU Lanjiang1,2,XIAN Yantuan1,2,YU Zhengtao1,2,HE Silan3. Distributed representation of Chinese and Thai words based on cross-lingual corpus [J]. J4, 2015, 37(12): 2358-2365.
[11]	HUI Haotian，LI Yunjian，QIAN Longhua，ZHOU Guodong. A ChineseEnglish parallel corpus for information extraction [J]. J4, 2015, 37(12): 2331-2338.
[12]	HUANG Yilong,LI Peifeng,ZHU Qiaoming. Construction and its recognition of Chinese relevant event [J]. J4, 2015, 37(12): 2306-2311.
[13]	ROU Te. Research on question classification of Tibetan question-answering system [J]. J4, 2015, 37(07): 1393-1398.
[14]	LI Guanyu,YU Hongzhi,WU Zhiqiang. An automatic phoneme segmentation method in continuous Tibetan language under the condition of resourcedeficiency [J]. J4, 2014, 36(10): 2009-2013.
[15]	YANG Xianze,CHEN Yihong. Analysis and research of Chinese-Tibetan machine translation features and handwritten Chinese characters segmentation [J]. J4, 2014, 36(08): 1595-1598.

Corpus construction for Tibetan voiceprint recognition

PDF

Knowledge

Abstract

Cite this article

share this article

Related Articles 15

Recommended Articles

Metrics

Comments