• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (8): 1503-1510.

• 人工智能与数据挖掘 • 上一篇    下一篇

基于藏字构件的低资源多方言藏语语音合成方法研究

王嘉文1,2,高定国1,2,尼琼1,2,巴果1,2   

  1. (1.西藏大学信息科学技术学院,西藏 拉萨 850000;
    2.西藏大学藏文信息技术创新人才培养示范基地,西藏 拉萨 850000)

  • 收稿日期:2024-02-05 修回日期:2024-05-29 出版日期:2025-08-25 发布日期:2025-08-27
  • 基金资助:
    国家自然科学基金(62166038);四川省科技计划(2023YFQ0044);西藏大学高水平人才培养计划(2021-GSP-S126)

Low-resource multi-dialect Tibetan synthesis method based on Tibetan character components

WANG Jiawen1,2,GAO Dingguo1,2,NI Qiong1,2,BA Guo1,2   

  1. (1.College of Information Science and Technology,Tibet University,Lhasa 850000;
    2.Tibetan Information Technology Innovative Talent Cultivation Demonstration Base,Tibet University,Lhasa 850000,China)
  • Received:2024-02-05 Revised:2024-05-29 Online:2025-08-25 Published:2025-08-27

摘要: 藏语语音合成是人工智能领域的一个重要研究方向,对推动藏语语言信息处理的发展和创新具有重要意义。针对藏语语音语料稀缺、文本复杂以及方言多样的合成难点,首先提出了一种基于藏字构件的语料处理方法,以减少文本处理的难度;其次采用端到端的语音合成模型,探讨了2种低资源的多方言藏语合成方案。实验结果表明,所提方法通过混合数据集训练能够实现单一模型对多方言的语音合成,提高语音的自然度和表现力,达到了平均MOS为 4.56 的语音质量。

关键词: 藏字构件, 低资源, 多方言, 藏语, 语音合成

Abstract: Tibetan synthesis is an important research direction in the field of artificial intelligence,which has significant implications for promoting the development and innovation of Tibetan language information processing.This paper proposes a corpus processing method based on Tibetan character components,aiming to reduce the difficulty of text processing,and adopts an end-to-end speech synthesis model to explore two low-resource multi-dialect Tibetan synthesis schemes.The experiments show that the proposed method can achieve multi-dialect speech synthesis with a single model trained on mixed datasets,improve the naturalness and expressiveness of speech,and achieve an average MOS of 4.56 for speech quality.


Key words: Tibetan character component, low-resource, multi-dialect, Tibetan, speech synthesis