基于神经网络的医疗文本分类研究

计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (06): 1116-1122.

基于神经网络的医疗文本分类研究

许浪1,2，李代伟1,2，张海清1,2，唐聃1,2，何磊1,2，于曦3

（1.成都信息工程大学软件工程学院，四川成都 610225；
2.四川省信息化应用支撑软件工程技术研究中心，四川成都 610225；3.成都大学斯特灵学院，四川成都 610106）

收稿日期:2022-09-27 修回日期:2022-11-15 接受日期:2023-06-25 出版日期:2023-06-25 发布日期:2023-06-16
基金资助:
欧盟项目（598649-EPP-1-2018-1-FR-EPPKA2-CBHE-JP）;国家自然科学基金(61602604);四川省科技厅项目（2021YFH0107,2022YFS0544,2022NSFSC0571）

Medical text classification based on neural network

XU Lang1,2,LI Dai-wei1,2,ZHANG Hai-qing1,2,TANG Dan1,2,HE Lei1,2,YU Xi3

（1.School of Software Engineering,Chengdu University of Information Technology,Chengdu 610225;
2.Sichuan Province Engineering Technology Research Center of
Support Software of Informatization Application,Chengdu 610225;
3.Stirling College,Chengdu University,Chengdu 610106,China）

Received:2022-09-27 Revised:2022-11-15 Accepted:2023-06-25 Online:2023-06-25 Published:2023-06-16

摘要/Abstract

摘要： 传统的医学文本数据分类方法忽略了文本的上下文关系，每个词之间相互独立，无法表示语义信息，文本描述和分类效果差；并且特征工程需要人工干预，因此泛化能力不强。针对医疗文本数据分类效率低和精度低的问题，提出了一种基于Transformer双向编码器表示BERT、卷积神经网络CNN和双向长短期记忆BiLSTM神经网络的医学文本分类模型CMNN。该模型使用BERT训练词向量，结合CNN和BiLSTM，捕捉局部潜在特征和上下文信息。最后，将CMNN模型与传统的深度学习模型TextCNN和TextRNN在准确率、精确率、召回率和F1值方面进行了比较。实验结果表明，CMNN模型在所有评价指标上整体优于其他模型，准确率提高了1.69%~5.91%。

关键词: 自然语言处理, 医疗文本分类, BERT, CNN, BiLSTM

Abstract: The traditional medical text data classification methods ignore the context of the text. Each word is independent of each other and cannot represent semantic information. The text description and classification effect are poor, and feature engineering requires manual intervention, so the generalization ability is not strong. Aiming at the problems of low efficiency and low accuracy of medical text data classification, this paper proposes a medical text classification model CMNN based on bidirectional encoder representations from Transformer(BERT), convolutional neural network (CNN) and Bi- directional long and short-term memory (BiLSTM) neural network. The model uses BERT to train word vectors and combines CNN and BiLSTM to capture local latent features and contextual information. Finally, the proposed model is compared with the traditional deep learning models TextCNN and TextRNN in terms of accuracy, precision, recall and F1 score. The experimental results show that the CMNN model outperforms other models on all evaluation metrics, and the accuracy is improved by 1.69%~5.91%.

Key words: natural language processing, medical text classification, BERT, CNN, BiLSTM

许浪, 李代伟, 张海清, 唐聃, 何磊, 于曦. 基于神经网络的医疗文本分类研究[J]. 计算机工程与科学, 2023, 45(06): 1116-1122.

XU Lang, LI Dai-wei, ZHANG Hai-qing, TANG Dan, HE Lei, YU Xi. Medical text classification based on neural network[J]. Computer Engineering & Science, 2023, 45(06): 1116-1122.

编辑推荐

Metrics

阅读次数

全文

394

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	394

来源	本网站	其他网站

次数	294	100
比例	75%	25%

摘要

374

最新录用	在线预览	正式出版

0	0	373

	来源	本网站

	次数	374
	比例	100%

[1]	高颖颖, 田野. 基于分数阶2D-TFCDM映射和改进的Hilbert曲线置乱的图像加密算法[J]. 计算机工程与科学, 2025, 47(01): 66-74.
[2]	李公瑾, 邵玉斌, 杜庆治, 龙华, 马迪南 . 基于双向胶囊网络的恶意评论检测[J]. 计算机工程与科学, 2024, 46(10): 1765-1774.
[3]	冯兴杰, 曹若轩. 融合特征投影和负监督的文本分类[J]. 计算机工程与科学, 2024, 46(10): 1864-1874.
[4]	徐捷, 邵玉斌, 杜庆治, 龙华, 马迪南. 结合混合特征提取与深度学习的长文本语义相似度计算[J]. 计算机工程与科学, 2024, 46(08): 1513-1520.
[5]	张玉莹, 朱广丽, 谈光璞, . 基于情感增强和语义依存的金融隐式情感分析模型[J]. 计算机工程与科学, 2024, 46(06): 1112-1120.
[6]	陈璐, 董凌, 王文君, 王剑, 余正涛, 高盛祥, . 融合音素的缅甸语语音识别文本纠错[J]. 计算机工程与科学, 2024, 46(06): 1121-1127.
[7]	佟缘, 姚念民. 基于对span的预判断和多轮分类的实体关系抽取[J]. 计算机工程与科学, 2024, 46(05): 916-928.
[8]	许莉芬, 曹霑懋, 郑明杰, 肖博健. 基于用户权威度和多特征融合的微博谣言检测模型[J]. 计算机工程与科学, 2024, 46(04): 752-760.
[9]	张骞, 陈紫强, 孙宗威, 赖镜安. 融合高分辨率网络的雾天目标检测算法[J]. 计算机工程与科学, 2023, 45(11): 1970-1981.
[10]	罗晓霞, 邓勇, 叶鸥. 复杂场景中多阶段自适应帽子检测算法[J]. 计算机工程与科学, 2023, 45(07): 1253-1262.
[11]	梁毅, 吐尔地·托合提, 艾斯卡尔·艾木都拉, . 多层CNN特征融合及多分类器混合预测的多模态虚假信息检测#br#[J]. 计算机工程与科学, 2023, 45(06): 1087-1096.
[12]	邓姗姗, 黄慧, 马燕. 基于改进Faster R-CNN的小目标检测算法[J]. 计算机工程与科学, 2023, 45(05): 869-877.
[13]	梅侠峰, 吴晓鸰, 黄泽民, 凌捷. 融合RoBERTa的多尺度语义协同专利文本分类模型[J]. 计算机工程与科学, 2023, 45(05): 903-910.
[14]	杜洁, 骆力明, 孙众. 基于ALBERT预训练模型的事件抽取技术研究[J]. 计算机工程与科学, 2023, 45(04): 711-717.
[15]	杨春霞, 姚思诚, 宋金剑, . 基于词共现的方面级情感分析模型[J]. 计算机工程与科学, 2022, 44(11): 2071-2079.