计算机工程与科学 ›› 2026, Vol. 48 ›› Issue (2): 268-276.
付启航,秦永彬,黄瑞章,周裕林,胡青青
FU Qihang,QIN Yongbin,HUANG Ruizhang,ZHOU Yulin,HU Qingqing
摘要: 近年来,大语言模型在司法领域展现出广阔前景,但在知识密集型推理与复杂逻辑判断的司法问答任务中,仍存在推理能力不足、法律知识运用不精准等挑战。为此,提出了一种“思考推理”解耦的多阶段协同推理框架DCRF,通过微调轻量级“思考者”生成高层次思维链,为下游推理提供策略引导;再由未经微调的Qwen1.5-14B-Chat“推理者”,在检索增强生成机制及相关法律条文的辅助下,展开细粒度逻辑推理。该框架实现了策略层与推理执行的协同,显著提升了模型调用法律知识的灵活性和准确性,同时避开大模型高成本微调,降低了训练开销。在JEC-QA,DISC-Law-Eval Benchmark等数据集上,DCRF在单选题准确率较基线模型平均提升9.77个百分点,在多选题F1分数上平均提升7.48个百分点;其中,单选超越DeepSeek-R1-Distill-Qwen-14B,多选表现与其相当。实验结果表明,DCRF在降低训练成本的同时,有效强化了大语言模型的司法推理能力。