南科大荆炳义课题组发布34B Chat模型，具备超强多轮对话能力

深圳特区报

深圳市委机关报，改革开放的窗口

摘要

SUS-Chat-34B，成为目前最具优势的开源34B指令微调模型之一。

近日，南科大统计与数据科学系讲席教授、大数据创新中心荆炳义课题组和粤港澳大湾区数字经济研究院（IDEA）认知计算与自然语言中心（CCNL）联合发布开源34B通用Chat模型：SUS-Chat-34B，在由美国Hugging Face社区支持的、致力于追踪、排名和评估大语言模型性能的开放大语言模型排行榜（Open LLM Leaderboard）中占据榜首，成为目前最具优势的开源34B指令微调模型之一。

该项目由南方科技大学统计与数据科学系讲席教授、大数据创新中心荆炳义、课题组研究学者南科大2018级校友谢泽健、张松昕，IDEA研究院认知计算与自然语言研究中心相关算法负责人宋卓洋、资深算法研究员何峻青牵头完成。

高质量训练数据迭代，助力模型综合能力提高

随着人工智能技术的快速发展，AI的多任务学习能力和泛化能力日益增强，实现AI系统目标与人类价值观和利益相对齐，成为AI研究领域中的重要议题。而指令微调往往被认为是模型能够正确接受指令给出恰当反馈、与人类面对问题的思考方式进行对齐的重要过程，也是大模型从只具有模仿能力到真正可以理解人类意图的关键步骤。指令微调涉及到高质量的人类指令数据收集和整理，对于340亿参数的模型来说，并非普通学术机构可轻易承担。

然而，在SUS-Chat-34B模型的训练中，荆炳义课题组和CCNL中心通力合作，借由CCNL中心提供的大规模计算集群和合作开发的高性能训练框架，将整个训练的成本有效控制在了可接受的范围。课题组在对指令数据的整理和筛选中做了大量的研究工作，根据小规模数据的实验构建了相关模型，并从中挑选出了最能提升模型思维能力尤其是逻辑能力的百万级别模型。通过这一过程，成功改善了模型对人类指令的响应方式，让模型能够通过思维链等方式模仿人类思考过程。

经过课题组多日的训练，SUS-Chat-34B在几乎所有评估模型的benchmark（基础比较对象）上都有大幅度的提升，取得了同尺寸开源模型中的最高分，甚至与具有720亿参数的更大尺寸开源模型相比，也都有亮眼的表现。

在训练数据迭代的过程中，课题组采用了一种精细化的筛选方法，以提炼出与模型能力最相关的数据子集。这一过程涉及对上亿条指令文本数据的深度分析和挑选，课题组在100亿参数级别的模型上进行了快速多次实验，根据通用任务榜单的综合性能标准，确定最优的数据分布。

这样的策略使得数据组成更加精确地对应模型的发展需求，为其提供了高质量的训练资源。这种方法确保数据在数量、质量上都能符合模型提升的关键需求，特别是在增强模型的语言理解和响应能力方面。通过这种策略，模型能更有效地学习和适应复杂的语言模式和指令，从而在各种评估中表现出更高的性能和更强的适应能力。

课题组在评测模型的关键性语言能力过程中，建立了广泛的基准测试，并开放了一个易于使用的评测框架开源TLEM工具。

使用人类思考方式，提升模型知识问答能力

一般SFT模型相比于Few-shot的预训练模型，往往在多数benchmark（基础比较对象）上会有所下降，被称为“对齐税（Alignment Tax）”。SUS-Chat-34B模型在部分指标上也表现出了这一点，但课题组在训练时加入了类似人类思考过程的数据，如在回答问题时先分析问题、规划解决方案，使模型在指令对齐中学会了用人类的逻辑思维方式思考。因此，SUS-Chat-34B在多数指标，尤其是涉及数理逻辑的基准测试中，通过更加正确的思考方式，有效缓解了与人类指令对齐带来的模型性能降低，甚至在部分基准测试中获得了相比于预训练模型Fewshot更高的得分。这一现象打破了工业界大型语言模型训练中“对齐税普遍存在”的认知，为模型训练提供了新的思路和借鉴。

SUS-Chat-34B模型在HuggingFace Open LLM Leaderboard上取得了34B模型上最好的成绩，在全部模型中仅次于榜单第一名的tigerbot-70B-Chat。此外，在权威推理评测集GSM8k中，SUS-Chat-34B在所有模型中排名第一，超过了仅用MetaMathQA数据集微调的MetaMath-Mistral-7B，这充分说明了模型思维能力的提升对模型在各项涉及逻辑的基准测试中的表现所起到的重大影响，同时也有力证明了对齐阶段不只有与“对齐税”带来的代价，更有因为与人类思维方式对齐带来的性能提升。

南方科技大学大数据创新中心荆炳义课题组成员,前排林聪（左）、荆炳义教授（中）、张松昕（右），后排宋卓洋（左）、谢泽健（右）