2026-01-19 22:11:28
最难的编程题的通过率上去了6.3个百分点,数学题也有1.0到3.8个百分点的提升;还有生成速度,短文本到长文本的速度能快到十倍多,这些数字摆在眼前,不是小打小闹。简单来说,原来要十分钟才能跑完的活儿,有时候现在一两分钟就能搞定了。
这套方法来自英国国王学院一个研究团队,带头的是朱青林和姚奕真。论文在2025年10月发到arXiv(编号 arXiv:2510.11052v2),背后有阿斯利康制药公司人工智能中心、香港中文大学和阿兰图灵研究院的支持。团队给这套解码流程起了个名字,叫“潜在精炼解码”(Latent Refinement Decoding,简称LRD)。
他们做的实验挺扎实。用的是两类编程题(HumanEval、MBPP)和两类数学推理题(GSM8K、MATH500)。选了两类模型家族来测试:LLaDA(大约8亿参数)和Dream(大约7亿参数),每个家族都有基础版和指令调优版。结果显示,编程题上的提升最明显;速度方面,不同长度的文本加速效果差别很大:256字符段落大约能快1.2到2.4倍,512字符时在1.2到4.6倍之间,到了1024字符能见到1.7到10.6倍的提升。可以看出,长文本里提速更明显。
说技术细节的时候,用倒着说反而更好理解。LRD的核心是把生成过程分两步走。第一步不是马上把每个位置定成某个词,而是先让模型在每个位置上保留多个候选的混合表示,类似做填空题时先列出备选答案并给个置信度。团队用“熵”来量不确定性,把比较确定的候选往前推,那些犹豫的地方就先保留开放态。这样做的好处是,模型先做一个全局的、模糊的考虑,避免一开始就竖起“定论牌”。
到了第二步,系统开始逐步把那些比较有把握的位置固定下来,但对还不确定的位置继续保留混合状态。已经确定的词能当作更可靠的上下文,帮助剩下的位置做出更合理的选择。为了不多此一举,还有个“适应性停止”机制在盯着内部变化幅度:一旦内部想法不再大幅变动就可以提前结束迭代。通俗点说,难题多反复几次就行,简单题几步就稳了,省时省力。
他们还把每个模块拆开试了试,看看谁贡献最大。把“混合嵌入”拿掉影响最大,说明保持模糊候选这招很关键;要是把第一阶段砍掉,准确率会明显下滑;把适应性停止去掉,速度优势差不多也没了。对参数敏感性也做了测试,混合的强度得拿捏好:太弱又回到老路,太强则让模型犹豫得过头。一个有意思的发现是,混合里不需要很多候选,几个概率最高的选项就够用了,重点是保留那点灵活性。
把LRD放到更宽的技术图景里看,当前主流的自回归生成那种一句一句往外写的方法,优点是连贯性比较好,但速度慢。早前有些扩散型方法试图并行化,速度上有优势,可是容易前后不一致。LRD像是找了个中间路子:既能并行提升速度,又能避免过早定死答案带来的前后矛盾。实际观察里,多数问题在前两三步就已经收敛。以Dream做编程题为例,有68.9%在第2步就定下来了,超过85%在第3步内搞定。这说明给模型先做全局思考再局部敲定是行得通的。
还有几条现实层面的提醒。团队认为LRD适合结构化、容易验证的任务――编程、数学推理这类能用测试用例或明确答案核验的场景。对于创作类的开放任务,比如写小说或者即兴诗歌,这套办法还需要更多验证。部署上,LRD比传统自回归方法在系统复杂性上更有要求,硬件和软件的协调也更挑剔,这会影响它的落地速度。好消息是,LRD可以做成“插件式”模块,和现有系统搭配使用,但要想大规模部署,还得在系统级别做进一步优化,比如和KV缓存、推测性解码等技术配合起来。
从认知角度讲,这种做法有点像把人类的“先发散后收敛”思路搬进模型里:先保留多种可能,再慢慢把确定的部分钉死。对那些需要把全局信息考虑清楚的问题,这套路挺合适。论文里的实验数据也做得比较细致,各个组件贡献都能看得清清楚楚,读起来让人觉得方法靠谱,值得再往实践里推一把。
要是想看更具体的技术细节,可以直接翻 arXiv:2510.11052v2,那里面有更完整的实验表和算法步骤。