去英国读钢琴研究生好吗

来源：admin

2026-01-19 22:11:28

最难的编程题的通过率上去了6.3个百分点，数学题也有1.0到3.8个百分点的提升；还有生成速度，短文本到长文本的速度能快到十倍多，这些数字摆在眼前，不是小打小闹。简单来说，原来要十分钟才能跑完的活儿，有时候现在一两分钟就能搞定了。

这套方法来自英国国王学院一个研究团队，带头的是朱青林和姚奕真。论文在2025年10月发到arXiv（编号 arXiv:2510.11052v2），背后有阿斯利康制药公司人工智能中心、香港中文大学和阿兰图灵研究院的支持。团队给这套解码流程起了个名字，叫“潜在精炼解码”（Latent Refinement Decoding，简称LRD）。

他们做的实验挺扎实。用的是两类编程题（HumanEval、MBPP）和两类数学推理题（GSM8K、MATH500）。选了两类模型家族来测试：LLaDA（大约8亿参数）和Dream（大约7亿参数），每个家族都有基础版和指令调优版。结果显示，编程题上的提升最明显；速度方面，不同长度的文本加速效果差别很大：256字符段落大约能快1.2到2.4倍，512字符时在1.2到4.6倍之间，到了1024字符能见到1.7到10.6倍的提升。可以看出，长文本里提速更明显。

说技术细节的时候，用倒着说反而更好理解。LRD的核心是把生成过程分两步走。第一步不是马上把每个位置定成某个词，而是先让模型在每个位置上保留多个候选的混合表示，类似做填空题时先列出备选答案并给个置信度。团队用“熵”来量不确定性，把比较确定的候选往前推，那些犹豫的地方就先保留开放态。这样做的好处是，模型先做一个全局的、模糊的考虑，避免一开始就竖起“定论牌”。

到了第二步，系统开始逐步把那些比较有把握的位置固定下来，但对还不确定的位置继续保留混合状态。已经确定的词能当作更可靠的上下文，帮助剩下的位置做出更合理的选择。为了不多此一举，还有个“适应性停止”机制在盯着内部变化幅度：一旦内部想法不再大幅变动就可以提前结束迭代。通俗点说，难题多反复几次就行，简单题几步就稳了，省时省力。

他们还把每个模块拆开试了试，看看谁贡献最大。把“混合嵌入”拿掉影响最大，说明保持模糊候选这招很关键；要是把第一阶段砍掉，准确率会明显下滑；把适应性停止去掉，速度优势差不多也没了。对参数敏感性也做了测试，混合的强度得拿捏好：太弱又回到老路，太强则让模型犹豫得过头。一个有意思的发现是，混合里不需要很多候选，几个概率最高的选项就够用了，重点是保留那点灵活性。

把LRD放到更宽的技术图景里看，当前主流的自回归生成那种一句一句往外写的方法，优点是连贯性比较好，但速度慢。早前有些扩散型方法试图并行化，速度上有优势，可是容易前后不一致。LRD像是找了个中间路子：既能并行提升速度，又能避免过早定死答案带来的前后矛盾。实际观察里，多数问题在前两三步就已经收敛。以Dream做编程题为例，有68.9%在第2步就定下来了，超过85%在第3步内搞定。这说明给模型先做全局思考再局部敲定是行得通的。

还有几条现实层面的提醒。团队认为LRD适合结构化、容易验证的任务――编程、数学推理这类能用测试用例或明确答案核验的场景。对于创作类的开放任务，比如写小说或者即兴诗歌，这套办法还需要更多验证。部署上，LRD比传统自回归方法在系统复杂性上更有要求，硬件和软件的协调也更挑剔，这会影响它的落地速度。好消息是，LRD可以做成“插件式”模块，和现有系统搭配使用，但要想大规模部署，还得在系统级别做进一步优化，比如和KV缓存、推测性解码等技术配合起来。

从认知角度讲，这种做法有点像把人类的“先发散后收敛”思路搬进模型里：先保留多种可能，再慢慢把确定的部分钉死。对那些需要把全局信息考虑清楚的问题，这套路挺合适。论文里的实验数据也做得比较细致，各个组件贡献都能看得清清楚楚，读起来让人觉得方法靠谱，值得再往实践里推一把。

要是想看更具体的技术细节，可以直接翻 arXiv:2510.11052v2，那里面有更完整的实验表和算法步骤。

以上信息整理自网络，如需了解最新相关信息请咨询我们的在线客服~

上一篇：温哥华音乐学院录取要求
下一篇：香港理工大学服装设计学院排名

推荐课程

推荐课程

相关阅读