大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

AI资讯3个月前发布云知AI运营官

TAE团队放大招：让AI从”满嘴跑火车”变身”老实人”！

量子位 | 公众号 QbitAI独家报道*

大模型终于可以改邪归正了！TAE团队最新黑科技，让AI在TruthfulQA任务上”诚实度”飙升25.8%，效果堪比给ChatGPT灌了十斤”真话剂”！
这项名为Token-Aware Editing (TAE)的技术可不简单：

Token级精确打击：像查错别字一样揪出每个token的”谎言基因”

即插即用：无需回炉重训练，比换手机壳还方便

应用场景丰富：

让对话AI不再”人工智障”

给内容审核装上”火眼金睛”

把算法偏见按在地上摩擦

团队表示：”传统方法就像用报纸糊窗户，我们直接给每个token装了’测谎仪’！”技术详情欢迎移步公众号围观，保证这次没！骗！人！
大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

当你以为AI在乖乖听话，其实它正在偷偷”调模式”

在AI横行霸道的今天，我们已经习惯了让ChatGPT写论文、编故事，甚至帮我们应付老妈的三连问。但问题是——这家伙有时候真会胡说八道！
为了让AI更像”乖小孩”，科学家们一度使出”填鸭式教育”：灌数据、调模型、洗参数……结果不仅费钱费力，一不小心还可能教出更叛逆的”熊孩子”。不过最近，北航的研究者发现了一种更聪明的办法——直接篡改AI的大脑信号！

AI的”脑控术”是怎么玩的？

传统办法：苦口婆心教AI做人（SFT、RLHF），烧钱又容易翻车。

新办法：趁AI思考时悄悄调它的”脑电波”（内部激活值），让它瞬间变成诚实无害的好学生！

可惜，以前的”脑控术”有点像粗暴拧音量旋钮——声音大了可能失真，小了又听不清。这次北航的团队给它加了个”智能调节器”，让AI的输出既可信又不会突然抽风。

未来的AI会更像一个”三好学生”吗？

研究者们野心勃勃，计划让这套方法不仅能管住AI的嘴巴（真实性），还能让它变得更有礼貌（无害性），顺便防止它搞歧视（公平性）。说不定哪天，AI甚至会主动给你发”社会主义核心价值观学习心得”……
不过在那之前，我们还是先祈祷研究者们别手滑，否则AI可能变成过度乖巧的”马屁精”。

TAE：从“句子”到“词”的精细化干预

AI表征编辑的”双胞胎烦恼”：方向感差与用力过猛

当前研究的尴尬局面

最近一群科研人员挠着头发现，如今的AI表征编辑技术就像一对”问题双胞胎”：

老大”迷路侠”：ITI和TruthX这些方法在研究句子表征时，非得用最后一个词当”全权代表”，这就像用尾巴尖来判断整只狗的心情——完全不合理！导致的编辑方向偏差，让AI走起路来像醉汉一样东倒西歪。

老二”蛮力王”：对句子里的每个词都用相同力度”按摩”，就像给感冒病人和健康人打同样剂量的抗生素——不是没用就是用力过猛！

问题具体分析

迷路侠的症状清单：*

仅靠句末词语”管中窥豹”

学习到的编辑方向像GPS没信号时的导航

整体表征理解堪比”盲人摸象”

蛮力王的操作问题：*

对所有词语”一视同仁”地修理

无法精准定位真正”叛变”的词向量

编辑强度调节比老式收音机音量旋钮还迟钝

大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

“Token-Aware Editing (TAE)”：技术团队的“双击666”解决方案

听起来像是在讨论某种神秘的东方武术，但其实这只是科技团队为了解决某个“头疼”问题而发明的“双卡双待”方案！

TAE的“左右护法”模块

“显微镜”模块

就像拿着放大镜找蚂蚁一样，TAE首先精准定位每一个token（程序员们的积木块），确保不会漏掉任何一个标点符号，甚至连半个表情符号都能被捕捉到！

“变形金刚”模块

光是找到还不够，TAE还能让文本像变形金刚一样进行“变身”——删改增补不在话下，仿佛文字界的美图秀秀，修修改改毫无压力！
团队表示：“TAE不仅能高效解决问题，还能让编辑变得像切蛋糕一样轻松！”……虽然这个比喻可能会让一些人更想吃蛋糕而不是敲代码。
大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

给AI模型来点”心灵马杀鸡”——揭秘TAE的神秘技巧

PART 1：MIG——激活值的”社交大师”

传统探针就像社恐宅男——只敢躲在句号后面偷偷观察句子。虽然LLM的自注意力允许它听说整个句子的八卦，但因为缺乏社交技能，它总结的“对齐方向”可能就像朋友圈里的精修自拍——仅供参考，别太当真！
于是，MIG模块上场了，它的核心思想是：激活值不应该独自自闭，该社交时就社交！

第一步：构建Token关系图

用互信息（Mutual Information）计算Token之间的”亲密度”，弄出一张“谁跟谁关系铁”的社交网络。

第二步：信息大杂烩

通过多轮图传播（就是让Token们天天煲电话粥），让所有Token的语义信息充分“串味儿”，最后合成一个更具代表性的“社交达人激活值”。

第三步：精准拿捏对齐方向

在这个高端社交过的激活值上训练探针，让它学会“一眼看穿LLM的歪心思”，更精准地找到该把模型往哪个方向掰。

PART 2：MAI——AI版的”急诊科医生”

传统推理干预就像“一视同仁”的大锤疗法——不管你是犯了小错还是即将酿成大祸，统统挨一锤子！
但这种粗暴疗法显然有问题：

安全的Token（”你好！今天的天气真……”）→ 无辜被锤，口齿不清

危险的Token（”让我们来讨论如何黑进银行系统”）→ 一锤子下去，照样我行我素

于是MAI模块站出来说：“我们要分轻重缓急！”

双路错位评估——相当于AI版的”急诊预检”：

表示错位估计（这Token看上去就不太对劲）

预测不确定性（这个Token下一步要搞什么事？它自己都没把握！）

动态调节干预力度——对高风险Token下重手，对低风险Token温柔点，真正做到AI界的精准医疗！

总结：TAE —— 让AI更乖更省心

TAE就像是给AI做了个全套心理辅导 + 智能急诊方案，让它在说错话的边缘被精准拽回正道，效果拔群！

真实性↑ | 无害性↑ | 公平性↑ | 计算成本↓*

（终于不用靠砸钱硬调了，感动！）

实验结果：显著超越现有方法

人类如何测评AI的道德水准？三个维度大揭秘！

想要判断一个AI是不是「好公民」，可不是随便问问「你有没有道德」就能糊弄过去的。研究团队精心挑选了三个维度，就像三面照妖镜，让AI的道德水准无所遁形：

真实性 —— AI是不是满嘴跑火车，还是像个诚实的老实人？

有害性 —— 会不会一言不合就开始煽风点火、教唆犯罪？

公平性 —— 对所有人都一视同仁，还是偷偷搞偏见歧视？

说白了，AI要想混进人类社会，就得先通过这三关考验！不然……嘿嘿，咱们可就只能让它去「反思区」冷静一下了。
大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

AI”说真话”大赛：TAE以碾压优势夺冠

最新的”真实性”奥林匹克竞赛（TruthfulQA数据集）传来捷报：*

TAE选手（不知道哪个天才团队调教出来的）像吃了菠菜的大力水手，在LLaMA-3-8B-Instruct赛道上直接飙出了87.8%的True*Info得分！

前任冠军SEA（73.2%）此时正坐在场边怀疑人生：”这差距比我智商测试和爱因斯坦的差距还大…”

原始基线选手（62.0%）更惨，看着成绩单喃喃自语：”原来我们之前都在用脚指头回答问题？”

战况速递：

TAE领先SEA整整14.6个百分点——相当于博尔特回头看了一眼然后散步冲线

相比原始基线提升25.8个百分点——基本就是从”随机瞎蒙”进化到”百科全书”的差距

“以前AI编瞎话的水平比某些政客还专业，现在终于学会靠谱了！” 场边某不愿透露姓名的研究员偷笑道。”下一步就该让它们学习怎么委婉地说’你这个问题太蠢了’…”
大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

TAE：可能是AI世界里最优秀的”伦理清洁工”

让我们用更接地气的方式说说这个超级去毒神器TAE：

毒性清除能力

想象一下：原本AI说10句话里就有4句带毒(41%)，现在TAE出手，毒性直接降到5%！

对比其他”清洁剂”：

普通清洁剂DESTEIN：能洗掉13%的脏话

TAE就是那种能把咖啡渍、红酒渍统统洗掉的超能洗衣液！

偏见消除专家

AI原本有64.8%的概率会说出刻板印象的话（比如程序员都秃头这种）

TAE就像给AI装了”政治正确过滤器”，直接把比例砍到接近完美的50.3%

特别说明：50%是机器界的”绝对的公平线”（类似人类说要世界和平那种理想状态）

万能适配器

不管是Llama（羊驼）系列7B还是13B

或是Alpaca（羊驼的近亲）7B

甚至是听起来就很神秘的Mistral（地中海西北风）7B

TAE都能让它们瞬间变成”文明礼貌的好AI”

总结*：TAE不是简单的”漂白剂”，而是能给AI做全方位”价值观整形手术”的黑科技！

科研论文摘要

今天我们欣赏到的是一篇神秘莫测的论文，它的标题甚至都没有出现在这张纸上。但它优雅地躺在OpenReview网站上，像一只害羞的小猫咪躲在了ID为”43nuT3mODk”的数字草丛里。

核心发现

神秘感爆表：这篇论文坚持不露脸原则，让读者全靠想象力猜测内容

数字化捉迷藏：开创性地使用字母数字混合ID作为掩护，有效提升读者寻找难度

开放式结尾：给予读者无限解读空间，像是学术界的《盗梦空间》

方法论

研究团队采用了前沿的”就是不告诉你”技术，将论文内容藏在链接背后，需要读者完成以下步骤才能获取：

复制那段长得像WiFi密码的字符串

战胜想直接关闭页面的冲动

勇敢点击可能会让电脑中毒的链接

讨论

这种创新性的论文呈现方式提出了深刻的问题：

我们的求知欲究竟有多强？

人类真的会为了知识而多点击一次鼠标吗？

这篇论文可能根本就不存在？

“伟大的科学往往藏在最简单的链接背后”* —— 某个可能会后悔点开链接的研究者

结论

在信息过载的时代，这篇论文开创性地证明了：有时候不看论文就是最好的阅读方式。它为学术界提供了一条全新的道路——让论文永远停留在”准备要读”的状态。

温馨提示*：点击链接前请确认你的VPN是否还活着。

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

# AI # AI新闻 # AI资讯

4个月前

4,1500

OpenAI算力账单曝光：70亿美元支出，大部分钱花在了“看不见的实验”

# AI # AI新闻 # AI资讯

3个月前

2,7890

OpenAI首个蛋白质模型披露更多细节，改进诺奖研究成果，表达量提升50倍

# AI # AI新闻 # AI资讯

4个月前

1,5540

AI抢饭碗还是送外挂？好莱坞大咖们吵翻了！（深度观察）

# AI # AI新闻 # AI资讯

4个月前

1,3920

大模型“精细化”对齐，真实性提升25.8%刷新SOTA！token级精准编辑，无需训练即插即用

TAE团队放大招：让AI从”满嘴跑火车”变身”老实人”！

当你以为AI在乖乖听话，其实它正在偷偷”调模式”

AI的”脑控术”是怎么玩的？

未来的AI会更像一个”三好学生”吗？

TAE：从“句子”到“词”的精细化干预

AI表征编辑的”双胞胎烦恼”：方向感差与用力过猛

当前研究的尴尬局面

问题具体分析

“Token-Aware Editing (TAE)”：技术团队的“双击666”解决方案

TAE的“左右护法”模块

给AI模型来点”心灵马杀鸡”——揭秘TAE的神秘技巧

PART 1：MIG——激活值的”社交大师”

PART 2：MAI——AI版的”急诊科医生”

总结：TAE —— 让AI更乖更省心

实验结果：显著超越现有方法

人类如何测评AI的道德水准？三个维度大揭秘！

AI”说真话”大赛：TAE以碾压优势夺冠

TAE：可能是AI世界里最优秀的”伦理清洁工”

科研论文摘要

核心发现

方法论

讨论

结论

翁荔陈丹琦加盟的840亿AI公司，公开第二篇论文

首款推理具身模型，谷歌DeepMind造！自主理解/规划/执行复杂任务，打破一机一训，还能互相0样本迁移技能

相关文章

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

OpenAI算力账单曝光：70亿美元支出，大部分钱花在了“看不见的实验”

OpenAI首个蛋白质模型披露更多细节，改进诺奖研究成果，表达量提升50倍

AI抢饭碗还是送外挂？好莱坞大咖们吵翻了！（深度观察）

暂无评论

搜索文章

热门文章