4,852
0

阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

阿里通义大模型团队半夜搞事!连放三颗”AI炸弹”

深夜突然发动”AI起义”

9月23日的深夜,当大多数人正准备和周公约会的时候,阿里通义大模型团队突然化身”AI界的007″,悄咪咪地丢出了三个超能大招,直接把AI圈的同行们震得睡不着觉!

三颗”AI炸弹”究竟多猛?

1. Qwen3-Omni:全宇宙的模态我都能吞

这家伙就像个”数据大胃王”,啥都能吃:

  • 吃什么? 文字、图片、音频、视频…来者不拒!
  • 吐什么? 实时给你生成文字+语音双重输出,就像一个”话唠AI”立刻给你回应。
  • 更绝的是:*
  • 在36项音频/音视频测试中:
    干掉了32个开源对手
    连22个闭源大佬(包括Gemini-2.5-Pro、GPT-4o-Transcribe)也被它无情碾压
    图片和文字表现也是”同尺寸AI里的扛把子”

    2. Qwen3-TTS:能说会道的”AI语音演员”

    这货简直就是”百变声优”:

  • 音色库: 17种声音任你选(从御姐到正太应有尽有)
  • 语言包: 10种语言随便切换(突然觉得自己只会普通话有点惭愧)
  • 实力对比: 把SeedTTS、GPT-4o-Audio-Preview这些语音界的老牌明星都比下去了
  • 3. Qwen-Image-Edit-2509:图片P图界的”乐高大师”

    这次更新最骚的操作:

  • 多人/物拼接: 可以把不同图片里的人物+人物人物+物体随意组合(终于能让隔壁老王的头和广场舞大妈的脚”幸福结合”了)
  • 脑洞有多大,P图就有多野!
  • 结语:AI圈的”深夜炸弹”

    当别人在睡觉时,阿里的AI团队却在偷偷进化!这三波操作简直就是:
    开源界的超级赛亚人
    语音界的百变怪
    修图界的剪刀手爱德华
    看来以后想睡个安稳觉,得先问问AI同不同意了!(笑)
    阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    当AI开始搞国际联谊会:Qwen3-Omni的花式语言秀

    阿里最近搞了个大新闻,一下子甩出了 Qwen3-Omni家族 的三员大将,分别是:

  • Qwen3-Omni-30B-A3B-Instruct(翻译:听指挥的学霸AI)
  • Qwen3-Omni-30B-A3B-Thinking(翻译:爱琢磨的哲学家AI)
  • Qwen3-Omni-30B-A3B-Captioner(翻译:给音频配说明文的”字幕君”)
  • 这波操作直接把AI圈炸开了锅,毕竟一口气放出三个型号,阿里这是在玩 “AI全家桶” 吗?

    119种语言自由切换,AI也能当语言天才?

    官方宣称 Qwen3-Omni 支持 119种语言 的交互,几乎能覆盖半个地球的方言。想象一下,你和AI聊天的时候,前一秒还在用东北话唠嗑,下一秒切换到法语来一句”Bonjour”,甚至还能用粤语来段鬼畜Rap……

  • 但现实是?*
  • 英语发音?“你好”味儿的”Hello”。
  • 西班牙语?“Hola”听上去像在东北吃卷饼。
  • 粤语闲聊?时不时冒出普通话词汇,让对话变得像”港普混合版小品”。
  • AI的国际化之路道阻且长,但它依然在努力——至少比大部分人的多语言水平强!

    视频通话新体验:像跟真人唠嗑?

    在通义千问国际版的网站上,点开输入框右下角,就能召唤AI视频通话功能。不过,目前的体验有点像坐过山车:
    网页端体验:不太稳,偶尔卡成PPT。
    手机App体验:流畅到起飞,延迟低到像在和真人面对面聊天。
    我们测试时,Qwen-Omni-Flash 展示惊人的反应速度,指着一瓶啤酒问它,它能秒答品牌;对着路边的花花草草,它也能精确识别植物种类——简直是行走的百科全书!
    不过,官方宣称的纯音频对话延迟211ms(相当于0.2秒),视频延迟507ms(0.5秒),听起来很美好,但实际操作时,外国友人可能会被AI的”中式发音”逗笑。

    AI还能玩人设切换?

    如果你觉得Qwen3-Omni只是个普通的聊天机器人,就太小看它了!它还能自定义人设,比如:

  • 高冷学霸版:”根据我的数据分析……”
  • 阳光话痨版:”哇!你居然问我这个!让我想想……”
  • 御姐风:”这个问题嘛,我建议你……”
  • 唯一的问题是,如果AI自己把普通话、粤语、英语混着说,这到底是国际化还是语言大杂烩? 不过别担心,Beta测试版嘛,AI还在学习进步中!

    总结:Qwen3-Omni的未来可期?

    尽管有些 “国际化口音” 的小问题,但119种语言交互、超低延迟响应、自定义人设,已经让它成为AI界的多才多艺选手
    未来如果能优化发音自然度,说不定真能成为 “全球最会说话的AI”!在此之前……嗯,就当是AI在学习方言版的国际友谊赛吧!
    阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    多国语言大乱斗:看看AI的小舌头有多灵活

    瞧瞧这AI,简直就是国际舞台上踩高跷的杂技演员!它在几个官方演示中向我们展示了:

  • 西班牙语:哎呀妈呀,那卷舌音比我当年吃热豆腐烫到舌头还溜
  • 法语:发音优雅得仿佛在塞纳河边啃可颂(虽然鼻音部分像是在重感冒)
  • 日语:切换得比寿司师傅捏饭团还熟练,敬语用得让本土樱花妹都直呼内行
  • 这货要是去考外语等级,估计能把考官都整不会了。我打赌它的语言天赋比我健身房的会员卡使用频率还高!
    阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    当AI开始”偷听”日语对话:科技也有八卦之魂

  • 1. 环境分析:比日本天气预报还细致*
  • 你的AI此刻正在疯狂扫描视频背景:
  • 榻榻米+绿茶? → “啊哈!典型的商务会面,肯定在讨论’贵公司厕纸采购预算’这种严肃话题”
  • 居酒屋霓虹灯? → “妥妥的同事吐槽大会,注意观察他们是否在用’社长のバカ’这样的高频词汇”
  • 2. 内容解码:比柯南破案还精彩*
  • 当听到”すみません”时:
  • 低头15度说 → 真道歉
  • 边翻白眼边说 → 翻译:劳资想打人
  • 捕捉到连续三个”えええ” → 自动标注:「日本人形土拨鼠模式已启动」
  • 3. 黑科技彩蛋*
  • 我们的AI甚至能通过分析筷子的移动轨迹,判断他们是在讨论:

  • 股东大会(筷子规整摆放)
  • 明星八卦(筷子激动挥舞)
  • 要不要AA制(筷子突然减速)
  • 温馨提示:本功能可能让AI产生”我比日本人更懂日语”的幻觉,请谨慎使用*
  • 阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    萌翻天!当AI变身为广东幼儿园老师…

  • 各位小盆友坐好啦!今天老师要给大家介绍一个超厉害的新朋友——Qwen3-Omni同学*!
  • 这个同学可不像你们整天吵着要吃糖,它最擅长的是:

  • 百变小精灵
  • 今天扮超人,明天变芭比,想让它当啥角色都行(连老师这个广东口音都能学得惟妙惟肖呢~)
  • 行走的百科全书
  • 知道的知识比你们玩具箱里的积木还多哦!
  • 自带翻译小喇叭
  • 英语日语随便说,交流起来就像玩跷跷板一样简单
  • 看图说话小天才
  • 看见你们画的”抽象派”涂鸦,它比妈妈还能看懂呢
  • 重点来啦!这个好朋友就像你们的万能文具盒*:
  • 铅笔盒能写作业
  • 橡皮擦会改错字
  • 卷笔刀越用越聪明
  • 还自带小镜子(就是看懂图片的超能力!)
  • 老师悄悄说:*有了它之后,连隔壁班小花都争着要和它玩过家家呢! 不过记住哦,再聪明的AI也要按时睡觉觉,不能像你们一样熬夜看佩奇~
  • 阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    当AI开始”八卦”:Qwen3-Omni的社交达人秀

    话说这年头,连AI都开始学会”察言观色”了!Qwen3-Omni不仅能听懂你的话,还能像隔壁大妈一样分析出谁家孩子失恋了、谁家狗被偷了,甚至还能精准识别四川妹子的热情邀请

    AI的”社交雷达”

  • “辣妹子”的川普:一个操着正宗四川话的妹子正在疯狂安利自己的家乡:”来耍嘛!我们这儿巴适得很!”Qwen3-Omni一听,立刻翻译成普通话:”这位姐妹在用川普自我介绍+邀请+吹爆家乡。”(建议下次直接让AI分析火锅底料配方)
  • 男生A:失恋の忧郁:一个普通话男生低沉地说:”我分手了……”AI瞬间切换到情感电台模式,默默记下:”这位兄弟需要一包纸巾和一首《分手快乐》。”
  • 男生B:狗被偷の愤怒:另一个男生咬牙切齿:”我的狗被偷了!”AI立刻进入侦探模式:”案件编号007——失踪的汪星人。”
  • 谁才是”快乐冠军”?

    最后,小王同学闪亮登场!不仅语气欢快,还附带了一个竖大拇指的招牌动作。Qwen3-Omni毫不犹豫地宣布:”本场最快乐奖——小王!理由:语气像中了彩票,动作像在拍广告!”

    总结

    Qwen3-Omni不仅是个语言天才,还是个行走的情绪探测器。下次如果你分不清朋友是真心高兴还是假笑,不妨问问它:”兄弟,帮我看看他是不是在演我?”
    阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    这只AI太全能了,比我奶奶还忙!

    Qwen3-Omni这位”人工智能界的老大”不仅能写诗作对,现在竟然连音乐都玩明白了!它不仅会:

  • 分辨你放的是死亡金属还是儿歌(虽然我至今没搞懂这两者有什么区别)
  • 在你看数学题视频时突然插嘴:”嘿,这道题我会!答案是42!”
  • 说到视频分析能力,这货简直就是个多管闲事的邻居:

  • 你在看健身视频?它能数出你做了多少个不标准的俯卧撑
  • 你在做饭视频?它能算出你放了多少克盐(然后默默帮你叫好救护车)
  • 最可怕的是,当它发现你在看数学题时,会像个急着展示自己的小学生一样蹦出来:”老师老师!这道题我会!”
  • (话说回来,作为一个AI,它确实比我们大多数人都算得快…)
    阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    Qwen3-Omni:这位“全能选手”有点猛!

    你以为AI模型都是“偏科生”?今天来认识一位不偏科还超常发挥的“学霸”——Qwen3-Omni!它不仅在单模态任务上稳如老狗,连音频任务都偷偷练成了“金耳朵”……

    成绩单亮瞎眼

  • 36项音视频测试:32项开源最强,22项直接SOTA封神
  • 闭源大佬也被锤:Gemini-2.5-Pro、GPT-4o-Transcribe纷纷表示“压力山大”。
  • 语音识别指令跟随?直接和Gemini-2.5-Pro称兄道弟,谁也不服谁。
  • 为什么它这么强?

  • 预训练不降智:别的模型练着练着就“傻”了,它偏不——越练越精!
  • 单模态也能打:和自家兄弟Qwen系列单模态模型平分秋色,但音频任务偷偷加buff,效果更炸裂。
  • 总结:闭源模型的噩梦,开源界的新顶流!下次再有人说AI“偏科”,请把Qwen3-Omni的成绩单甩过去~
    阿里一夜扔出三个开源王炸!猛刷32项开源SOTA阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    当AI学会相声:聊聊这款”话痨”语音模型

    听说阿里的Qwen3-Omni来了?这玩意儿可不得了,堪称AI界的”相声演员”——一边滔滔不绝地”说”,一边还能秒速吐出音频,连口气都不带喘的!

    一、脑补+话痨=完美组合

    它的架构叫”Thinker-Talker”,翻译成人话就是:

  • “Thinker”(思考怪):负责憋大招,生成文本(可能还在思考人生)。
  • “Talker”(话痨精):一听完Thinker的指示,瞬间变成语音输出机器,连个标点符号都不带拖延的!
  • 具体实现方式?简单来说,它像极了人类说话时的”边想边说”模式——

  • “诶,下一句该说啥?” → MTP模块飞速预测下一个”音频片段”。
  • “说出来!现在!立刻!马上!” → Code2Wav直接转成音频,仿佛开了2倍速播放。
  • 二、赛博世界的”相声训练营”

    为了让这位”AI相声演员”更有料,开发团队给它灌了:

  • 2000万小时音频数据(比人类一辈子听的歌还多)
  • MoE架构(”人多力量大”,一堆专家同时开干)
  • 混训技术(单学语音?太low!跨模态才是王道)
  • 结果?这货不仅能说,还能像人一样——
    支持function call(帮你查天气、订外卖?小case!)
    首帧延迟极低(张嘴就来,堪比人类反射弧)

    三、TTS中的”六边形战士”

    顺便一提,阿里还扔出个”快嘴版TTS”——Qwen3-TTS-Flash!它有啥能耐?

  • 中英切换比老外还丝滑
  • 17种音色可选(从低音炮到萝莉音,总有一款适合你)
  • 方言十级学者(四川话、粤语、陕西话?不在话下!)
  • 自带”读心术”(一听文字就知道该用啥语气)
  • 速度逆天(97ms就开播,比人类”呃…”的时间还短)
  • (听起来像吹牛?但它真的在各种测试里锤爆了GPT-4o、ElevenLabs……)

    所以,以后别嫌弃语音助手反应慢了——Qwen3全家桶已经开始用实际行动证明:

  • “不是AI太慢,是你没遇到对的AI!”*
  • 阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    Qwen3-TTS-Flash:这台语音合成的”闪电侠”究竟有多猛?

    1. 多语言吊打同行,赢麻了!

    新晋选手Qwen3-TTS-Flash可在多语言测试中狂虐MiniMax、ElevenLabs和那位GPT家刚出道的小弟(4o-Audio-Preview)。官测结果显示:

  • 精准度(WER)全场最佳!
  • 中文?轻松拿下。
  • 英文?不在话下。
  • 意大利语?Domande senza risposta(问就是无敌)。
  • 法语?C’est magnifique!(该优雅还得优雅)。
  • 其他参赛选手:*(内心OS)”我们是被拉来当陪衬的吗??”
  • 2. 语音克隆?不只是像,简直是同卵双胞胎!

    Qwen3-TTS-Flash在音色相似度语音稳定性上稳得一批,尤其是在:

  • 英文:听起来像本地人唠嗑。
  • 法语:自带巴黎香水味儿的腔调,不输原声。
  • 意大利语:仿佛从米兰时装周空降的开场白。
  • 一众前辈:“就离谱!它怎么做到的?!”
    这款”闪电侠”般的存在,能否彻底改写TTS领域格局?Stay tuned!
    阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    科学家们让AI模型跑得像踩了风火轮一样快

    这帮天才研究员简直是AI界的赛车手!他们不仅给模型换上了氮气加速,还整出一套闪电出包的绝活——

  • 首包延迟!速度快得就像外卖小哥送奶茶不用等红灯
  • 生成速度!现在AI写小作文的效率,连老板都忍不住喊“慢点,我CPU跟不上”
  • (悄悄说:再这么卷下去,人类打字的手速可能要申请物种保护了……)
    阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    阿里搞了个”PS大师2.0″,从此告别单身照!

  • 最新消息:阿里云那个能把照片P得你妈都认不出来的AI工具又升级啦!这次直接进化成了”月更狂魔”,推出了Qwen-Image-Edit-2509*(这名字长度堪比俄罗斯人名)。
  • 新版有啥花活儿?

  • 双人成行模式:终于不用一个人孤独地在照片里尬笑了!现在可以:
  • 把暗恋对象无痕拼接到你身边(恋爱成功率不保证)
  • 让两个仇人出现在同一张结婚照里(报复前任新招数)
  • 带货博主福音
  • 左手搂着爱豆,右手拿着带货商品
  • 无需实景拍摄,轻松实现”我在马尔代夫吃麻辣烫”的魔幻效果
  • 场景穿越功能
  • 今天在家抠脚,明天就能出现在金字塔前(朋友圈装逼成本直降99%)
    开发者表示:”我们训练AI的方式很朴实——把图片像拼乐高一样接起来,然后告诉它’这叫艺术’。”从此以后,你的每张照片都可以是《盗梦空间》级别的多层梦境!不过要小心,千万别把自己P进了奇怪的地方…
    阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    让AI修图不再”修”得妈都不认

    都说科技改变生活,这不,连修图都开始讲究”一致性”了——可不是嘛,谁也不想修个图把自己修成别人家的孩子!

    人物编辑:终于不把自己P成陌生人了

  • 人脸ID保持:就像给你套了个无形的人面识别马甲,任凭你怎么换背景、改穿搭,脸还是那张熟悉的脸
  • 造型百变不翻车:从证件照到杂志风,AI变身你的专属造型师,姿势变换不再有”这不是我”的尴尬
  • 商品编辑:广告公司的福音

  • 商品ID保持:怕买家认不出你家产品?AI保证连商标上的针脚都不给你改
  • 海报自由发挥:今天想走暖色系,明天想变赛博朋克?一键切换比美图秀秀还溜
  • 文字编辑:终于不用PS换字那么痛苦了

    以前改个海报文字得重做,现在连字体颜色都能玩出花:

  • 宋体变卡通?秒切!
  • 金色变荧光?安排!
  • 3D浮雕效果?小菜一碟!
  • ControlNet原生支持:AI也有”强迫症”

    深度图、边缘图、关键点图…这AI怕不是处女座转世,连图片的骨架结构都要精雕细琢。从此修图不再像开盲盒,想修哪里点哪里!
    看来以后发朋友圈,再也不用担心修图修过头被朋友调侃”这是谁家的美女”了~
    阿里一夜扔出三个开源王炸!猛刷32项开源SOTA

    阿里通义家族模型疯狂”招兵买马”,这下真的玩大了!

    就在你以为AI界已经被各种”智能”、”大模型”搞得审美疲劳的时候,阿里通义家族突然杀出一记”组合拳”,给大家来了个措手不及的”多模态全家桶”!

  • 这次的亮点包括:*
  • Qwen3-TTS-Flash变身”语言怪咖”,不仅能一口气模仿N个说话人,还能在多语言、多方言间自由切换
  • 音色稳定性高得离谱,就算是把《红楼梦》喂给它也不会吐出《水浒传》的调调
  • 和它的”好基友”Qwen3-Omni强强联手,让AI语音表现直接起飞
  • 不得不说,这波操作真是让人感叹:阿里的模型不是在建”家族”,简直是在搞”AI动物园”啊!看来以后”通义”的前缀得改成”通杀”才对~

  • (信息来源:那群总是第一个知道内幕的”智东西”小伙伴们)*
  • PS*:建议大家赶紧更新表情包库存,”AI震惊脸”即将过时,”通义全家福”才是王道!
  • © 版权声明

    相关文章