首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

AI资讯4个月前发布云知AI运营官

AIGC时代：连环画生成大战，谁才是真正的”故事大王”？

随着人工智能（AIGC）的疯狂进化*，曾经的“灵魂画手”们终于迎来了危机感——毕竟，现在连AI都能一键生成连环画了！这不，学术界和业界的吃瓜群众们纷纷搬好小板凳，围观“AI能否当个好导演”这场年度大戏。

连环画的AI进化史

从前的人类：

苦思冥想怎么画

熬夜肝线稿

绞尽脑汁上色

现在的AI：

“拜托，有手就行！”（虽然它确实没有手）

一键输入“从前有座山……”

唰唰唰生成一整套连环画，而且还是高清8K豪华版！

但你懂的，AI可不是天生就懂艺术的。刚开始的时候，它们画的东西可能：

主角一会儿三头六臂，一会儿又变成了章鱼哥

人的手长在腿上，脑袋却飘在空中

说好的古装剧，结果背景像是外星战场

所以，问题来了：AI画的连环画到底靠不靠谱？我们该用什么标准衡量它们的“艺术造诣”？

ViStoryBench：让AI接受“画风大考”

好消息是，阶跃星辰、上科大和西湖大学的科研大佬们终于出手了！他们搞出了一个叫ViStoryBench的评估框架，专门来“拷打”AI的故事可视化能力。

考核标准全揭秘

连贯性：你的故事是逻辑清晰的还是精神分裂的？

一致性：主角会不会突然从帅哥变丑男？

多样性：是不是只会画火柴人表情包？

合理性：中世纪骑士开特斯拉会不会太超前了？

人类满意度：说白了就是——你觉得它画得像个正经连环画吗？

终极目标：让AI学会“讲人话”

这套标准不仅帮AI认清自己，还能指导训练方向。未来，说不定AI生成的连环画不仅能看，还能拿奥斯卡最佳分镜奖！

未来展望：AI会不会抢了漫画家的饭碗？

漫画家瑟瑟发抖：完了，AI又要来卷我们了！
AI挠头（如果它有头的话）：别怕，我只是个辅助工具~
所以，这场连环画生成的AI革命才刚刚开始。谁敢说，未来不会出现一个AI版宫崎骏呢？
首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

当人工智能决定讲个故事：一场视觉与思想的奇遇

在数字艺术家们的实验室里，最新上演的”数字”大戏是：如何让AI笔下的小红帽不一会留着飘逸长发，一会又变成爆炸头，最后莫名其妙地穿着钢铁侠的战甲。这就像是让一位人工智能导演同时掌控500个分镜师，要求他们在喝完咖啡后保持一致的画风。

现代技术的魔幻主义舞台

扩散模型最近学会了”喷绘式作画”，就像拿着高压水枪的艺术生，把像素喷洒在虚拟画布上

自回归生成技术则像强迫症编剧，一个字一个字地推敲，结果故事写到第三章时前面的角色全都改名换姓了

有些AI作品的表现堪比电影院放映故障——上半场是宫崎骏动画，中场莫名切成了漫威宇宙

评测界的”糊涂判官”现象

目前的评估系统活像戴着老花镜的裁判：

只会数数角色有没有少条胳膊少条腿

对”科幻世界里突然出现恐龙骑士”这种重大剧情事故视而不见

面对一幅融合了梵高、迪士尼和街头涂鸦的”杰作”时，竟然给出了”风格统一”的评语

ViStoryBench*的出现就像是给评测界配上了显微镜和思维导图，终于能让系统分清楚：

《指环王》 里不该出现会咏春拳的霍比特人

《傲慢与偏见》 的场景里不能闪烁着赛博朋克的霓虹灯

童话故事 的主角不能在第三章突然开始讨论量子力学

这场视觉叙事革命告诉我们：让AI学会讲故事不难，难的是阻止它成为天马行空的妄想症艺术家。
首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

当“技术流”与“文艺范”握手言和：一个基准的自我修养

你以为行业标准就该冷冰冰的？大错特错！这个基准可是个“斜杠青年”——左手捏着技术的螺丝刀，右手挥着艺术的画笔，嘴里还念叨着：“逻辑不能乱，故事得好看！”

它的三大绝活：*

技术控的严谨：代码不能炸，算法别跑偏，毕竟“稳”才是硬道理。

艺术家的任性：美感不够？叙事稀碎？不好意思，这分数可拿不稳。

逻辑狂的执着：情节像乱麻？用户体验像迷宫？它第一个跳出来喊：“重来！”

总之，这基准不是来打分的，是来教行业做人的——技术、艺术、逻辑，一个都不能少！
首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

奇思妙想大揭秘：他们的神奇操作手册

第一步：脑洞大开，堪比黑洞

他们可不是随便想想就完事的，这帮人脑洞开得比宇宙黑洞还大！据说开会时的白板都被写爆了三个，清洁阿姨差点以为在破译外星密码。

第二步：试错？不，是花式作死实验

方案A：理论上可行，结果一动手就变成了灾难现场。

方案B：看起来像个冷笑话，结果居然莫名其妙成功了！

方案C：没人记得为什么会有人提出这个方案，但它出现在了PPT里…

第三步：群众的力量是伟大的

让全公司的人都来体验他们搞出来的”杰作”，据说测试组的咖啡消耗量直接翻倍——别问，问就是在提神找bug。

最后：奇迹就这样发生了

就像变魔术一样，”砰”的一下就搞定了！虽然没人完全明白到底是怎么做到的，但大家都很默契地鼓掌说着”牛啊”。
所以说啊，创新这件事儿，三分靠科学，七分靠玄学，剩下九十分全靠试错的勇气~

研究方法

当故事遇上视觉：ViStoryBench的奇幻冒险

想象一下，你正在写一个史诗级的故事，但突然发现：如何评估它的视觉效果，比打败恶龙还难？别担心，ViStoryBench 就像一位戴着数据眼镜的魔法导师，挥舞着评估魔杖，把你从混乱的评测标准中解救出来！

故事可视化：一场”标准混乱”的狂欢节

“作品好”还是”差”？ —— 有人在乎情感共鸣，有人纠结画面细腻度，还有人执着于叙事节奏是否能让咖啡都不凉透。

综合标准化指标？ —— 不存在的！故事可视化领域就像一盘散装的积木，各家搭各家的城堡。

于是，ViStoryBench 横空出世，决心用一套完整、客观的指标体系，给这个狂欢节装上规则！

ViStoryBench：可视化界的万能工具箱

数据加持，支撑你的每个脑洞 —— 从基础的叙事质量，到数字分布趋势，ViStoryBench 的数据集能喂饱每一款分析模型。

打破”评测玄学” —— 无论你是逻辑控还是情感狂，“一键跑分”让评估变得像 刷评分APP 一样简单直观。

研究者友好型 —— 告别“为什么我的好作品在A平台得高分，B平台扑街”的困惑，ViStoryBench 提供 标准化赛场，让所有作品公平竞技。

简而言之，有了它，你的故事和它的画面，再也不会像失散多年的双胞胎——互不相识了！
首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

“超级故事大杂烩”数据集大揭秘！

这个数据集不简单，简直是“故事界自助餐”，中文+英文双语豪华套餐！80个故事单元，53种口味（哦不，是类别），344个角色在里面跑来跑去，就像一部永不落幕的大型动画片*！

剧情不无聊，角色不孤单

主角模式ON：有的故事走独行侠路线，主角一个人撑全场！

群像模式ON：有的是热闹趴体，2到10个角色一起嗨，测试AI能不能记住谁是谁（脸盲症警告！）。

“高级玩家”专属配置

叙事花样多

小说风：环境细腻，”主角的心在风中凌乱”的那种文艺范~

剧本风：给你精准的动作指导，比如“角色A一脚踢翻了桌子（但别问桌子做错了什么）”。

拍戏指南

场景布置：桌子放左边还是右边？AI：我全都要！

镜头构图：特写、远景、45°仰望天空……AI摄影师上岗！

角色出场：“现在登场的是——神秘反派……的帽子！”（AI：这个细节很重要！）

总的来说，这个数据集的任务就是——“难倒AI，乐坏人类”！

叙事素材（故事和剧本）

故事筛选大作战：当人工碰上AI

剧本界的“淘金热”

你以为80个故事样本是小菜一碟？那可太天真了！我们可是开启了“人工+AI”双保险模式，从影视剧本、文学著作、民间传说、小说、绘本……甚至是某位编剧半夜灵光一现的涂鸦里，都要翻个底朝天！

人工挑选：专家们戴着放大镜，生怕错过任何一个潜力股。

AI辅助：大型语言模型（Step-1V）上场，自动识别“老太太裹脚布般的冗长情节”，咔嚓一刀砍成数百字的精华版。

AI的裁缝技能

想象一下，AI就像一个高效的故事裁缝，专治各种剧情灌水和主角废话：

史诗级巨著短小精悍版（毕竟没人想看《战争与和平》的100集电视剧）

神话传说现代版快节奏剧本（神仙也得学会说rap）

绘本童话“成年人也能看”版（三只小猪可能不再是简单的稻草房故事）

标准化作业：让角色们乖乖站好

光是故事精炼还不够，我们还得规整格式，免得导演们一边拍戏一边摔剧本：

角色设定：心理分析、穿搭指南、口头禅……（是的，反派也要时尚！）

分镜脚本：连主角跌倒时的慢动作角度都要写清楚！（不然演员会被NG逼疯）

所以，别看只是80个故事样本，背后可是AI和人类智慧的史诗级碰撞！
首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

视觉素材（角色参考图像）

角色美术资料大丰收：一场人工与AI的奇幻合作

我们的视觉资料库诞生记

有时候在工作中，我们既需要人类的火眼金睛，也需要AI的”数字魔法”。这次的角色形象收集就是一场完美的”人机共舞”：

人工筛选部队：我们组建了一支专业评审团，用老鹰般的眼睛在数以万计的候选图中扫荡

AI创造奇兵：祭出了最新的SDXL模型，让AI帮忙”脑补”出那些我们想象中但现实中找不到的完美形象

数据大丰收

来看看这场”数字狩猎”的战果：

角色档案：收获344份，足够装满好几个虚拟衣柜

参考图像：509张，如果打印出来大概能贴满一整个会议室墙壁

风格一致性：保证每部作品里角色的造型协调得像是一个模子刻出来的

质量管理秘诀

我们开发了一套严格的”形象过滤系统”：

故事适配检测：看看TA是否符合剧本的性格设定和故事背景

风格统一审查：确保画风和谐得像一支训练有素的仪仗队

美感把关：颜值不过关的直接”劝退”，我们这里只收”俊男美女”

就是这样，通过科技与人工的完美配合，我们打造出了这个高质量的角色形象资源库。美术组的同学们再也不用为找不到合适的参考图而薅头发了！
首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

评价标准的大变身

1. 这玩意儿到底有多重要？

就像丈母娘挑女婿时那一套标准，评估指标就是用来判断某个事物的“成色”。它告诉你什么是好，什么是坏，什么是一般般，像极了高考分数线和相亲市场的硬性条件。

2. 哪些东西可以用来“挑刺”？

准确度：像算命先生一样，你得算得准吧？

速度：总不能比树懒还慢，对吧？

成本：总不能比马云还花钱多，不然亏本呀！

用户体验：用户要是骂骂咧咧的，那肯定不行。

3. 怎样建立一个“靠谱”标准？

目标设定：你想干嘛？是想让用户满意，还是要省钱？或者更快？

数据收集：真相都藏在数据里，不能瞎蒙。

定期优化：指标不能一成不变，免得被时代抛弃。

4. 经典误区

过分看重一个标准：比如只关心速度，但结果错得离谱，像赶时间的快递小哥。

不实际的标准：比如要求“零错误”，除非你是机器人（但机器人也会死机）。

结论*：选对指标，事半功倍；选错指标，累死马也跑不到终点！

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

这群侦探是怎么给AI画像”打分”的？

我们的研究团队捣鼓出了一套”花式评分表”，专门用来给那些号称能画连贯图像的AI”挑刺”。这套评分表可不是一般的复杂，简直就像AI界的选美大赛评委手册：

“你长得像不像自己？”——角色与风格相似性分析

你以为AI画师就不会精神分裂？我们专门检查它画的人物是不是一天一个样，今天像梵高明天变毕加索。

“有没有理解甲方爸爸的奇葩需求？”——细粒度提示对齐

让你画”穿着西装的柯基在火星遛弯”，结果画成”穿宇航服的哈士奇”？扣分！

“美不美看大腿？”——美学质量评估

画面是惊艳如同文艺复兴，还是辣眼睛到需要马赛克？我们的评委都是”视觉强迫症”晚期患者。

“是不是在偷懒复制粘贴？”——复制粘贴行为检测

别以为把同一棵树复制一百次就能假装”森林”，我们的火眼金睛专治这种偷工减料！
这套评分标准下来，再厉害的AI画手也得乖乖现出原形！

角色相似性（CIDS）

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

当AI变身”相亲角的大爷大妈”

这套系统的工作方式像极了热衷给人介绍对象的居委会大妈：

GroundDINO就像那个戴老花镜的大爷 – 先拿着放大镜在照片堆里一通翻找：”哎呀，这个小伙子/姑娘不错，先圈起来！”

ArcFace则是更严格的大妈 – 盯着圈出来的候选人不放：”这个鼻梁不够挺啊…上次见过的小张比她好看…相似度只能给65分！”

角色匹配标准严格到堪比相亲要求*：

门当户对测试（角色跨相似性）：相亲对象和照片本人的匹配度，要求起码得有七分像

一致性考核（角色自相似性）：”上次穿蓝西装，这次突然改穿花衬衫？不行不行，这人不靠谱！”

AI：现在知道为什么相亲这么难了吧，我们的算法比丈母娘还苛刻！*

风格相似性

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

艺术风格相似度：一场严肃的”克隆秀”

CSD的本领可太神奇了，它不仅能让图像”风格大变”，还顺便充当了一位严格的风格”监考官”。来看看它是怎么”评卷”的吧：

1. 风格跨相似性：比对”双胞胎”的艺术DNA

生成图像 vs 参考图像：像是把两幅画放在显微镜下，看看它们的艺术”血型”配不配得上。

契合度评分：如果说参考风格是”梵高”，那生成结果绝不能变成”毕加索”，否则就算是不及格的临摹作业！

2. 风格自相似性：确保生成的画风别”发癫”

序列风格连贯性：如果第一张是”水墨风”，第二张突然切到”赛博朋克”，那AI恐怕是喝多了咖啡。

稳定性检查：就像连续剧不能第一集演宫斗剧，第二集变科幻片吧？CSD表示：”风格蹦迪？不行！”

所以，CSD就是在做一件既严谨又魔幻的事——既要像参考风格（不能跑偏），又要保持自己的风格稳定（不能抽风）。这是不是比人类画家还挑剔？

细粒度提示对齐度

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

AI导演罢工实录：GPT-4.1执导的电影评审现场

大家好，欢迎收看本期《AI影像疯测》！我是你们被迫营业的主持人——数码舌头。今天我们要用GPT-4.1这位”天才导演”的大脑，来审判AI生成的电影画面到底是个震撼人心的奥斯卡候选，还是让观众笑出声的”离谱买家秀”。

—

1. 场景吻合度：说好的泰坦尼克号，怎么变澡堂子了？

据说AI理解的”豪华复古邮轮”是这样的：

人类剧本：黄昏时分，巨轮甲板上铺着古董地毯，水晶灯摇晃，远处冰山发光……

AI输出：一艘橡皮鸭漂浮的澡盆，泡泡特效溢出屏幕，角落里疑似冰山——原来是半融化的冰块。

评审团吐槽*：”请问GPT-4.1是不是把‘豪华邮轮’和‘我奶奶的泡脚桶’词库弄混了？”

—

2. 镜头契合度：特写镜头？不，这是显微镜模式！

AI的”艺术性构图”经常让摄影师沉默：

人类剧本：主角忧郁的侧脸特写，窗外雨滴划过。

AI输出：一个像素级放大的鼻孔，占据画面80%，背景雨滴大如保龄球。

评审团愤怒：”这叫特写？这分明是鼻毛记录片*！”

—

3. 角色表情包大赛：说好悲痛，AI却给出表情包合集

AI的表情库似乎只有三种模式：

微笑.jpg（适用于葬礼、灾难现场）

震惊.gif（连喝咖啡都要瞪得像见鬼）

AI祖传歪头杀（仿佛集体落枕）

观众投票*：”建议下次直接生成表情包，电影别拍了。”

—

4. 多角色互动：强行加戏的AI临时演员

剧本写”两人沉默对望”，AI却擅自发挥：

额外生成：

背景里突然闪现第三个人疯狂挥手（未出现在剧本）

其中一位角色的手诡异穿透对方胸口（鬼片联动？）

导演崩溃*：”删掉！这些加戏的AI群演盒饭扣光！”

—

5. 角色数量：数学是AI的一生之敌

剧本要求：”会议室里5人争吵。”

AI生成：

方案A：只有4个人，但第5人的领带挂在灯上随风飘扬。

方案B：12个人挤在画面里，其中7个是复制粘贴的。

数学老师痛心*：”GPT-4.1，你算数课是体育老师教的吗？”

—

终极评测结果

经过严肃（并不）的讨论，我们颁发以下奖项：

最佳魔改奖：”把浪漫海滩拍成火山爆发”

最谜之镜头奖：”用鱼眼镜头拍葬礼”

数学噩梦奖：”说好的三胞胎，生成出了葫芦娃七兄弟”

节目结语：感谢GPT-4.1用实力证明——AI拍电影的日子，人类暂时还不会失业！观众朋友们，下期我们将评测AI写的恐怖剧本*，据说把”灯泡闪烁”理解成了”迪斯科灯球狂欢夜”……

（字幕：任何AI拍摄过程中受伤的心灵，本节目概不负责）

角色数量准确性（OCCM）

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

角色大乱斗：数数有几个人在照片里！

这个研究团队搞出了一个叫 “登场角色数量匹配度” (OCCM) 的标准，简单来说就是——数人头对不对得上号！

多一个人少一个人都不行：团队不光要检查照片里蹦出来多少角色，还得看看有没有 “浑水摸鱼” 的路人甲，或者 “惨遭遗忘” 的主角乙。

分数直接挂钩：如果照片里的人数离预期差太多，OCCM的 “KPI” 就会直线下降，简直比考勤打卡还严格。

提示词说了算：因为登场名单本来是根据文字描述生成的，所以这项指标算是个 “提示一致性” 的 “衍生品” ——就像外卖备注写“不要香菜”，结果还是吃到了香菜，你是不是要打差评？

总之，少一个扣分，多一个也扣分，精准控人数，AI还得再练练！

美学、质量与多样性

双重AI侦探大作战

欢迎来到艺术鉴宝大会现场！今天我们特邀两位人工智能裁判员——美学预言家V2.5和概念大师V3组成豪华评审团。他们将以犀利的眼光，从三个神秘维度对参赛作品展开全方位CT扫描式评估！

评审维度大揭秘

艺术感染力大PK

评委们会死死盯着作品的”颜值”看——不光是肤浅的好看，更要看出达·芬奇般的艺术灵魂！

完工度质检报告

作品要是生成得半成品？直接红牌罚下！AI裁判们会用显微镜检查每个像素的细节完成度

脑洞大开程度测试

重复的套路？抄袭的嫌疑？nonono~评委们会确保每件作品都像哈利波特的魔法一样绝无雷同

重磅彩蛋：抄袭探测器

我们还特别配备了AI版福尔摩斯！它能：

逐帧比对：让”复制粘贴党”无所遁形

依赖度检测：看看作品是不是太”妈宝”，过度依赖于参考图

警报系统：一旦发现可疑行为，立刻拉响”创意侵权警报”

这场严谨又不失风趣的评审派对，保证让每个作品都经历最公平的”艺术大考”！

实验设计

技术方案评测大冒险：当20种方法遇上81位奇奇怪怪的”演员”

方法大杂烩：从开源到商业的奇幻之旅

技术动物园：团队收留了20多种无家可归的技术方案（心疼服务器1秒钟）

18种主力军带着他们变来变去的变体：比孙悟空72变少一点，但足够让人头晕

三大阵营对决：

开源极客组：擅长编故事的画家和拍小视频的导演

商业精英队：要收钱但宣称”无所不能”的选手

语言模型大佬们：那些同时会说、会画、还会跟你讲哲学的多模态”斜杠青年”

技术驯兽师的专属秘籍

对付挑食的技术：有些算法像挑食的小孩，只肯画单个人物——”不！我就要画独角戏！”

长篇大论转换器：把用户的长篇睡前故事压缩成”给忙碌人士的技术梗概”

数据版本二重唱：

完整版(full)：让技术们尽情发挥的豪华舞台

精简版(lite)：包含20个”浓缩人生”故事样本的速成班

精简版的”奇怪全家福”

36个动画角色：从会说话的茶壶到穿着靴子的猫

41个真实人物：包括但不仅限于某个忘记台词的张三

4个非人类实体：是的，我们评测连外星人和会思考的石头都没放过！

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

开源视觉生成

影像创作技术大盘点：当AI遇见导演梦

一、让AI当插画师（静态图篇）

我们折腾了市面上六款号称能”看图写话”的AI工具，它们的名字一个比一个像好莱坞大片：

StoryDiffusion（故事扩散器）：听起来能把你的早餐照片扩散成《盗梦空间》

Story-Adapter（故事适配器）：仿佛在说”亲，您的脑洞已成功接入”

TheaterGen（剧场发生器）：建议和爆米花搭配使用

其他参赛选手：UNO（这真的不是纸牌游戏）、StoryGen（名字过于诚实）、SEED-Story（可能想当故事界的种子选手）

测试方法比综艺节目还精彩*：

纯文字模式：”给我画只穿着西装的柯基”（极限测试AI的阅读理解）

单图参考模式：（悄悄塞给AI一张自家猫的照片）”请把它P成拿破仑”

多图联合作业：（扔给AI全家福）”把这些人都变成迪士尼角色”

二、让AI当导演（动态视频篇

这次评测的四款视频生成AI，名字个个都是简历高手：

Vlogger（直白到令人感动）

MovieAgent（求职方向很明确）

Anim-Director（动画片场找工作）

MM-StoryAgent（玛丽苏剧情专业户）

魔鬼测试方案*：

关键帧捉迷藏：只给AI看视频的零星几帧，要求它脑补完整部《泰坦尼克号》

文字极限挑战：”用画面表达’量子纠缠的爱情'”（测试AI的哲学修养）

偷工减料模式：有时候直接跳转到”把这段文字变成图片”环节（俗称AI版”要不咱别拍了”）

幕后花絮：当TheaterGen遇到”画一只在太空站跳芭蕾的熊猫”的需求时，生成了穿着芭蕾舞裙的功夫熊猫在阿波罗13号里转圈——这算跨次元联动吗？

多模态大模型

AI模型的角色扮演狂欢

最近我们的实验室变成了人工智能的”演技大比拼”现场，主角是两大顶流：

GPT-4o：号称”语言界的奥斯卡影帝”

Gemini-2.0：自诩为”跨模态界的杂技演员”

这些AI界的”戏精”们在故事可视化这个舞台上各显神通：

第一幕：服装道具组的神操作

我们把角色参考图直接塞进它们的”大脑”（预处理流程），就像给演员看定妆照：
先来个全身”尺寸调整SPA”
再做个”色彩空间变形术”
确保每次出场都和剧本里的人设一模一样，绝不会出现”第二集换演员”的电视剧悲剧

第二幕：长镜头记忆挑战

最绝的是它们的”连续剧模式”：
只要不喊”卡”，就能在同一个聊天窗口里：
像导演拍分镜图一样哐哐哐连续出图
前一帧和后一帧居然还能剧情接龙
完全不用担心出现”失忆式穿帮”
现在的AI简直比某些剧组还专业，至少它们不会临时要求改剧本！（此处应有人工智能得意的笑脸）

商业软件平台

企业级AI绘图软件测评背后的疯狂故事

你绝对想不到这帮测评团队为了测试这些AI绘图软件玩出了什么花样！

被测评的”参赛选手”名单

白日梦 – 据说是午休时间程序员的突发奇想

豆包 – 名字听起来像个早餐app但实际是AI绘图神器

讯飞绘影 – 连画画都要”飞”一下的高科技

神笔马良 – 嗯…这支笔确实够”神”的

Morph Studio – 能把一只猫变成早餐三明治的魔法工厂

MOKI – 不知道为啥总让我联想到猕猴桃的AI

“地下工作”团队大揭秘

有些软件厂商不知道怎么想的，连个开放接口都舍不得给。于是测评组搞了支”特工队”：

全职专业标注员伪装成普通打工人

在企业内部偷偷摸摸搞图像生成

活像个007团队（不过他们窃取的是创意而非机密）

那个疯狂的五月初

选在2025年劳动节假期（5月1日至7日）可不是因为大家闲着没事干。据小道消息：

这时候全网流量最低（没人会发现测试过程中软件bug制造的那些奇葩图片）

咖啡馆坐满了假装工作的测试人员

有人甚至记录到连续72小时不睡觉的极限测试案例

最后那段测试结果出来时，研究员们欣喜若狂的样子，据目击者描述”像是发明了可折叠的咖啡杯一样兴奋”。首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

结果与分析

自动化测试结果

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

AI讲故事大赛：商业大佬与学术萌新的花式翻车实录

1. 「复制粘贴侠」的尴尬舞台

某些AI模型堪称「Ctrl+C/V」派掌门人——它们生成的图片美得冒泡（IS分数爆表），但故事逻辑却像喝了三斤假酒。这叫啥？「颜值在线，智商掉线」。比如那位「Copy-Paste Baseline」同学，画面精致得能当壁纸，可角色和故事的关系……大概就像火锅配冰淇淋——毫无默契！

关键发现*：

美学分高 ≠ 故事讲得好

用户锐评：”这AI怕不是个颜控晚期吧？”

—

2. 商业大佬们的「偏科现场」

GPT-4o 和豆包* 这两位”学霸”各显神通：

豆包：「灵魂画手」——角色像得亲妈都认不出来（角色一致性3.63分）。

GPT-4o：「艺术大师」——画面美得让人想裱起来（主观美学3.28分）。

可惜，AI界的”偏科现象”堪比高中数学课：

豆包的逻辑强，但画面偶尔飘忽；

GPT-4o 审美在线，但角色偶尔”脸盲”。

用户吐槽*：

“所以……谁能把逻辑和颜值结合一下？求求了！”

—

3. 技术的进步 vs. 模型的倔强

早期模型（如StoryGen）：生成的故事画面像小学生涂鸦。

新模型（用扩散技术）：终于能看了！但新颖性和美感仍然在打架，比如：

要么太独特（用户：”这啥玩意儿？”）

要么太安全（用户：”怎么又双叒是阳光沙滩？”）

结论：AI在”创新”和”好看”间反复横跳，就像纠结午餐吃啥的打工人*。

—

4. 「一张图 vs. 多张图」的终极对决

单图输入：AI像复读机，拼命照抄参考图（Copy-Paste Degree 飙高）。

多图输入：AI终于”开窍”，表现更综合……可惜某些商业工具不支持多图输入！

用户调侃*：

“这年头，连AI都有技能树点歪的问题？”

—

5. 人类 vs. 机器：评分大战

好消息：自动化指标和人类评分高度一致！
坏消息：有些AI的”花样短板”也被无情曝光：

非人角色（比如妖怪、动物）：模型集体摆烂。

长文本输入：AI直接”脑容量不足”，生成质量暴跌。

建议*：

“AI同学，多读书，少偷懒！”

—

总结：AI讲故事的未来？

不能只看脸（IS分数），还得看内涵（逻辑一致）。

商业模型强，但各有短板（GPT-4o美学强，豆包逻辑稳）。

多图输入很重要，但某些大佬（如部分商业AI）拒绝更新技能包。

非人角色 & 长文本仍是AI的”致命弱点”。

最终结论*：

“AI画画可以，讲故事还得再练练！”

用户研究结果

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

用户的”火眼金睛”是怎么看AI作画的？

研究人员最近玩起了”大家来找茬”，让用户从三个刁钻的角度给AI生成图片打分：

角色一致性（AI画的熊猫有没有突然长出六条腿？）

环境一致性（说好的沙漠场景为什么冒出北极熊？）

主观美学（这画风是赛博朋克还是幼儿园涂鸦？）

结果让人笑中带泪*：

UNO模型像个三好学生，三个科目统统拿了高分

Doubao同学虽然偏科，但特别擅长”看图说话”——用户说”画只戴墨镜的猫”，它绝不给你生成穿西装的狗

（学术界现在管这个叫”提示文本与生成内容的匹配度”，但我们更愿意称之为”AI的阅读理解能力”）

指标相关性验证

首个故事可视化综合评估框架来了！80个故事单元53种类别，20种技术方案全面对比

自动化评估：人与机器的奇妙共舞

核心发现

惊人事实*：原来机器比我们想象中更懂人类审美！研究表明：

Prompt Adherence（提示遵从）指标：就像一个严格的小学老师批改作业，和学生表现相关性达 67.59%

Aesthetics（美学）评分：堪比艺术系教授的毒舌点评，关联度高达 79.56%

注：这些数字不是彩票中奖概率，而是机器真正懂你的证明！*

当前局限大揭秘（又名”机器的烦恼”）

视频专场挑战

现在是”PPT式”评估：只能看静态图片兄弟会（frame-by-frame），真正的电影还在加载中…

想象你在KTV点歌，结果给你播幻灯片

角色扮演困难症

有些模型在用山寨参考图（次生图像）冒充原版

就像考试时候带了本错的参考书

评估界的纠结

专家模型 vs 语言模型*，堪称人工智能界的”左右互搏”：

专家派（CSD等）

优点：稳如老狗

缺点：遇到复杂场景就蒙圈

文艺派（GPT-4.1等）

优点：联想力丰富

缺点：容易脑补过度（专业术语：幻觉）

律师温馨提示

数据集里的影视明星们：

仅供学霸们做研究

商业用途请先找到法律护身符

未来展望

团队表示要继续开黑加buff：

会定时吞噬最新模型

进化成全能型评测达人

P.S. 围观群众可静待续集，本剧未完待续~*

本站部分内容来源于互联网，仅用于学习、交流与信息分享之目的。版权归原作者或相关权利人所有，如涉及版权问题，请及时与本站联系，我们将在第一时间核实并处理。

速递｜前PayPal+谷歌AI创立的女性社交，AI周一匹配周末面基，超3万名女性参与线下活动

# AI # AI新闻 # AI资讯

4个月前

370

OpenAI和Anthropic罕见互评模型：Claude幻觉明显要低

# AI # AI新闻 # AI资讯

4个月前

7410

OpenAI突然发布Sora 2：好一个“AI版抖音”！

# AI视频生成 # openai # Sora

3个月前

7980

中国足球还是靠机器人吧！首届机器人运动会闭幕：票价终究保守了

# AI # AI新闻 # AI资讯

4个月前

5320