110
0

AI 黑科技测评:最值得收藏的模型与产品测评!

万字盘点:AI 黑科技测评:最值得收藏的模型与产品测评!

AI 黑科技测评:最值得收藏的模型与产品测评!

云知导航是一个专注于优质内容与实用经验分享的平台,我们鼓励用户分享真实的产品体验与有价值的使用心得。平台会不定期精选高质量文章,呈现来自用户的第一手体验与独到观点。本文仅代表作者个人观点,云知导航仅对标题与排版做了适当调整。

不知不觉,2025 年已然过半,是时候对这半年来涌现的 AI 工具做一次盘点了。这份清单基于我过去半年的深度使用体验,凭着个人印象写就,因此并未覆盖所有产品。若有遗珠,还望海涵。

文章最后,我会根据日常给朋友推荐的经验,附上一份简明的「AI 日常推荐表」,方便大家按需取用。

接下来,进入正式榜单。

本文篇幅较长,但干货满满。我们将依次盘点:大模型(LLM、文生图/视频/音频)、AI 产品(Agent、Chat、Coding、其他),并在文末附上总结与趋势展望。

大语言模型(LLM)

上半年,无论国内海外,从 LLM 到文生图、视频模型,都涌现出众多强劲的选手。

AI 黑科技测评:最值得收藏的模型与产品测评!

今年我基本没怎么用 ChatGPT 模型,因此不对 GPT 及 OpenAI 系列模型进行评价(主要也是没找到非用不可的理由)。

年度黑马:Gemini 2.5 Pro

今年最大的惊喜,莫过于 Gemini 2.5 Pro 这匹黑马。它凭借强大的多模态识别能力、高达 100 万 tokens 的超长上下文窗口,以及独特的思维链(Think Process),带来了迄今为止最出色的模型体验。

AI 黑科技测评:最值得收藏的模型与产品测评!

Gemini 2.5 Pro 的性能名副其实。实测中,即便处理 10 万 tokens 的内容后,它依然能准确回忆起最初的对话信息,指令遵循能力也相当出色。在日常对话中,你会发现它不仅智商超群,更能敏锐捕捉到你言语细节中未曾察觉的情绪。

AI 黑科技测评:最值得收藏的模型与产品测评!

一个少有人注意的细节是,Gemini 的思维过程与其他模型显著不同,它倾向于以一种类似金字塔的思维模式,更全面、细致地分析用户输入,从而实现更优的推理。私心而论,这便是我心中当前综合表现最均衡、最强大的模型。

它的”小弟” Gemini 2.5 Flash,虽不及 Pro 版聪慧,但胜在闪电般的生成速度与不错的智能水平之间取得了绝佳平衡,同样值得推荐。

体验渠道:

天才与”疯子”:DeepSeek V2

AI 黑科技测评:最值得收藏的模型与产品测评!

若不提 DeepSeek V2,这份 AI 清单将是不完整的。

DeepSeek V2 在春节期间彻底引爆了市场,极大地推动了 AI 在国内的落地普及。根据我的用户访谈,许多人甚至不知道 ChatGPT 或豆包,但却知道 DeepSeek。

春节时,我曾专门撰文《非技术人 10 分钟读懂 DeepSeek V2》来解析其技术突破。在文学、哲学等需要创造力和启发性的任务中,V2 的表现至今难觅对手,总能带来意想不到的灵感。

然而,除了这些能容忍高随机性的任务,我不建议用它处理严肃工作。原因无他——它太”癫”了:天马行空,难以驾驭。它的指令遵循性较差,总有自己的”想法”,喜欢添油加醋,难以通过提示词进行稳定控制。若要用于工作,尤其是商业化落地,务必三思而后行(但在传统软件行业可能有奇效,懂的都懂)。

体验渠道:

渠道众多。除了官网,你也可以在腾讯元宝等产品中体验,或通过阿里云、火山引擎、硅基流动等云服务调用。

多模态能力评测

AI 黑科技测评:最值得收藏的模型与产品测评!

今年,多模态能力已成为模型竞技的关键赛道,精准识别图像信息为 AI 开启了更多可能。

前段时间,我设计了一项”网络迷踪 GeoGuessr”测试,用于评估模型的视觉与推理能力。一个月后,Sam Altman 也转发了类似的测试,使其影响力进一步扩大。

测试过程很简单:让模型根据一张照片,定位其拍摄的地理位置。

在测试中,一个值得注意的细节是:只有 o3 和 Qwen-VL-Plus 识别出下图中远处微小的”Decathlon”(迪卡侬)Logo。更厉害的是,Qwen-VL-Plus 无需缩放便直接识别,而 o3 则依赖了图片缩放工具。

这让我对它们印象深刻,可以说,这两者代表了两个月前国内外多模态能力的顶级水平。

其他值得关注的 LLM

除了已推荐的 Gemini 2.5 Pro,以下几位选手也值得关注。这份推荐不算权威,但可作为大家选型测试的参考。

  • 豆包大模型:国内均衡之选
    在与众多 AI 从业者(包括明星 Agent 公司和 Benchmark 设计者)交流后,我们得出的共识是:豆包大模型是国内综合实力最均衡的选择。
  • Qwen2,尤其是 8B:开源与本地部署首选
    我在 Qwen2 首发当日的评测文章《我们有必要使用 Qwen2 吗?》中有详细分析。
  • Claude 3.5 Sonnet:代码生成与工具调用王者
    Claude 在代码生成领域是无可争议的 Top 1,本不想赘述。无论是 AI 编码工具的底层模型选用,还是自己构建 MCP 应用或 Coding Agent,首选 Claude 3.5 Sonnet 就对了。同时,它在生成前端代码时的审美也是所有大模型中最好的。

体验渠道:

此外,如果你需要免费的大模型 API 且对智能要求不高,可以关注智谱开放平台,它提供永久免费的推理额度(我的一个产品就稳定运行了半年,必须为 Zhipu AI 点赞)。

文生图、视频与音频

今年,AIGC 领域模型技术实现了翻天覆地的进步,可用性大幅提升,真正走入了大众消费领域。一个标志性的变化是,无论文章配图,还是小红书、抖音,AI 生成的内容随处可见。这一领域也最接近”模型即产品”的形态。

作为一名非重度的普通用户,我主要使用免费产品,以下是我的感受分享:

文生图首选:豆包

如果要在国内推荐一款文生图 AI,豆包无疑是我的首选。

AI 黑科技测评:最值得收藏的模型与产品测评!

自”扣子”发布以来,豆包的生图效果突飞猛进,用起来愈发得心应手。它不仅支持类似 DALL-E 3 的自然语言修图,对图内文字的生成效果也相当出色。最关键的是,它免费、国内网络直连、生成速度极快。在人像等各类场景下,其生成质量也同样不俗。

体验渠道:

产品设计神器:Google Imagen 3

AI 黑科技测评:最值得收藏的模型与产品测评!

Google Imagen 在产品设计领域独树一帜,其生成的质感几乎无可匹敌。

我发现它的过程颇为有趣:在一次为某公司提供 AI 设计咨询时,我负责调研并定制 AI 辅助产品设计的工作流。调研一圈下来,表现最好的正是 Imagen 3,其水准即便在今天也少有对手。

速度快、质量高、还免费,Imagen 3 绝对值得一试。如今 Google AI Studio 已提供 Imagen 2 版本,感觉光影效果更佳,但整体差异不大。我目前仍在使用自己撰写的《万能文生图提示词》,配合 Imagen 来满足大部分精细作图需求(这份提示词已有上千次转发,认可度很高,推荐采纳)。

体验渠道:

国产视频之光:可灵(Kling)

AI 黑科技测评:最值得收藏的模型与产品测评!

可灵始终稳居视频生成模型的第一梯队,表现惊艳。它支持文生视频和图生视频,我个人更常用后者,因为这样更容易控制画面内容。画面稳定、物理效果逼真、交互体验优秀、价格适中,目前已更新至 2.1 版本。

体验渠道:

物理效果炸裂:Google Luma

AI 黑科技测评:最值得收藏的模型与产品测评!

如果要论上半年最惊喜、最强大的视频模型,非 Luma Dream Machine 莫属。

一个视频足以感受它的震撼:

AI 黑科技测评:最值得收藏的模型与产品测评!

看到小船坠入洞穴的过程了吗?这个物理效果简直让人头皮发麻。AI 居然能在 2D 画面中模拟出 3D 世界的真实物理规律,并同步生成匹配的音效。

体验渠道:

虽败犹荣:Gemini Image Generation

你可能已经忘了 Gemini 还有一个生图版本。在 DALL-E 3 发布的前一周,Gemini 推出了 2.0 Image Generation,是业内首个支持连续精准修图的文生图模型。当时我还首发了一篇测试报告:《Google 用文生图 AI 开始真正重塑行业》。

AI 黑科技测评:最值得收藏的模型与产品测评!

它能修图、抠图、批量生图,堪称 2025 年初代的文生图”许愿机”。可惜一周后就被 DALL-E 3 狙击,后者效果更胜一筹,Gemini 瞬间失去了热度。现在,它的上位替代是 DALL-E 3 和豆包,因此不必刻意去用。

自然语言修图标杆:DALL-E 3

AI 黑科技测评:最值得收藏的模型与产品测评!

凭借一己之力压制 Gemini 生图热度的 DALL-E 3,是 OpenAI 上半年的高光时刻。自此,用自然语言修图成为用户共识,极大地提升了文生图的创作体验和可用性。

和豆包一样,它支持自然语言连续修图、图片合成,对英文的图内生成效果很好,中文则稍逊一筹。例如,我之前文章中的《炉石传说》卡图就是用 DALL-E 3 制作的。唯一的美中不足是,免费用户的生成速度实在太慢,否则我会更常用。

体验渠道:

  • ChatGPT 中选择 DALL-E 3

艺术与品质的代名词:Midjourney

在我心中,Midjourney 始终以其极致的画面精细度、光影质感和艺术表现力,占据着特殊的位置。虽然它需要付费,我的日常作图需求也不算高,但依然有必要在此推荐。

配合《万能文生图提示词》,你能有效提升 Midjourney 的作画效果,上面四张图均采用了该提示词模板。

体验渠道:

  • 国外搜索”Midjourney”;国内搜索”悠船”

独辟蹊径:用 AI 写代码来画图

这里介绍一个非常规的文生图方法:利用 AI Coding 生成前端代码,让网页成为你的画布。例如,下面这些案例就是我用 Claude 写代码生成的”图片”。

朋友”歸藏的AI工具箱”也分享过类似教程:《用提示词,让长网页秒变封面》。

在我发布社交名片案例后,今年许多 Agent 产品也开始沿用此思路,将深度研究(Deep Research)结果转化为可视化的 PPT 或长图,足见其用户接受度之高。用这种方式为文章配图,再合适不过。

文生音频:初露锋芒

轮到文生音频领域,我首先想到的是 MiniMax 的 speech-02 模型。它能克隆你的声音,音色模拟得相当不错,但在情感、语调和停顿上,与真人配音仍有明显差距。

顺便一提,豆包的语音模型也很出色,无论是声音复刻还是语音识别都表现优异(豆包 App 内的 AI 语音通话体验就非常棒)。

体验渠道:

  • MiniMax 开放平台
  • 火山引擎语音技术

AI 产品

终于写到 AI 产品部分了,内容很长,实属不易。

AI Agent 与 Deep Research

如果说 DeepSeek 点燃了国内大模型的全民热情,那么小爱同学团队的元笔则引领了通用 Agent 的竞赛热潮。

首先需要明确几点:

  1. Coding Agent 虽属 Agent,但因场景高度垂直,我们将其归入 AI Coding 产品类别单独讨论。
  2. Deep Research(深度研究)应被视为 Agent 应用的一个子集。实际上,一些通用 Agent 也是通过”Deep Research 框架 + 多能力插件(MCP)”的模式实现的。因此,我们将它们放在同一章节讨论。

同样,由于今年未使用 ChatGPT,其强大的 DR 功能暂不评述。

此外,还有一些优秀的产品值得关注,如 Lovatar.ai(满足业余用户的设计需求)、扣子(有望成为垂直 Agent 社区)、秘塔AI搜索(在 Office 内容生成和需求澄清交互方面表现出色)等。

真·通用 Agent:元笔

尽管如今自称”通用 Agent”的产品众多,但在我看来,严格意义上称得上此名的只有元笔。它也是我 2025 年最喜爱的 AI 产品。

在元笔首发时,我曾撰文《元笔吹散了人与 Agent 之间的迷雾》,其中一个案例是”让元笔自主下载宝可梦并运行”。

如果说互联网工作者的模式是”人 + 电脑 = 完成工作”,那么真正为 AI 配备了一台完整云电脑的,只有元笔。这意味着其通用任务的想象空间极其广阔。当你不知道某个任务该交给哪个 AI 时,不妨先甩给元笔试试。例如,它能像真人一样在网站内搜索信息,通过连续点击网页元素完成复杂的信息收集。

相比之下,采用”DR+MCP”方案的 Agent 容易依赖网页搜索服务,导致解决方案偏离用户实际操作。而元笔不仅能生成前端页面,甚至能直接搭建一个包含后端的完整站点。AI + 云电脑 = Create everything,这将带来质变的体验。

体验渠道:

  • 元笔官网

中文信息调研利器:Kimi 智能体

Kimi 智能体是 Kimi 沉寂半年后的力作,带来了新的惊喜。

起初,我对一个只能检索国内信息的 Agent 不抱太大希望,毕竟中文互联网信息庞杂且真伪难辨。但 Kimi 智能体凭借其超长上下文和深度搜索能力,硬是从中提炼出精准、详实的细节,且幻觉率明显更低。

我朋友曾用 Kimi 智能体调研我的个人信息,结果令我本人都眼前一亮——归纳得非常细致,推理准确。这得益于 Kimi 将 DR Agent 的能力通过强化学习(RL)内化到了模型中,使其行为不再是写死的规则,而是根据当前任务动态生成,因而在复杂信息尽调上表现出极佳水准。

体验渠道:

  • Kimi Chat 内申请”Kimi 智能体”内测

垂直场景落地标杆:夸克高考志愿 Agent

夸克 AI 打造的”高考志愿填报 Agent”堪称大数据应用的典范。在不到一个月的时间里,它生成了超过 1000 万份深度研究报告,峰值时能并行处理 250 万个复杂任务。

这个案例虽然垂直且具时效性,但它揭示了下半年 Agent 的发展方向。AI 最大的问题是幻觉,而高考志愿填报这种严肃场景不容许丝毫差错。为了确保报告质量,夸克 AI 采用了”高质量垂直知识源 + 深度对齐的垂类大模型“的策略,构成了其可靠决策的核心。

在数据端,他们对海量高考数据进行分类清洗;在模型端,通过 SFT、RLVF、RLHF 等技术,训练出一个垂直、可信的高考志愿大模型。

我当时的评价是:这标志着 AI 应用正从过去”抽卡式”的随机生成报告,迈向真正解决复杂、垂直、高价值问题的”深度落地”阶段。要让 AI 在现阶段承担起实际工作,这套”垂直数据 + 垂直模型“的方案,将成为下半年 AI Agent 严肃落地的标配。

免费海外信源调研:Gemini Deep Research

除了负责通用任务的元笔和负责中文信源尽调的 Kimi,Gemini Deep Research 虽表现平平,但凭借免费、可访问海外信源(含 arXiv)以及低幻觉的特点,成为我进行外文信源调研的日常选择。

体验渠道:

  • Gemini 官网,在对话框勾选”Deep Research”

AI Chat:移动端的全能助手

在移动端,我们追求的并非顶级的 AI 智能,而是全能、便捷、快速的问答体验。这方面,豆包是我的不二之选。

半年来,”打开豆包发送语音消息”的快捷指令一直固定在我手机的操作按钮上。遇到问题,一按即可录音提问,极其方便。它的多模态识别也相当顺手,今天还帮我识别了阳台花盆里冒出的野草。

特别值得一提的是,豆包的视频模式甚至能充当你的虚拟导游。开启视频通话,你可以实时对话提问,仿佛在和一位真人导游视频聊天,体验非常神奇,强烈建议一试。再加上优秀的自然语言生图、改图功能,豆包已然是一个全能选手(尽管上下文记忆能力还有待提升)。

AI 搜索:一个正在被挤压的赛道?

我其实在犹豫是否要推荐 AI 搜索。

因为我的一个”暴论”是:从 2025 年上半年的趋势看,纯粹的 AI 搜索产品,其生存空间正被 AI Chat 和 Deep Research 严重挤压。长期来看,我甚至不看好其存在的必要性。

简单问题,用户倾向于用 AI Chat,在对话窗口里随口一问即可,还能保留上下文继续追问。复杂问题,用户更愿意等待 DR 给出一份更有价值的增量信息。

如果你仍然需要 AI 搜索,可以试试:

  • Perplexity
  • 秘塔AI搜索

实际上,这两者也都在摆脱纯粹的搜索形态。Perplexity 开始向教育转型,主打”今天学点啥”;秘塔的搜索框则集成了深度思考、AI 写作、生图等一揽子功能,致力于提供一站式 AI 日常体验。

AI Coding:非技术人的创造力杠杆

如果作为一线产品经理,至今还未体验过 AI Coding,我认为基本是不合格的(即便只是用它生成一个静态页面)。我最近开发的 Chat Memo,就是纯粹用 AI Coding 完成的。

在不懂编程的情况下,我用一周半时间写出了一个完成度极高的 Chrome 插件,又用两天完成了官网的设计与开发。产品发布后,短短一周就吸引了 1000 名用户。

这个案例雄辩地证明,AI Coding 已能创造出完成度很高的 MVP 产品,而不再是小打小闹的玩具。据我观察,一些 AI 团队的新产品,AI 生成代码的占比高达 90%;即使是成熟产品,AI Coding 的采用率也普遍在 40% 以上。

没用过 AI Coding 的朋友,真的该抓紧试试了。以下是一些负责任的推荐:

  • Cursor
  • Codeium
  • Amazon CodeWhisperer

一些朋友反馈 Augment Code 作为新晋产品体验更智能,我暂未尝试,不做推荐,大家可自行体验。

关于 Code Review,一位在顶尖 Agent 公司的朋友推荐使用 Code Rabbit

顺便提醒,Windterm 自被 OpenAI 收购后,其 Claude 模型稳定性欠佳,不建议现在入坑。而 Claude Code 和 Gemini Cli 更适合程序员群体,普通用户脱离图形界面去使用它们,学习成本较高,不推荐。

其他值得关注的宝藏产品

除了主流赛道,还有一些零星的、却极具价值的产品值得推荐。

让 AI 融入思考:flomo

好的 AI 功能,不在于花哨或专业,而在于它能真正融入用户的工作流,让人爱不释手。flomo 便是典范。

它的 AI 功能设计得恰到好处:

  1. 相关笔记:通过向量匹配,自动呈现语义相似的历史笔记,无需额外总结,即可温故知新。
  2. AI 洞察:基于相关笔记,AI 会洞察你在特定主题下的认知共性与盲点,提供主动启发。

打磨 Prompt 如同打磨产品。flomo 创始人少楠为了”AI 洞察”,亲自迭代了数百版 Prompt,只为让 AI 更自然、不自嗨地服务用户。flomo 的每个 AI 功能都非”为 AI 而 AI”,而是像溪流般自然延伸。当一个人记录渐多,便需要回顾;AI 回顾的前提是找到相关内容,再基于此进行洞察启发。

如果说今年的 Agent 产品是将未来带到现实,那么 flomo 则从另一个视角出发,沿着真实的用户需求,一点一滴地将服务做得更贴心。

体验渠道:

  • flomo App 或网页版

本地 AI 对话枢纽:LobeChat

这是一个本地多 API 集成的 AI 对话客户端和本地知识库工具,在 Github 上拥有近 3 万星标。它允许你自定义提供 AI 服务的云厂商。

如果你需要:

  1. 一次性对比多个 AI 模型对同一 Prompt 的回应质量。
  2. 无缝的本地 RAG 知识库体验。
  3. (可选)体验 MCP 功能。

用它就对了!

体验渠道:

  • LobeChat Github 页面

Prompt 工程利器:Coze

字节出品的 Prompt 工程工具,我最喜欢它的 Prompt 调优管理功能。如果你主要针对国内模型进行 Prompt 优化,它非常好用。

在帮助朋友打磨产品功能所需的 Prompt 时,我就使用了 Coze。它能批量运行 Benchmark,并对结果进行评分,极大提升了效率。唯一的遗憾是目前仅支持火山方舟提供的模型列表,希望未来能支持海外模型。

体验渠道:

  • 扣子(Coze)官网

AI 时代的个人资产管理器:Chat Memo

推荐这款产品,一方面是因为它在该场景下的体验确实无出其右,另一方面也为自己的产品打个广告。这是一款在 AI 时代人人适用,且未来价值巨大的工具。

它能帮你解决 AI 对话分散在各个平台,难以沉淀和搜索的痛点。安装浏览器插件后,即可实现:

  • 自动、无感地备份你在各大 AI 平台的对话记录。
  • 跨平台、跨对话的全文语义搜索。
  • 数据默认存储在浏览器本地,完全属于你自己。

详见:《Chat Memo:构建 AI 时代最重要的个人资产》

体验渠道:

  • Chrome 应用商店搜索 Chat Memo

个人 AI 工具推荐速查表

需求场景推荐模型/产品备注
日常综合/移动端豆包全能、免费、快速,语音和多模态体验优秀
高质量文本生成Gemini 2.5 Pro逻辑、推理、长文本能力顶级
创造性/灵感启发DeepSeek V2结果随机性高,适合头脑风暴
多模态/视觉识别Gemini 2.5 Pro, Qwen-VL 系列前者综合强,后者视觉识别顶尖
代码生成/开发Claude 3.5 Sonnet, Cursor前者是模型,后者是集成工具,审美和能力俱佳
文生图(免费)豆包, Google Imagen豆包综合易用,Imagen 产品设计质感强
文生图(专业/付费)Midjourney艺术感、精细度无可匹敌
文生视频可灵(Kling), Luma Dream Machine前者稳定易用,后者物理效果惊艳
通用任务 Agent元笔为 AI 配备云电脑,想象空间巨大
深度信息研究Kimi 智能体 (中文), Gemini DR (英文)Kimi 中文信息挖掘深,Gemini 免费可访问外网
API 调用(出海)Gemini 2.5 系列
API 调用(免费)智谱提供永久免费推理额度

结语与展望

写完这份盘点,才猛然惊觉 2025 上半年竟已发生如此多的变革。

清单上的每一个新产品,若放在前 AI 时代,都足以称得上”炸裂”或”颠覆”。而如今,它们却密集地在短短半年内涌现。这半年的变化,实在太快了。

DeepSeek V2 进一步巩固了中国 AI 在国际舞台的地位;元笔则率先掀起了通用 Agent 的浪潮。豆包生图和可灵 AI 加速了 AIGC 的全民普及,而 Luma 的视频生成技术更是宣告了 AI 已能以假乱真,在低维空间模拟高维世界的物理规律。同时,夸克高考志愿 Agent 等应用的成功,也证明 AI 正在从浅水区加速潜入各个垂直场景的深水区。

AI 百日,恍若数年。

展望下半年,我直觉应用侧将呈现两大趋势:

  1. AI Agent 的能力将更加”垂直化”与”可靠化”:通过高质量的垂直数据和深度对齐的垂类模型,Agent 将在特定领域提供高度可信赖的专业服务。
  2. 个人化、私有化的 AI 服务将兴起:基于个人数据(如聊天记录、笔记、邮件)训练的专属 AI 模型,将成为真正懂你的”第二大脑”。

前者或许在下半年就能迎来爆发,后者则可能要到明年上半年才会有更多落地探索。

潮水仍在奔涌,探索永无止境。以上,便是我在 2025 年上半年所见所思,并诚意推荐的 AI 模型与产品清单。

云知 AI | 你的 AI 前沿资讯站

追踪最新 AI 动态,读懂前沿技术趋势。从行业应用到深度解析,「云知 AI」为你一网打尽。我们致力于提供最快、最准、最有价值的 AI 资讯,助你轻松把握人工智能的现在与未来。

© 版权声明

相关文章