9,801
0

AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

当谷歌让AI学会”偷窥”网页时会发生什么?

说实话,谷歌这次的新功能让Gemini模型变得像个有点过于热心的助理,突然获得了”看网页”的超能力。
想象一下这个场景:

  • 你的Gemini助手:“亲爱的主人,我刚刚’不小心’浏览了您的浏览记录…”
  • 你:“什么?!那只是研究!纯粹的研究!”
  • 重点来了*:
  • “噢,原来网页长这样” – Gemini现在不仅能看文字,还能理解PDF和图片内容
  • 比人类更快 – 它读一个网页的速度可能比你读完这句话还快
  • 非自愿分享 – 等于给每个网页发了一张”被AI扫描”的VIP卡
  • 有趣的是,5月28日推出的这个功能让Gemini摇身一变,成了网页界的福尔摩斯,只不过它不戴猎鹿帽,只戴”https://”前缀。
    技术宅们可能会兴奋地说:“哇!URL上下文处理!”但普通人的反应可能是:“所以…现在AI会在我看网页时也在暗中偷看?”
    谷歌这波操作可谓是把搜索老本行玩出了新花样:让AI不仅会搜,还要学会偷瞄。下一次,也许我们该给”浏览网页”改个名字叫”与AI共读时光”?
    AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

    谷歌产品负责人的”无脑推荐”引发热议

    Logan Kilpatrick——这位Google产品界的”顶级大脑”——公开宣称某个Gemini API工具是他的”最爱”时,科技圈瞬间沸腾了。”无脑选项”这个词从他嘴里说出来,简直就像大厨推荐外卖一样荒诞又可爱。

    为什么这是”无脑”选择?

  • 一键开启,智商闲置:据说这款工具智能到能让用户彻底放弃思考,Logan的原话是:”设置完就不用管了,就像自动驾驶,但比你的Tesla靠谱多了。”
  • Logan的”盲目信任”:他在内部测试时甚至尝试用这个工具替他回复邮件,结果”客户居然没发现我在用AI糊弄他们”。
  • 工程师的暗黑幽默:团队私下调侃称,如果这玩意儿出bug,可能会让整个硅谷的开发者集体”无脑宕机”。
  • 网友炸锅反应

  • “所以……谷歌现在鼓励我们不带脑子干活?”
  • “终于等到官方认证的‘降智神器’了!”
  • “Logan是不是偷偷用这个工具写了自己的职位描述?”
  • 目前尚不清楚这款工具是否会像Google的其他服务一样突然消失(RIP Google+),但至少在Logan的”无脑担保”下,大家已经摩拳擦掌准备试试——反正,”最坏也就是变得更蠢一点”。

  • Pro Tip:* 如果你发现自己的代码开始自动写诗,别慌,那可能是Gemini在帮你开发隐藏艺术天赋。
  • AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

    当URL遇上AI:是“瞄一眼”还是“吃干抹净”?

    你平时把链接甩给AI对话框,就像塞给路人一个外卖单:“哎,帮我看看这家店有啥好吃的?”——对方可能草草扫两眼,告诉你“哦,他家有汉堡”(但其实后面还有十二页菜单)。
    URL Context 可不是这种敷衍型选手。它是AI界的“光盘行动”执行者,接到一个链接,直接发动以下技能:
    34MB文档?一口闷!

  • 管你是PPT还是财务报表,只要不超过这个大小,直接全盘吸收,连页脚的免责声明都给你分析透彻。
  • 普通AI:“这个PDF好像有字…”
  • URL Context版AI:“第三页表格第二行的数据环比增长12%,但脚注说采样误差±5%,建议谨慎引用。”
  • 图片?当阅读理解做!

  • 别人看到PNG:“嗯,是张图。”
  • 它看到PNG:“根据柱状图,您二月份的摸鱼时长比一月份增加了300%。”
  • 格式?通吃!

  • HTML、CSV、JSON… 在它眼里全是“知识小饼干”,连HTML里藏的那段注释都能给你挖出来。
  • 怎么用?两种姿势:

  • API玩家:官方文档手把手教你编程调用,堪称AI界的“满汉全席烹饪指南”
  • 体验派:去Google AI Studio直接玩,效果堪比“让AI替你读完整本《战争与和平》还划重点”
  • 所以区别在哪?一个是让AI“扫一眼”,一个是让它“吃到撑”——而你,终于可以从“AI好像没看完”的焦虑中解脱了。
    AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

    那个说RAG要完蛋的家伙

    最近在《Towards Data Science》上蹦出来一篇文章,作者托马斯·里德(Thomas Reid)用他那尖锐如键盘侠的笔法,毫不留情地把URL Context Grounding(UCG)称作「给RAG的又一颗棺材钉」。

    UCG:RAG的新克星?

    这位老哥的意思是,UCG就像是一个拿着锤子的路人甲,路过RAG的葬礼现场还不忘再补一钉——搞得好像RAG已经是个死透了的古董一样。

    UCG到底干啥的?

  • 不像RAG那么磨叽:不用瞎折腾检索再生成,直接把URL里的内容拽出来用。
  • 保证新鲜度:毕竟链接里的信息比某些检索系统里积灰的数据要新得多。
  • 减少幻觉风险:少一层检索环节,少一次AI编故事的机会。
  • 总之,UCG就像那个抢了RAG盒饭的年轻人,笑眯眯地说:「前辈,您该退休了。」
    AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

    Google URL 大法:如何用网址打得 RAG 满地找牙?

    RAG 那点事儿

    伙计们,让我们聊聊 RAG(当然不是那种修修补补的破布),这个让大语言模型从书呆子变身万事通的神奇技术。它就像给模型装了个”知识补丁”,专治各种”训练数据过时综合症”。
    想当年我们用大模型时:

  • 问它最新 iPhone 价格?回答:”我在2022年就停止学习了…”
  • 问某个小众技术?回答:”噢,我猜盲猜一下吧…”
  • 太惨了吧!于是人类发明了 RAG,让模型也能翻翻小红书(不对,是外部知识库)。

    RAG 的流水线作业

    这套系统比米其林三星厨房还讲究,来看它的五道大餐:

  • 原材料采购
  • 把整个互联网当超市,见啥抓啥
  • 文档、网站都不放过,统统装进知识背篓
  • 精细刀工
  • 把大段文本切成寿司大小
  • 否则模型可能会噎着消化不良
  • 数字调味
  • 扔进嵌入模型的魔法锅中
  • 熬制成营养丰富的数学汤
  • 冷藏保存
  • 把这些数字能量棒存入向量冰柜
  • 保持新鲜度随时取用
  • 即点即做
  • 用户提问就像点外卖
  • 先翻冰箱找最近似的料理包
  • 再加入问题原汤煮一锅特色回答
  • 简直是AI界的米其林三星服务!但问题是…这套流程比我奶奶做红烧肉的工序还繁琐啊!

    Google此刻出手

    正当RAG觉得自己是AI界最靓的仔时,Google默默掏出了URL黑科技…(此处省略三千字)

  • 所以说做人(做AI)要低调,谁知道什么时候会杀出个程咬金呢?*
  • AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

    当 URL 遇到 AI:RLG 架构的神奇魔法

    各位技术宅请注意!今天我们聊点厉害的——RAG(检索增强生成),但这次,有个更酷炫的小兄弟可能抢了风头,那就是 URL Context Grounding

    偷懒式 AI 技术的崛起

    想象一下:你正在搭建一个 AI 产品,里面要接入网络数据。传统流程大概是这样:

  • 爬网页(还得防反爬)
  • 拆内容(烦人的分块)
  • 塞向量(坐等 OOM 报错)
  • 建索引(然后发现查不准)
  • 救命!这也太“管道虫”了吧!*
  • Thomas Reid 跳出来说:“慢着!何必这么卷?我这儿有个一键开轰的办法!”
    是的,URL Context Grounding 直接拍桌子表示:「喂,AI!看这个 URL,给我答案!」

    AI 变侦探:PDF 里的精准数据挖掘

    比如,你丢给 Gemini 一个 特斯拉 50 页的财报 PDF 链接,问它:「嘿,哥们,总资产和总负债在第几页呀?」
    Gemini 微微一笑,翻到第 4 页的表格,唰唰两下,精准揪出数据——而这一切,根本没有从 URL 里扒文本、存向量!
    如果是传统 RAG:
    摘要:「特斯拉的财务状况……稳定……」(?糊弄学大师)
    URL Context Grounding:「第 4 页,表格第二行,『总资产:1,234 亿美元』,精确到小数点后两位!」

  • 这才叫 AI 的真本事——*比人类财务总监还会读财报!
  • 极简代码,极猛效果

    开发者福利来了!你不用再:
    搭建数据管道
    调优向量检索
    和「为啥查不准?」的报错搏斗
    只需把 URL 喂进去,几行代码,精准答案到手
    真正的技术趋势是:让 AI 学会自己找路,而不用我们铺铁轨
    AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

    特斯拉文件泄密大会:当AI遇到10-Q报表

  • 第一节:官方文件的奇幻漂流*
  • 各位观众朋友们大家好,今天我们来看一份来自特斯拉的神秘文件。不是车主手册,不是召回通知,而是——当当当当——SEC 10-Q申报文件第4页!

  • 第二节:Google AI实验室奇遇记*
  • 不知道是哪位天才工程师突然想到:

  • “嘿,我们把特斯拉财报丢给AI玩玩怎么样?”*
  • 于是乎,一份严肃的财务文件开始了它的AI冒险之旅。以下是我们的发现:

  • AI眼中的特斯拉:可能以为这是个卖电灯泡的公司
  • 10-Q报表:被AI自动翻译成了”10个问题”问卷
  • 第4页内容:在AI看来大概和《哈利波特》第4章一样刺激
  • 第三节:意外收获*
  • 最精彩的永远是测试过程中的那些意外:

  • AI试图给财报配图——建议用火箭发射的gif
  • 自动生成的摘要写着:”特斯拉主要业务:让空头哭晕在厕所”
  • 情感分析结果显示:本报表表达了CEO复杂的推特情绪
  • 第四节:严肃声明(并不)*
  • 当然啦,这只是我们拿着官方文件做的一些不太正经的小实验。真正的财务分析请咨询:

  • 你的会计师
  • 你的财务顾问
  • 或者马斯克的推特(不建议)
  • AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

  • 电脑居然偷看了员工分手信?!*
  • 一个平静的午后,作者像往常一样测试”URL Context”这位”信息挑食王”的能力。
    在翻阅PDF文档时,突然发现了藏在末尾的彩蛋:

  • 公司机密文件:一封写给即将”毕业”(懂的都懂)员工的告别信。
  • 遣散条款大曝光:详细到连咖啡机的赔偿金都列出来了(不知道包不包括带走前台小姐姐的微信)。
  • 系统看完沉默了:AI默默计算了一下自己的”被拔电源补偿金”,连夜给自己上了个意外险。
  • 严谨的技术测试突然变成了职场吃瓜现场,这款工具怕不是要改名叫“HR克星”
    (测试结论:该工具不仅擅长找信息,还很擅长找到让人尴尬的信息)
    AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

    公司机密大作战:星号背后的秘密

    原来公司文件里那些神神秘秘的星号(*)是这样玩的!让我们揭开这个有趣的小秘密:

  • 员工离职日期去哪了?
  • 被三个小星星(*)吃掉了!

  • 为什么吃日期?
  • 因为它们属于公司的”见不得人但又无关紧要”信息俱乐部
    文件脚注里藏着官方解释说:
    “我们把这些鸡毛蒜皮的隐私信息像变魔术一样’变没’了,还贴心地用*提醒你:这里原来有东西哦!”

  • 重点来了*:
  • URL上下文就像侦探一样,成功破译了这个星号密码
  • 公司把这事说得清新脱俗:既保护了隐私,又不会影响你理解主要内容
  • ⭐⭐⭐现在不止是装饰符号,更是企业版”马赛克”
  • AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能

    这个阅读小能手,也有它的小倔强

    你以为这个URL Context是个什么都能吞的”信息黑洞”?不不不,它可是个很有原则的小家伙!

    三步走得比刘翔还快

    这家伙处理URL的标准流程可以说是”稳准狠”:

  • 先翻自己的小本本——看看过去有没有记录
  • 找不到就立刻上网冲浪——实时抓取新内容
  • 收费?免谈!——遇到付费墙立刻打退堂鼓
  • 它的几个”不”原则

  • 不看VIP内容:你以为你是VIP了不起啊?人家根本不甩你
  • 不抢别人饭碗:YouTube、Google Docs这些都有专门的API小弟处理
  • 不吃撑着自己:一次最多20个URL,单个不超过34MB(相当于一顿自助餐的量)
  • 计费方式比体重秤还诚实

  • 按Token收费:吃得越多,账单越厚
  • 逼你减肥:开发者不得不”精准投喂”,避免浪费
  • 未来趋势:AI也开始”啃老”了

    基础模型现在越来越像大学生——在外面生活久了,把原本需要家长(开发者)操心的家务活都学会了!但别指望它完全替代RAG系统,毕竟家里那些私房钱(企业内网文档)还是得自己保管才放心。

  • 作者”AI观察者”(其实就是个整天盯着AI看的闲人)供稿于公众号”机器之心”,让我们一起见证AI是如何变得越来越”妈妈再也不担心我”的吧!*
  • © 版权声明

    相关文章