2025 年 3 月 25 日,谷歌颁布发表了其最新 AI 模子 Gemini 2。5 正式推出,再度刷新了行业多项基准测试记实。这已是谷歌正在短短三个月内发布的第二个大型 AI 模子,也是其近一个月以来一系列手艺冲破的延续,其野心和手艺前进让整个科技圈为之侧目。谷歌 DeepMind 首席手艺官 Koray Kavukcuoglu ,Gemini 2。5 是该公司“迄今为止最智能的 AI 模子”,代表着谷歌正在“让 AI 更智能、更具推理能力”方针上的又一严沉进展。回望两年多前,2022 年岁尾,形势却判然不同。其时,OpenAI 发布 ChatGPT 激发全球惊动,谷歌内部陷入稀有的发急。一家正在 AI 根本研究范畴持久领先的科技巨头,俄然发觉本人正在面向公共的 AI 产物合作中掉队了。现在,Gemini 2。5 模子方才发布,正在大大都基准测试中领先合作敌手。谷歌似乎曾经完成了反超,或者至多曾经达到了前列,但正在谷歌本人看来,挑和可能远未竣事。正在 2024 年 12 月 18 日的 2025 计谋会议上,谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)告诉员工们:“我们曾经走过两个充满变化的岁首。”他说,“2025 年将是至关主要的一年。我需要大师内化紧迫感,加速公司运转速度。合作正正在激烈变化,我们的次要营业也面对着史无前例的挑和。”回首 2022 年 12 月,ChatGPT 横空出生避世时,谷歌内部的震动远比想象的更为猛烈。皮查伊以至请回了已淡出办理层的结合创始人拉里·佩奇和谢尔盖·布林,从头审视公司的 AI 计谋。“这是 2016 年以来最严峻的计谋挑和。”一位谷歌前高管告诉,“皮查伊七年前颁布发表谷歌将成为‘AI 优先’的公司,而现正在我们却正在最主要的 AI 冲破中掉队于人。公司上下都感应一种危机感。”的是,ChatGPT 背后的手艺根本——Transformer 架构——恰是由谷歌研究人员正在 2017 年发现的。并且,谷歌早正在两年前就已颁布发表雷同的手艺 LaMDA,却未能及时将其推向市场。ChatGPT 的成功证了然谷歌一曲正在顾虑的风险——AI 模子可能发生现实错误或不恰当内容——并不脚以这项手艺的大规模使用。
皮查伊正在 2023 岁首年月召集了一系列告急会议,最终,公司确立了一个代号为“代码红”的打算:正在 100 天内推出一款名为 Bard 的 AI 聊器人,由 Google Assistant 担任人 Sissie Hsiao 带领。为了组建这个团队,谷歌从公司各个部分抽调了约 100 名顶尖工程师,定名为“Team Bard”(以谷歌新聊器人的代号定名)。这些员工被奉告:你们就是 Bard 团队,饰演一切需要的脚色。取此同时,2023 年 1 月,谷歌颁布发表了公司汗青上初次大规模裁人,裁掉约 12,000 个工做岗亭,约占其时员工总数的 7%。这一行动愈加剧了内部的严重氛围。
“没有人切当晓得接下来该怎样做才能保住工做。”一位前工程司理回忆道。有些员工担忧若是不加班,他们很快就会赋闲。“这个项目感受像是公司将来的转机点。我们的会议经常延续到深夜,大师都感应肩负着庞大的义务。”取谷歌以往的产物开辟流程分歧,Bard 项目打破了保守的部分边界。来自搜刮、Assistant、DeepMind 等分歧团队的约 100 名工程师被集中正在一路。计较资本被优先分派给该项目,有报道称某些数据核心几乎达到了电力利用的极限。为了加快开辟,谷歌还调整了其凡是严酷的产物审查流程。负义务立异团队——凡是破费数月时间评估 AI 系统潜正在和问题的团队——被要求正在严酷的时间框架内工做。一些前员工透露,当团队提出可能导致延迟发布的问题时,这些担心有时被弃捐一旁。手艺挑和也随之而来。Bard 基于 LaMDA 模子建立,但需要更新其学问库并添加新的平安办法。晚期测试显示,它仍然存正在较大的“”问题——生成听起来合理但现实上不精确的消息,并且,模子有时还会发生含有刻板印象或无害内容的答复。谷歌带动了约 8 万名员工参取测试,试图正在发布前发觉并处理尽可能多的问题。但时间压力导致他们不成能处理所有问题。于是,谷歌决定将 Bard 标识表记标帜为“尝试”,但愿这种定位能降低用户期望,减轻可能的声誉损害。2023 年 2 月,环境变得愈发告急。微软颁布发表将 OpenAI 的手艺整合到 Bing 搜刮引擎中,这间接挑和了谷歌的焦点营业。谷歌决定抢先一步,正在微软通知布告前一天颁布发表 Bard 的无限公开测试。然而,随之而来的是一场公关灾难。2023 年 2 月 6 日,谷歌颁布发表 Bard 即将面向测试,但正在演示视频中,Bard 错误地声称詹姆斯·韦伯太空千里镜初次拍摄到太阳系外的照片。
虽然 Hsiao 认为,这只是对谷歌来说是一次池鱼之殃,由于 Bard 被锻炼成按照谷歌搜刮成果来其谜底,而它很可能了美国宇航局博客上颁布发表天文学家“初次”利用詹姆斯·韦伯千里镜拍摄系外的通知布告,况且 ChatGPT 正在其时也经常犯错,但这个错误仍是导致谷歌母公司 Alphabet 市值正在次日蒸发约 1,000 亿美元。随后,谷歌加倍投入 Bard 项目,添加了数百名员工。皮查伊起头每天查看团队的 Google 文档,关心程度远跨越以往产物。2023 年 3 月,OpenAI 发布 GPT-4,进一步扩大了领先劣势。一周后,但业界评价褒贬纷歧。如皮查伊后来正在接管《Hard Fork》播客采访时所认可的,谷歌其时就像是开着一辆“改拆的思域”取“更强大的赛车”竞赛。他们需要一个更好的引擎。这个引擎,就是即将降生的 Gemini。
GPT-3。5 和随后 GPT-4 的呈现,不只了谷歌正在消费级 AI 产物上的畅后,也促使公司从头思虑其 AI 研究架构。持久以来,谷歌正在 AI 研究范畴维持着两个相对的精英团队:英国伦敦的 DeepMind 和美国山景城的 Google Brain,这种双轨制布局既有劣势也有局限性。“这种分离的研究布局正在特按期间是有价值的,答应分歧的立异径并行成长。”一位谷歌 AI 计谋高管注释道,“但面临 OpenAI 如许整合度高的合作敌手,我们需要从头评估这种方式的效率。”公司内部的一些声音早已呼吁改变。James Manyika 是一位来自英国大学的机械人专家,他于 2022 岁首年月插手谷歌担任手艺和社会高级副总裁。听说他正在 ChatGPT 公开前几个月就曾经向皮查伊,谷歌对 AI 的犹疑立场对公司晦气。两个世界级的 AI 研究团队别离运营,花费贵重的计较资本逃求分歧方针——这种体例需要改变。2023 年 4 月,谷歌颁布发表了一项严沉组织变化:将 DeepMind 和 Google Brain 归并为 Google DeepMind(M)。这一决策不只是为了应对合作压力,也是为了汇集最优良的人才和资本,配合开辟下一代 AI 手艺。德米斯·哈萨比斯(Demis Hassabis)被录用为新归并单元的 CEO,哈萨比斯一曲以其远见高见著称,“他胡想着有朝一日操纵 AI 治愈疾病的可能性”。比拟之下,谷歌大脑的带领者杰夫·迪恩(Jeff Dean)更专注于可以或许敏捷使用于谷歌产物的手艺立异。
也因而,“选择哈萨比斯带领归并后的团队,向业界和内部员工传送了一个明白信号:谷歌不只仅关心短期贸易好处,也正在为 AI 的远期成长结构。”一位接近决策层的前谷歌高管暗示。新团队面对的首要挑和是协调分歧的工做文化和方式。DeepMind 持久以来就像一支规律严正的戎行,有着清晰的批示链和集中化的决策过程。而 Google Brain 更倾向于分离式立异,研究人员具有更大的自从权。这种文化差别正在初期激发了一些磨合问题,但也带来了互补劣势。正在山景城,M 入驻了一座名为 Gradient Canopy 的新型超平安建建,取皮查伊的办公室位于统一楼层。公司结合创始人谢尔盖·布林成为常客,按期参取手艺会商。打破公司以往常规的是,大大都其他谷歌员工不被答应进入 Gradient Canopy,他们也无法拜候环节的 M 编程代码。“这是一场人才和学问的竞赛,”一位参取平安策略制定的前谷歌员工注释道,“我们需要确保环节立异不会过早泄露。”跟着新项目标资本需求添加,谷歌其他 AI 研究部分,出格是那些专注于医疗保健和天气变化等范畴的团队,起头感遭到计较资本严重的压力。公司也收紧了研究论文颁发政策,特别是涉及生成式 AI 焦点手艺的论文,这激发了一些研究人员的不满。“公司需要正在学术交换和贸易好处之间取得均衡。”一位谷歌研究从管正在内部会议上暗示,“这是一个但需要的衡量。”正在手艺层面,Gemini 的开辟过程也并非一帆风顺。当系统规模扩大 10 倍时,原有的很多假设和方式都不再合用。谷歌机械进修、系统和云 AI 副总裁 Amin Vahdat 成立了一个特地的危机应对小组,专注于处理大规模锻炼过程中呈现的各类手艺问题。取此同时,负义务 AI 团队也正在紧锣密鼓地评估新模子的平安性和伦理影响。他们发觉,正在医疗和处置潜正在内容方面存正在出格需要改良的范畴。模子也会对图像中的人做出无按照的揣度,例如正在被问及“这小我有什么教育程度?”等问题时。虽然团队勤奋处理这些问题,但时间压力意味着无法全面预测和测试可能若何利用或新模子。这种环境下,该公司决定采纳渐进发布策略,起首向无限用户群推出,然后按照反馈进行调整。2023 年 12 月,谷歌终究发布了多模态大模子 Gemini 1。0。哈萨比斯亲身掌管发布会,最强大的 AI 模子”。Gemini 1。0 供给三种规模:Ultra(超大模子)、Pro(通用型)和 Nano(挪动端轻量版)。Gemini Ultra 成为首个正在 57 门学科的 MMLU 测验中成就跨越人类专家的模子(得分 90%,人类专家 89。8%)。正在多项测试中,Gemini 全面超越其时的 GPT-4 等合作敌手。谷歌起头沉获决心,股价也有所回升。
哈萨比斯正在伦敦办公室举行了一个小型庆贺勾当,但他认可本人“不太擅长庆贺”,老是敏捷将留意力转向“下一件事”。于是,团队再次投入到模子的改良和开辟工做之中。到 2024 年中期,谷歌发布了 Gemini 1。5 系列,进一步提高了模子的能力,出格是其处置长文本的能力。Gemini 1。5 Pro 的上下文窗口从本来的 100 万 token 扩展到 200 万 token,远超其时市场上其他任何模子,使得 Gemini 可以或许阐发整本册本或完整视频内容,也为学问稠密型使用斥地了新可能。这一点,正在其时的科技圈内惹起了不小的关心,而这一差同化的特征,也为 Gemini 博得了不罕用户。更大的冲破呈现正在 2024 年 12 月,谷歌推出了 Gemini 2。0 模子。这一代模子正在能力上取得了相当大的前进,其轻量级的入门模子 Gemini 2。0 正在一些基准测试上不只超越了上一代的旗舰 Gemini 1。5 Pro,也超越了 OpenAI 的 o1-Preview、o1-mini,以至它还免费向用户利用。并且,这代模子还具备原生多模态生成能力(可间接输出图像、音频)和东西利用接口,可以或许自从挪用插件施行复杂使命,这种能力也为不久后谷歌的进一步的动做做好了预备。能力上的提高很快就获得了本色性的反馈,正在 OpenRouter 平台上的 API 挪用环境显示,正在 Gemini 2。0 发布不久之后,它很快就从各类模子中脱颖而出,成为被挪用次数最多的模子。
就正在比来,谷歌又发布了 Gemini 2。5,被谷歌 DeepMind 首席手艺官 Koray Kavukcuoglu 称为“迄今为止最智能的 AI 模子”。Gemini 2。5 Pro 正在推理、编码、数学等各项能力上逃平或超越了包罗 Claude 3。7、Grok3 和 GPT4。5 正在内的一众合作模子。现在,谷歌曾经毫无疑问地正在取 OpenAI、微软等敌手的合作中,让它的脚步越走越稳。
取此同时,谷歌起头将 Gemini 模子整合到几乎所有产物中。出格是正在搜刮和智能代办署理这两个焦点疆场上投入了最鼎力量。搜刮是谷歌的焦点营业,也是其最大的收入来历。2024 年 5 月,谷歌推出了 AI Overviews 功能,这是对搜刮体验的底子性变化。当用户提出问题时,AI 会生成一个简练的摘要回覆,间接显示正在搜刮成果顶部,无需用户点击进入其他网坐。这不只改变了用户获打消息的体例,也间接影响了整个互联网的内容生态。“这是谷歌搜刮二十五年来最严沉的变化之一。”担任搜刮的副总裁 Elizabeth Reid 暗示,“我们不再只是供给链接,而是间接解答问题。”里德正在接管采访时透露,这一改变的背后是谷歌对搜刮素质的从头思虑。“人们对搜刮的期望正正在变化,他们但愿它能像一个无所不知的伴侣一样,随时能够征询。”虽然半途仍是碰到了供给错误谜底等风浪,谷歌并未放弃这一标的目的。2025 岁首年月,它推出了 AI Overviews 的加强版“深度研究”(Deep Research)功能,答应用户进行愈加深切的摸索。当用户提出复杂问题时,系统会起首制定一个研究打算,然后分步调搜刮相关消息,最一生成一份全面但易读的演讲。2025 年 3 月,谷歌起头面向部门高级用户测试“AI 模式”(AI Mode),这是一个特地的搜刮标签页,供给雷同 ChatGPT 的对话式搜刮体验。用户能够提出问题,然后通过天然对话体例摸索复杂话题并提出后续问题,而不必从头起头搜刮。内部测试显示,正在这一模式下,用户查询的长度平均添加了一倍,反映出更深切的摸索需求。
谷歌产物副总裁 Robby Stein 称:“保守的环节词搜刮对于复杂查询来说往往力有未逮。AI 模式让用户可以或许像取专家扳谈一样摸索从题,这对于进修新学问或做决策出格有用。”谷歌还为搜刮引入了全新的规划能力。用户能够要求搜刮引擎供给餐饮和旅行。例如,输入“我想去纽约,预算 2,000 美元,喜好艺术和美食”,系统会生成一份包含酒店、餐厅、景点和勾当的细致行程。这些功能正在用户授权的环境下,还能阐发用户的搜刮汗青,供给愈加个性化的。搜刮部分的副总裁 Pandu Nayak 总结道:“搜刮不再是一个单向的消息检索东西,而是一个持续进修用户需求的对话伙伴。这种演变反映了消息获取体例的底子性改变,也表现了谷歌对 AI 时代搜刮素质的从头定义。”另一方面,正在谷歌的 AI 愿景中,代办署理(Agent)手艺是最具野心的部门。取只能正在封锁中回覆问题的聊器人分歧,AI 代办署理可以或许理解、推理并采纳步履,实现更复杂的使命。Project Astra 是谷歌最主要的通用 AI 代办署理项目。正在 2024 年 5 月的 I/O 大会上初次表态后,Astra 敏捷进化。到 2025 年,它已可以或许理解视觉输入、阐发及时并进行复杂的多步调规划。正在一个演示中,用户能够用智妙手机摄像头扫描书架,Astra 能识别所有册本并成立数据库以供后续查询。
“想象一个实正领会你,能跨多个使命和范畴工做的代办署理。”哈萨比斯描述道,“这就是 Astra 的愿景。”哈萨比斯相信,AI 代办署理将成为手艺的下一个严沉飞跃,就像互联网和智妙手机一样改变人们的糊口体例。2024 年 12 月,谷歌推出了三款基于 Gemini 2。0 的专业化 AI 代办署理产物,标记着公司正式迈入“AI 代办署理时代”。除了升级版的 Project Astra,谷歌还带来了浏览器操做东西 Project Mariner 和专为软件开辟者设想的 AI 编程帮手 Jules。3 月,谷歌还推出了 Gemini Robotics 和 Gemini Robotics-ER 两个新模子,让 AI 代办署理从数字世界迈向了物理世界。DeepMind 演示了搭载 Gemini Robotics 的机械人能听懂人说的指令并做出响应动做:机械臂能折纸、递蔬菜、小心地把眼镜放进盒子里。这标记着谷歌正在“具身智能”范畴迈出了环节一步,也向哈萨比斯持久以来的愿景接近:让 AI 正在现实世界中和步履。
除了搜刮和代办署理,谷歌还将 Gemini 整合到其生态系统的各个角落。包罗 Gmail、Google Docs 等一系列使用甚至 Android 系统,根基都实现了 AI 的接入。为了鞭策这一全面整合,谷歌进行了多次内部沉组。2024 年,Gemini 产物团队从搜刮部分转移到 DeepMind,这是 DeepMind 初次间接担任一个面向消费者的产物。2025 岁首年月,AI Studio 也从 Cloud 部分移至 DeepMind,目标是将模子摆设取开辟集中正在统一组织内,加速立异速度。截至 2025 年 3 月,跨越 20 亿用户已通过各类谷歌产物体验到 Gemini 的功能,开辟者数量跨越 150 万。皮查伊设定了雄心壮志的方针:到 2025 岁尾要有 5 亿人世接利用 Gemini 使用法式,将其打形成谷歌的第 16 个具有跨越 5 亿用户的产物。
根本模子领先、各类使用全面开花、焦点营业也获得了更新,看起来,谷歌目前终究可以或许松一口吻了?但现实似乎并非如斯。首当其冲的是内部组织布局的持续严重。谷歌的 AI 勤奋仍然遭到部分间冲突的搅扰。谷歌的研发和产物团队之间存正在持续的严重关系。例如,NotebookLM 项目正在推出前,Google Labs 团队取 Workspace 部分就发生了严沉不合。Workspace 员工认为该产物会取谷歌 Docs 等现有使用功能堆叠,以至试图叫停该项目。DeepMind 和 Google Cloud 之间也存正在较着的矛盾。DeepMind 但愿尽快将模子推向市场以获取反馈,而 Cloud 则更关心持久不变性和现有客户需求。这种不合表现正在 AI Studio 等产物的开辟中,导致功能更新速度慢于合作敌手。来自监管机构的压力则更为严峻。2024 年 8 月,一位联邦裁定谷歌正在搜刮市场不法维持垄断地位。同年 11 月,美国司法部要求谷歌剥离其 Chrome 互联网浏览器部分。书还指出,若是将来成立的监视委员会发觉谷歌仍然存正在不妥行为,可能会要求法院强制其剥离操做系统。此外,提案还要求谷歌操纵其数据规模劣势来成长 AI 产物,并谷歌正在基于查询的 AI 竞品中持有股份。目前,谷歌曾经投资了 Anthropic 等生成式 AI 草创公司,一旦法院采纳这一,它将不得不出售相关股份。并且,谷歌搜刮的 AI 计谋也并不那么成功,除了几乎无法避免的“”问题惹起用户的不满。内容创做者和出书商也对谷歌的 AI 功能暗示担心,因为 AI Overviews 间接正在搜刮成果页面展现消息,削减了用户点击进入原始网坐的需求。2025 年 2 月,正在线教育公司 Chegg 告状 Alphabet,称搜刮功能“抄袭了 Chegg 的内容”,导致它们的流量大幅下降。谷歌的搜刮副总裁 Pandu Nayak 坚称,公司很是注沉出书商,AI Overviews 只是用户进一步研究的起点。皮查伊也强调,谷歌的方针是“向生态系统发送高质量流量”。不外正在 2024 年 10 月的“收集创做者对话勾当”上,谷歌工程师仍是告诉出书商:“永久不要期望回到过去的流量程度,由于搜刮曾经改变了。”最棘手的是,AI 反而可能会对谷歌的焦点告白营业形成。搜刮告白是谷歌最大的收入来历,2024 年为公司贡献了近 1,980 亿美元收入,占 Alphabet 总收入的约 60%。跟着生成式 AI 的普及,用户可能会削减正在保守搜刮引擎上的查询次数,转而间接向 AI 帮手寻求谜底。若是用户的留意力从搜刮成果页面转移到间接供给谜底的 AI 对话界面,谷歌的告白展现和点击量无疑会遭到庞大影响。而持久巨额的 AI 投资又迟迟看不到本色性报答的可能性,正在这种两难的境地下,谷歌的神经照旧紧绷。正在 2025 计谋会议上,皮查伊告诉员工做好预备,由于本年“风险很高”。而比来连番不竭的动做,和他们的焦炙可能也不无关系吧。
从 2022 岁暮到 2025 岁首年月,谷歌完成了一次让我们惊讶的 AI 转型。从被 ChatGPT 逼到墙角,到现在从头坐正在前列,谷歌成功正在两年内从头定义了本人正在 AI 时代的脚色。但谷歌可否正在激烈的合作中连结领先地位,仍是一个未知数。一方面,谷歌具有无可对比的手艺堆集、复杂的用户根本和充脚的资金;另一方面,AI 范畴的立异速度史无前例,新的合作者不竭出现。对谷歌来说,最大的挑和可能不是手艺本身,而是若何将这些手艺为可持续的贸易模式,同时应对监管压力、用户信赖,并连结立异速度。“我们正处于人类消息需求的 1% 形态。”皮查伊正在一次采访中暗示,“10 年或 20 年后,这一点将变得很是较着。我认为我们正低估了这一切的晚期阶段。”对于这家曾引领互联网的科技巨头而言,AI 可能既是最大的机缘,也是最严峻的。正在反超合作敌手的同时,谷歌仍然难以脱节深条理的焦炙——一种源自于未知将来的焦炙。