搜索大变天!谷歌推出 Bard 对抗 ChatGPT,打响保卫战

1.jpg

面对 ChatGPT 的来势汹汹,谷歌彻底慌了。

OpenAI 发布 ChatGPT 也不过是 4 个月之前。但是在这 4 个月里,已经有不少预言,称 ChatGPT 带来的变革,将会颠覆谷歌的现有搜索产品和商业模式。

于是,谷歌 CEO 桑达尔・皮柴(Sundar Pichai) 开启 “战备” 状态:先是在 ChatGPT 问世两周内就拉起了 “红色警报”,然后创始人拉里・佩奇和谢尔盖・布林时隔 3 年再度被紧急唤回。

今天皮柴更是在官网上称,谷歌一直在研发一款名为 Bard 的实验性对话 AI 服务,今天起,谷歌将把它对信任的开发者开放,然后将在接下来的几周内,把它向更广泛的受众开放。

谷歌终于加入了这场智能聊天机器人对搜索引擎发动的大战。

  01 谷歌宣战

谷歌的第 23 号员工,Gmail 的缔造者保罗・布赫海特在 2 月 1 号发推悲观表示,谷歌将会在一两年内被彻底颠覆 —— 当人们的搜索需求能够被封装好的、语义清晰的答案满足,搜索广告将会没有生存余地。而占据全球接近 84% 搜索市场的谷歌,到现在仍然是一家 50% 营收直接来自搜索广告的公司。

图源:推特

眼看 ChatGPT 引起的战火烧到了自家主场,谷歌终于反应过来,在今天宣布推出类 ChatGPT 产品 —— 一款实验性的对话 AI 服务 Bard。

皮柴在今天发出的博文里称,谷歌一直希望通过大语言模型,把这些深度研究和突破变成产品来帮助人们。两年前,谷歌推出了大语言模型 LaMDA,此后,谷歌就在 LaMDA 的基础上,开发出了 Bard。

今天,谷歌将先对信任的开发者开放这项服务,然后将在接下来的几周内,把它向更广泛的受众开放。

谷歌强调,巴德会把世界上的信息知识和谷歌的大语言模型所带来的能力和智能相结合,它会获取网络上的信息,来提供新鲜的、高质量的回复。这意味着和 ChatGPT 受限于 2021 年以前的数据不同,巴德会是基于实时网络数据的,谷歌将把它与 LaMDA 的轻量级模型版本一起发布。

从博文里的图片来看,Bard 也是和 ChatGPT 类似的聊天框形态,能做的事除了简化复杂的主题,比如” 向 9 岁的孩子解释 NASA 的韦伯望远镜带来的新发现 “,还能帮助人们做一些复杂的任务,包括” 计划朋友的新生儿派对 “、” 比较两部奥斯卡提名的电影 “和” 根据冰箱里的食物给出一些午餐点子” 等。

图源:谷歌

在谷歌看来,这个小得多的模型需要更少的算力,从而可以扩展到更多的用户,获得更多的反馈。他们会将外部反馈与自己的内部测试相结合,以确保 Bard 的回答在质量、安全性和真实信息的基础性方面达到高标准。谷歌希望通过这一阶段的测试,来提高 Bard 的质量和速度。

皮柴还在博文里称,很快,谷歌还将很快在搜索中整合基于 AI 的功能。除了像 ChatGPT 一样会将复杂的信息和多个视角提炼成易于理解的回答,谷歌还将进一步提供更多网页信息的选择。

不过,根据硅星人获得的消息,Bard 大部分由华人团队开发,而且这次 Bard 的发布有点赶,在内部算不上完全准备好,所以才在现在以面向有限开发者的形式推出,而非像 ChatGPT 一样,一开始便开放给大众使用。

同时,谷歌内部对 ChatGPT 感到恐惧的另外一层原因,是人才的流失。和很多公司一样,谷歌内部也采用赛马制,有好几个做类似模型的团队,但内部其它大语言模型团队向 OpenAI 流失人才的情况比较严重。

当然,不管内里如何焦虑,皮柴至少在博文里信心满满地宣布,下个月,谷歌将开始让个人开发者、创作者和企业尝试自家的生成语言 API (Generative Language API),该 API 最初会由 LaMDA 提供支持,并有一系列模型可供选择。“随着时间的推移,我们打算创建一套工具和 API,让其他人可以轻松地使用 AI 构建更具创新性的应用程序。”

与此同时,ChatGPT 开发者 OpenAI 背后的金主微软,也在紧锣密鼓地想要把 ChatGPT 整合进自己产品中。

微软正在与 OpenAI 洽谈一笔 100 亿美元的投资,并在年初传出计划将 ChatGPT 添加到自己的搜索引擎 Bing 中,搜索结果将首次显示为带有信息来源的完整句子,这个新的版本会在 3 月左右发布。

而就在皮柴的博文发出不久,微软就宣布,将在明天召开一场发布会,主要就是关于微软和 OpenAI 的合作,以及 ChatGPT 和微软 Bing 搜索的整合。

与此前的危机都不同的是,这是谷歌的搜索根基在 20 多年后第一次受到挑战。几年以后 “Google it.” 会不会让位给 “ChatGPT it.”?这是让人兴奋的地方。Bing 和百度们想追上谷歌,谷歌不想变成雅虎。

谷歌的搜索霸权会在今年被动摇吗?

 02 停滞的搜索

让我们的目光先回到谷歌诞生之初。

拉里・佩奇和谢尔盖・布林在千禧年前夕嗅到了互联网繁荣在即与信息检索陈旧逻辑之间的间隙,贯穿谷歌生命的算法 Page Rank 由此诞生。

20 世纪 90 年代,互联网仅仅是一个为全球 2% 的人受用的先锋概念。网络资源匮乏,雅虎甚至以手工录入的方式就足够建立起最初的互联网搜索概念。1995 年 Alta Vista 出现,互联网历史上有了第一个全网页内容的索引工具,后者第一次设计出爬虫技术(web crawl),并在 1995 年 8 月完整完成了第一次网络爬取。

图源:源于网络

但以 Alta Vista 为首的搜索工具对搜索关键词与索引结果之间的关联分析仍然十分薄弱,这很大程度源于搜索工具最初的受用人群。在互联网普及之前,信息搜索只是服务于文献查找的工具,其框架长久建立在学术圈以关键词加权平均为信息搜索基础的逻辑上。

极度理性且表达精确的学术内容搜索逻辑并不适用于互联网的信息抓取。反映在 Alta Vista 上,就是它能搜索到大量信息,但准确性却非常低。

只有拉里・佩奇注意到了互联网信息之间关联性的利用潜力。

他将互联网想象成一个多节点的矩阵,每一个网页都是 “点”,网页之间的超链接关系则是 “边”。指向一个网页的超链接越多,则这个网页被判断为越重要,这个过程中每个网页都可以找到统一标尺下的重要性参数。

图源:推特

这个这是日后知识图谱技术甚至图计算的最初想象,也是算法作为一种思维第一次进入搜索领域。

受制于互联网的发展阶段,雅虎和 Alta Vista 是不可能产生算法思维的,而 Page Rank 对 Alta Vista 的取代则成为 “搜索” 历史上最闪耀的时刻。

但至今关于 “搜索” 的所有变革,也在 24 年前 Page Rank 诞生那一刻就宣告结束了。

无论是 2001 年出现的百度,2009 年出现的 Bing(当然也包括使用 Bing 核心搜索技术的雅虎),都再也没有逃出以 Page Rank 所建立起的逻辑框架,即把用户的开放性问题转换成互联网信息图谱上具有关联性优先级的、一个更具体的选项扩列,再还给用户去甄别。

2021 年新兴的搜索引擎 You.com,最大的卖点仅仅是集成式的把推特等其他平台的搜索结果分门类得纳入到了信息搜索结果中,并且赋予用户对于信息来源平台一定的权重设计能力。

在搜索的发展停滞中,这样一个 “谷歌的挑战者” 就足够获得 2000 万美元的种子轮融资。

中文互联网世界里没有另一个综合搜索引擎获得长期繁荣,反倒是在移动互联网信息孤岛的压迫下,微信和字节跳动提供的更垂直的搜索服务开始占领百度的内容盲区。

类似 You.com 的搜索引擎短期内仍然不会在国内出现,这是百度遗憾的地方。而无论抖音搜索或是微信搜一搜,也都没有从搜索技术效率上取代百度的野心。一个自有生态内的内容连接器角色已是这类垂直搜索服务的上限,这本质上是新的互联网巨头们适应各自商业逻辑所做的模式创新,而非技术创新。

所以抖音搜索们对抖音重要,对 “搜索” 却不重要。

2002 年加入谷歌并主导设计了后者日中韩文搜索算法的吴军在 2012 年出版的《浪潮之巅》中这样描述 Page Rank:

“虽然今天 Google 和其他搜索引擎相比当初的 Google 已有了长足的进步,但是这种进步基本上属于量变。搜索引擎领域迄今为止的质变只有 Page Rank 取代 Alta Vista 那一次。”

这个判断到现在仍不过时,直到 ChatGPT 带着生成式搜索的面目出现。

  03 未必颠覆一切

ChatGPT 可以写代码、需求文档甚至初步实现所有办公软件的 AI 化,但大部分人用不着这些 —— 就像大部分搜索引擎的用户只是简单的提问,然后要一个答案。

于是撇开这些,ChatGPT 与谷歌(或者百度)相比最大的优势,是它可以 —— 几乎是毕其功于一役的 —— 生成一个极高质量的首条信息结果。

康乃尔大学的研究人员曾经通过眼部追踪实验获得了精确的谷歌搜索结果的用户行为分析。分析结果显示,首条结果获得了 56.38% 的搜索流量,第二条和第三条结果的排名依次降低,但远低于排名第一的结果。

图源:Search Engine Journal

这十分考验 ChatGPT 生成内容的准确性,而这个大型语言模型背后是一个信息来源与即时性的黑盒。

由于 ChatGPT 的回答中并不展示信息来源,用户目前无法从回答中分辨信息真伪。

在即时性上,ChatGPT 无论是以频繁增加标注数据并一次次重新对模型进行预训练的方式,还是用 Fine-Ture 的思路来修改现成的训练结果,都会遇到新的问题。前者是极大的算力成本,后者是新知识对原有知识的过度覆盖隐患。

ChatGPT 是搜索领域苦等的一次效率革命,被认为是一种 “导弹” 对 “弓箭” 的降维打击。但如果说 Page Rank 是算法逻辑第一次进入搜索领域,ChatGPT 也并没有背离这个技术原点。

ChatGPT 的成功基于一场以 1 万个英伟达 V100 GPU 支撑、用深度学习和人工智能对人类信息历史反复咀嚼的苦功。从这个角度上看,它仍然是渐进式的,并非一个完全的颠覆者。

而哪怕谷歌本身,也并不意外 ChatGPT 在技术层面所实现的东西,

去年开发者大会 I/O 上,谷歌展示了大语言模型 LaMDA 如何以冥王星作为对话主体来与人进行交流,这种回答是即时生成的,并不是学习了大量预定义的结果。大语言模型 LaMDA 和多模态多任务模型 MUM 所表现出来的素质,意味着谷歌已经具备与 ChatGPT 相近的 AI 能力。

图源:源于网络

而让皮柴感到紧张的是,ChatGPT 在上线五天就成功吸引了超过 100 万的用户,这个数字在两个月后涨到 1 亿。

OpenAI 做了第一个吃螃蟹的人,而大众接受了它。

而一家市值超过 1.4 万亿美元的大公司注定比小型创业公司更保守。

谷歌人工智能负责人杰夫・迪恩在几个月前对员工表示,倘若通过(ChatGPT)这样的服务提供错误信息,会给谷歌带来更大的 “声誉风险”。

谷歌的一位高级工程师曾在去年公开表示大语言模型 LaMDA“有意识,有灵魂”,随即被勒令停职。他在被停职的前一天把一些包含谷歌及其技术涉嫌宗教歧视的证据交到了一名美国参议员的办公室。

种种困扰,让谷歌即使有了大语言模型 LaMDA,也无法轻易抛出一个可能会乱说话,又容易动摇自己商业化根基的聊天机器人。

但 OpenAI 可以冒这样的风险。

这看起来就像曾经拉里・佩奇和谢尔盖・布林在对雅虎所做的事。现在时隔多年再次因为搜索业务现身谷歌硅谷办公室所需要面对的,是一个神奇,却仍然算力成本困扰笼罩,生成内容充满漏洞的 ChatGPT,两人或许在 OpenAI 的莽撞中看到了曾经的自己。

1997 年,拉里・佩奇和谢尔盖・布林在买下 google.com 域名后,提着穷的叮当响的西装口袋为谷歌找了一年的投资,最后终于在 1998 年遇到了斯坦福校友、太阳公司创始人安迪・贝托谢姆的一张 10 万美元的支票。

今时已不同往日,根据 CB Insights 提供的市场情报,与生成式 AI 概念相关的初创公司已经达到 250 家以上,其中有接近 7 成已经拿到至少天使轮的融资,其中 11% 的公司已经走到 B 轮以上。在这众多初创公司中,价值最高的就是 OpenAI。

那张陈年的 10 万美元支票打开了一扇互联网搜索引擎的门,而人们现在对于 ChatGPT 的信心和期望,也几乎是从那个成功的谷歌延续而来。

谷歌也在近日拿出了 3 亿美元提前布局与 OpenAI 的攻守战。这笔投资给到了 Anthropic—— 一家以前 OpenAI 核心员工为骨干,同样做生成式 AI,并且此前估值已高达 50 亿美元的人工智能公司 —— 换取了后者 10% 的股份,以及一个独家云提供商的身份。

此外,谷歌选择对内部的类 ChatGPT 项目 Bard 压下重注。

与 ChatGPT 不同的是,Bard 在描述中可以涉及当下的时事,这意味着其可以解决 ChatGPT 所欠缺的信息即时性问题。

百度的 “ChatGPT 计划” 也将以生成式搜索的形式出现。目前在内部 “高度机密”,甚至不可以被公开讨论,最终这项会融入目前的百度搜索引擎中。

李彦宏在去年年底的一次内部讲话中表示,AIGC 和 ChatGPT 这些新的技术进展会变成什么样的 AI 产品,

仍然有很多不确定性,但这件事 “百度必须做”。对于这个即将在下个月面世的项目,李彦宏给出的定位是 “引领搜索体验的代际变革”。

现在无论主动还是被动的,蝴蝶效应已起。

“搜索” 这片已经平静 20 多年的湖面,一颗石子久违地抛下了。