6.5亿美元!AI智能体最大收购案产品之父Jake Keller采访:垂域Agent是成为10亿独角兽的新机会,决定仅用48小时 转载

愤怒的蜗牛

YC最新的一期访谈,请来了创业大佬Jake Keller ,围绕他的创业之路来聊垂直领域 AI Agents 的掘金机会。

为什么是 Jake Keller,他的经历有多牛呢?我们简单看三点,就知道他的采访含金量:

  • Jake 创建法律公司 Case Text 十余年之久,从 AI 1.0时代就在不断尝试新技术,与OpenAI等多家工作室保持合作。

  • 在 ChatGPT 上线之前,Jake 的公司就拿到了秘密开发中的GPT-4的访问机会,并在 48 小时内决定All in GPT-4。

  • 发布基于GPT-4 的产品 CoCounsel (编者注:AI 法律助手)仅半年,就以6.5亿美元被 Thomson Reuters 收购,这也是迄今为止规模最大的垂直AI Agents收购案。

6.5亿美元!AI智能体最大收购案产品之父Jake Keller采访:垂域Agent是成为10亿独角兽的新机会,决定仅用48小时 转载图片

Jake Keller 做客 YC 《LightCone》的这期节目,《为什么说垂直领域的LLM Agent是新的10亿美元SaaS机会》,带来许多扎实的思考和技术与商业的新线索。

6.5亿美元!AI智能体最大收购案产品之父Jake Keller采访:垂域Agent是成为10亿独角兽的新机会,决定仅用48小时 转载从左到右依次是:主持人Diana、嘉宾Jake Keller、主持人Gary、主持人Jared

播客视频上线后,获得了大量好评,还有从业者说 Jake Keller 的采访切实地解答了他的困惑。

6.5亿美元!AI智能体最大收购案产品之父Jake Keller采访:垂域Agent是成为10亿独角兽的新机会,决定仅用48小时 转载图片

话不多说,先给大家画个重点:

  1. 第一次体验 GPT-4 的 48 小时内,Jake 决定公司的 120 人都投入到开发基于 GPT-4 的产品 CoCounsel 中。

  2. 与 GPT-4 技术的结合,使得产品在一分半时间,完成了律师一天才能完成的任务。

  3. 在引入 GPT 技术前,公司已经实现了2000万美元年收入,为了说服员工投入新产品开发,Jake以身作则,构建了新产品的第一个版本。

  4. 公司所有人在发布产品的前几个月里几乎没有睡觉,所有人都认为这是一次引领市场的绝佳机会。

  5. Jake 反对“套壳GPT”的说法,在一个垂直领域中,在大模型工作之前,“已经为你的应用程序构建了几十个不同的东西”,在进入提示环节时,如何“分解大问题成逐步思考的策略”“写出非常具体的提示”都是难以复制的知识资产。

  6. Jake认为o1模型将改变很多使用GPT API公司的工作方式,现在“不仅教会AI如何回答问题,更要教会它如何思考。”

以下是经过整理的播客全文,enjoy:

主持人Gary :今天我们有一位非常特别的嘉宾,Case Text的Jake Keller。我觉得Jake有点像是登上月球的第一批人之一。他创立了Case Text,大约是在11、12年前吧。

在最初的十年里,你的公司从0走到了1亿美元的估值。而在GPT-4发布后的两个月内,估值直接跳到了 Thompson Reuters 以6.5亿美元收购的阶段。所以你对如何从大语言模型中创造真正的价值有很多经验。

我觉得你是我们在YC的朋友中,最早意识到这是一次巨变、一次革命的人之一。不仅如此,你还敢把公司都押在上面,结果你赌对了。所以欢迎你,Jake。

Jake Keller :很高兴来到这里。

主持人Jared:我觉得Jake的故事非常酷,我们今天想请他来的原因是,现在优秀的创始人正在创建的公司中,很多都在做垂直领域的AI Agents。

我试图数了一下在 S24(编者注:S24 指 YC 在 2024 年夏季推出的一组初创公司)中的公司,YC最近一批次里有几十家公司都在构建垂直领域的AI Agents。而我认为 Jake 是目前最成功的垂直AI Agents的创始人——这是迄今为止规模最大的收购案,而且它已经在很多关键任务中大规模应用了。

我们几个月前举办了一次活动,Jake 在那次活动中给我们做了一个非常精彩的演讲,讲述了他是如何建立这个产品的。我们觉得,对于那些对这个领域感兴趣的《LightCone》的观众来说,直接从这位领域内最成功的构建者之一那里听到他的经验是非常有帮助的。

1.48小时的大胆决定:公司所有人都转向GPT-4技术项目

主持人Gary :那么,你是怎么做到的呢?

Jake Keller :首先,像很多这样的事情一样,经过十年长的旅程,有一定的运气成分在里面。

我们开始深入投资于AI和自然语言处理,并且与一些不同的研究实验室建立了紧密联系,其中包括OpenAI的一些人。当他们开始测试早期版本时,我们当时不知道那(个产品)是GPT-4,但那确实是GPT-4。我们很早就看到了它。

于是,在GPT-4公开发布前的几个月,我们公司内部都签了保密协议,所有人都在研究这个东西。我永远不会忘记第一次看到它的那一刻。我们用了大概48小时就决定,把公司里每个人的工作都从当时正在做的项目转移到我们基于GPT-4技术的新产品 CoCounsel 的构建上。

主持人Jared :当时有多少人?

Jake Keller :当时大约有120人。

主持人Jared :你把120个人的工作全部改变了?

Jake Keller :是的,完全改变了,是在48小时内完成的。

主持人Gary :对于正在观看的观众来说,Case Text最初一直都在法律领域,你是个律师,你为自己构建了这个东西。最早的版本实际上是带有注释的判例法(编者注:是指由法院在具体案件中作出的裁决和判决所形成的法律规则和原则,能够为未来类似案件提供指导和参考),对吧?

Jake Keller :是的,完全正确。在公司非常早期的阶段,公司一直专注的使命是如何将最先进的技术带入法律领域。

作为一个律师,我其实很喜欢这份工作,但我最讨厌的是不得不使用律师们经常需要用来完成工作的那些技术。我记得当时是2012年,我还在一家律师事务所,如果我想做一些非常琐碎的事情,比如我有一部新iPhone,我可以上Google搜索电影时间或者最近的提供素食选项的泰国餐馆,这非常容易。但如果我想找到一份能证明我当事人清白的证据,让他不用在监狱里待一辈子,或者找到一份能帮我赢得数十亿诉讼的关键法律案件,那这就得花五天连续工作到凌晨5点。我当时想:这肯定有更好的办法。

主持人Diana :作为律师的工作流程是什么样的?你们需要阅读一叠又一叠的文件吗?

Jake Keller :差不多吧。在我开始执业之前,所有东西都还没虚拟化或者上线,你会真的在地下室里对着一箱又一箱的文件,逐一阅读,试图找到(想要的资料),比如在一家像辉瑞或Google这样的公司里所有关于潜在欺诈的电子邮件。

如果你想找判例法(这比我的时间早一些),你还得亲自去图书馆,打开书本,开始逐页阅读。虽然当时开始有一些基于网络的研究工具出现,但它们都非常笨重,找到相关信息还是很难。

主持人Diana :你基本上无法对这些东西使用Control F(编者注:查找)功能,对吧?” 

Jake Keller :“是的,没错。我永远记得,当时在律所工作时,我还在为使用的工具构建浏览器插件,来让我的工作更高效和有效。其实我之所以离开律所,申请YC创办公司,部分原因是我因为花太多时间做这些技术开发而被总法律顾问训斥。他们还明确表示,我所在的律所拥有所有相关技术的产权。所以我决定另谋出路。”

2.之前的工作都是渐进式的,直到ChatGPT出现了

主持人Jared :“那么你想讲讲Case Text前10年的故事吗?那段像是长期的艰难跋涉,以及LLM(大语言模型)时代之前的经历?”

Jake Keller :“从那段时间我得到的一个教训是,创业时,你可能一开始并没有完全找对方向。你可能有一个大概正确的方向,你知道有个问题需要解决,但可能需要很长时间才能找到解决方案。比如在我们公司,我们看到了法律领域存在技术不佳的问题,还有很多律师依赖内容进行研究并理解法律。所以我们觉得,‘我们能做得更好’,但问题是,我们如何获得这些内容呢?于是我们花了好几年的时间尝试让律师像Gary所说的那样去注释判例法,提供信息。”

主持人Gary :“就像一个UGC网站,用户生成内容类型的?”

Jake Keller :“是的,那是我们当时的重点之一,结合更好的技术和更好的内容。”

当时,我们的偶像是像Stack Overflow、维基百科和GitHub这样的开放源码或UGC网站。但这完全失败了。我们根本无法让律师花时间贡献信息。我觉得这就是不同的群体,典型的维基百科编辑可能有很多时间可以自由支配,因此他们为免费贡献内容感到自豪(当然不是全部人),而律师是按小时收费的,他们的时间非常宝贵,永远觉得时间不够用,根本没有时间来为UGC网站贡献内容。所以我们不得不转型。

于是我们开始深入投资,当时这还不叫AI,只是自然语言处理和机器学习。我们发现,我们并不需要依靠UGC来复制我们竞争对手在大型内容数据库中的某些优势。当时就能自动化实现部分功能。此外,我们还开始创造出比竞争对手能够提供的更好的用户体验,那时我们使用的AI技术在今天看来可能显得很基础,像是用于Pandora和Spotify推荐音乐的推荐算法,系统分析这首歌与那首歌的关联,人们听了这首歌后还听了那首等。

类似地,我们分析了案件间的相互引用,它们引用了较早的判决意见,形成了一个引用网络。我们找到了检查律师工作的方法,比如他们会上传自己的工作进展,然后我们可以告诉他们,‘所有谈论这个案子的人也都提到了这个案子,你遗漏了这个。’像这样的体验非常酷。

“实际上,直到最后,直到 CoCounsel 之前,我们做的大多数事情都是对法律工作流程的渐进式改进。有趣的是,当只有渐进式改进时,实际上很容易被忽视。我们很多客户可能不会直说,但给人的感觉就是,你走进他们办公室,向他们推销产品,告诉他们‘这将彻底改变你的工作方式’,他们会想,‘我每年赚500万美元,我不想改变任何东西。这个技术……不,我不想引入任何有可能让我的生活变得更糟或潜在风险的东西,或者更高效的东西’,因为他们是按小时收费的。”

真正的转折点是在ChatGPT发布后。当时我们还在私下(参与)秘密开发GPT-4,后来ChatGPT发布了。突然之间,美国乃至世界上的每位律师都意识到,‘天哪,我不知道这会如何改变我的工作,但它肯定会带来重大改变’,他们能感觉到。

而那些之前说‘我每年赚500万美元,我不需要改变任何东西’的人,现在都变成了‘我每年赚500万美元,但这会改变一些东西,我需要抢先了解这项技术。’这种技术本身(稍后我们会深入探讨)改变了我们为律师构建产品的方式,也改变了市场对什么是必要技术的认知。

在我们十年的发展中,这是第一次,即使我们还没有公开发布基于GPT-4的CoCounsel,他们就已经开始打电话给我们了,像是在说:“我们知道你们在做AI,我们需要赶上这个潮流。你能给我们展示什么?我们可以一起做些什么?” 我觉得这是因为这次的改变不再是渐进的了,而是基本的变化,突然之间他们不得不重视,再也无法忽视了。

3.找到法律领域PMF,成为“登月第一人”

主持人Gary :我对你有的这种心态模型是这样的:有一个叫“想法迷宫”的概念,创始人一开始进入迷宫,就像是在试探,实际上是在场上,和客户交谈,学习,了解哪里是墙壁?应该往哪条路走?是该往左还是右?通常初创公司的创始人在这个想法迷宫中会遇到死胡同,然后不得不转向。

我觉得你的故事非常有趣,因为你当时已经接近某种无法达到产品市场契合点的路径末端,但当LLDs(大语言模型)出现时,就像迷宫被重新摇动了一下。而你实际上比任何其他人都更接近产品市场契合点。这就是为什么这段时间如此疯狂。对,这正是为什么你成为了“登月第一人”。

Jake Keller :是的,是的,我觉得这确实有道理。问题是,每次我们在迷宫中前进时,都觉得自己可能已经达到了产品市场契合点。你知道,在发布CoCounsel之前,我们已经有了实际的收入,也有了真正的客户,他们对我们赞不绝口。

我一直在想马克·安德森在2000年代初写的一篇文章,叫《唯一重要的事情》。在文章里,他描述了有产品市场契合点时的感觉,他列出了几件事,比如:你的服务器会崩溃,你无法足够快地雇佣支持人员和销售人员,你会在Woodside著名的餐厅Bucks免费吃饭一年,那是很多风险投资家会带你去的地方。

我早年读到这篇文章时,觉得这有些夸张,但是当我们发布CoCounsel时,确实是完全一样的情况。我们的服务器崩溃了,我们无法足够快地雇佣支持人员,也无法足够快地雇佣销售人员,我在Bucks吃了很多顿饭。以前,如果我们能登上《美国律师协会期刊》或其他法律特定的出版物,那就是一个很重要的日子了。而现在,我们上了CNN和MSNBC,突然之间,一切都变了。而这就是我认为的真正的产品市场契合点。马克·安德森在2005年左右的那篇文章,确实准确描述了2023年产品市场契合点的样子。

主持人Jared :你能谈谈那段疯狂的时期吗?从你们发布CoCounsel到以6.5亿美元被收购,仅仅过了两个月。那两个月内究竟发生了什么?

Jake Keller :要说明的是,交易在我们发布后六个月才最终完成,但两个月后,谈判就开始了。

为了提供一些背景信息,我们开始构建CoCounsel的想法是在看到GPT-4后的一个周末,大概48小时内,我们萌生了一个点子——一个AI法律助理的概念,听起来现在可能不那么疯狂,但在当时却很疯狂。这个法律助理几乎像是事务所的一个新成员,你可以与它对话,就像你今天和ChatGPT对话一样,给它任务,比如“我要你帮我读这些一百万份文件,看看有没有证据表明这家公司存在欺诈行为。”

几小时后,它会说:“我读完了这些文件,这是总结。”或者“帮我总结文件,进行法律研究,并整理一份报告,回答律师的初步研究问题。”因此,这就像是事务所的一个强大扩展工具。这是我们从一开始的设想,我们制作了一个非常早期的初始版本。

由于与OpenAI的协议,我们不能公开这个产品,但他们允许我们把NDA(保密协议)扩展到少数几个客户身上。因此,在GPT-4公开发布的几个月前,我们让一些客户使用它。那些客户不知道自己在使用GPT-4,但他们实际上看到了某种特别的东西。

这甚至是在ChatGPT之前。这是我们第一次体验到这种“如神一般”的AI,它突然完成了我当律师时需要花整整一天才能完成的任务,而它只用了大约一分钟半。你可以想象,当时真的很疯狂。

首先,我们公司所有120个人在GPT-4公开发布前的几个月里几乎没有睡觉,直到我们可以公开发布产品。我们觉得自己有一个绝佳的机会可以领先市场。每个人都非常努力地工作时会发生一些非常美妙的事情——你可以非常快速地进行迭代。我现在还看到有些公司卡在我们刚看到GPT-4的第一个月时的状态。我觉得这可能是因为他们没有像我们那样全情投入和专注于那段大约六个月的时间,直到GPT-4的公开发布。

4.ALL in AI,进入深度创始人模式

主持人Diana :你为了完成这次转型,必须重振公司。你进入了深度创始人模式,因为有很多员工的反对声,觉得“这个东西已经在运作了,为什么我们要投身到AI的深渊里去?”能谈谈你作为创始人的这个时刻吗?

Jake Keller :首先,这尤其是在你经营一家企业10年之后变得尤其明显,因为他们已经看着你在这个迷宫中徘徊,碰到死胡同。而且很多人从头到尾都在看着我,作为创始人说:“我们肯定要朝这个方向走,这一定会成功。”有时候并不成功,而员工能忍受这样的次数是有限的。所以这可能是我和一些员工之间的最后一次信任机会。

他们会想:“Jake又来了,又是这个疯狂的新技术,又是某个我们要深度投资的想法。”是的,确实需要花费一些努力去说服人们。如果你能想象不同角色的处境,比如你负责市场拓展,负责销售或营销产品,而我们每年增长70%-80%,我们有1500万到2000万美元的年收入,情况并不糟糕,对吧?非常棒。是的,确实很棒。所以他们会想:“我们为什么要这样做?”甚至董事会中的一些成员也是,一些人立即理解了,但有些人需要被说服。

至于那次创始人时刻,对我来说真的有效的是我以身作则。我自己构建了第一个版本。

主持人Gary  :即使在拥有120人的公司里,拥有大量工程师和律师的情况下,在那之前你还是自己打开了IDE,亲自编写了这个东西。

Jake Keller :是的,部分原因是,最初只有我和我的合作者签署了保密协议。

主持人Gary  :这反而是个好事情,对吧?

Jake Keller :结果证明这是完美的,即使在保密协议扩展后,我们一开始还是保持了小范围的团队。

在最初的一段时间内,我在48小时内决定让整个公司参与进来,但实际上我们是在获得访问权限后一周半才通知公司的。在那一周半时间里,我们构建了第一个版本,这个原型版本。

我永远不会忘记这个时刻,时机非常有趣。我们在一个周五看到了GPT-4,整个周末我们都在使用它。然后周一是一次公司高管的外部会议,所有高管都来了。他们以为我们会讨论如何达成下季度的销售目标,但我告诉他们:“各位,我们要讨论的完全不是这些东西。让我给你们看一些东西。”

所以,是的,我自己构建了第一个版本,但通过这个过程,我和少数几个人确实帮助说服了其他人。我们还早期引入了客户,当一个怀疑的销售人员或市场营销人员,甚至工程师,看到客户实时对产品做出反应,看到他们脸上的表情时,那真的迅速改变了人们的想法。你要想象一下,那时的世界还没有ChatGPT,一些人第一次看到这个点子时完全被震撼了。这确实迅速改变了很多人的想法。我亲眼看到人们在Zoom通话中经历了生存危机般的反应。

主持人Diana :哦,你能看到他们的表情,对吧?

Jake Keller :各种反应都有,比如“我该怎么办?” 我们展示给一些资深律师看的时候,他们常常会说:“那我该退休了吧,我没法处理这个。”

主持人Gary  :这一切很多都是由GPT-4的发布推动的吧?你们之前有GPT-3的访问权限,甚至还有GPT-2,对吧?

Jake Keller :是的,我们与很多实验室保持着紧密的合作,包括OpenAI,他们不断向我们展示早期版本的成果。

他们会问:“你能用这个为法律行业构建一些东西吗?” 每次我们都会回答:“不行,这太差劲了。” 到了GPT-3和3.5的时候,终于出现了合理的英文语言生成,看起来有点像律师的风格了,虽然那已经很值得称赞了,但它还是会胡编乱造,和实际需求相去甚远。尤其是在法律领域,准确性非常重要,不能有任何错漏,不能胡乱假设。所以我们为早期版本花了很多精力,才让它们接近可用状态。

我记得其中一个里程碑是在GPT-3.5发布时,有一项研究表明GPT-3.5的律师资格考试通过率仅达到第10百分位。虽然它表现比一些人好,但也只是10%的人,可能就是那些随便填写答案的考生。

然后我们获得了GPT-4的早期访问权限,我们立刻想再测试一次,并与OpenAI合作,确认测试集不是训练数据中的内容,而是完全新的测试。结果显示,GPT-4表现超过了90%的考生。这是一个巨大的飞跃。接着我们还进行了一些测试,比如让它阅读4到5个案例,根据这些案例撰写一份备忘录,回答这个问题。我们做了大量的提示工程工作,确保它能够准确回答,引用正确的案例内容,而不是胡编乱造。

5.回应套壳GPT的质疑:构建业务逻辑让产品难以复制

主持人Diana :很多反对者会说,很多公司只是在构建GPT的外壳,没有在构建太多的知识产权。但实际上,解释这些问题需要很多技巧。能不能和我们谈谈,实际上还有多少东西需要构建?

Jake Keller :哦,是的,我的意思是,当你真正试图为客户解决问题时,并真正完成任务——在我们的案例中,就是做一个年轻助理律师会做的事情,并且做到非常好——你需要添加很多层次的东西才能真正完成工作。等你把这一切加起来,你就不仅仅是个GPT套壳了。

你已经是一个完整的应用程序了,这个应用程序可能包括在我们的案例中,像法律本身这样的专有数据集,以及我们自动添加的注释。

这可能包括连接到客户数据库,在我们的案例中,法律行业有非常具体的法律专用文件管理系统,连接这些非常重要。也可能包括一些微妙的事情,比如你如何进行光学字符识别(OCR),你使用了什么OCR程序,以及在执行任务时如何设置它们。

比如,CoCounsel 做的任务之一是审查大量文件。当你开始处理大量文件时,你会看到这些文件上满是手写批注,有时扫描件是倾斜的,还有法律行业中的一个奇怪现象,他们会在一页纸上打印四页内容以节省空间,所有OCR程序会直接从左到右读取,但实际上它应该是按顺序读取的。

所以,当你处理了所有这些边缘情况后,坦白说,即使你还没有触碰到大型语言模型,光是到大型语言模型之前,可能已经为你的应用程序构建了几十个不同的东西,以确保它能正常工作。

而当你进入提示环节时,写出测试、非常具体的提示,以及分解大问题成逐步思考的策略,如何以正确的方式输入和格式化信息,所有这些也成为了你的知识产权,而且很难复制,也很难构建,因此很难被复制。

主持人Diana :这些都是业务逻辑,这就是为什么许多非常成功的SaaS公司在非常特定的领域需要非常自定义的,冷门的、利基的集成,连接到这些冷门的法律数据库。

Jake Keller :是的,绝对没错。我一直在思考的两件事是,基本上 SaaS 在很长一段时间里都只是SQL的一个外壳,对吧?如果你想想像 Salesforce 这样非常成功的公司,他们围绕基本上只是数据库和数据库中表格之间的连接构建了业务逻辑,有时填补了技术人员能够做但大多数人做不了的差距,或者让它变得更容易接触。或者填补了这样一个差距:你可以在ChatGPT中展示很多很酷的演示而不写一行代码,但几乎能运行且工作70%的时间和能100%正常运行是完全不同的任务。

人们可能会为那些工作70%的东西每月付20美元,但如果能100%正常工作,可能每月会愿意支付500到1000美元,具体取决于使用场景。所以这个最后一公里或一百公里的价值是非常大的。

6.不断测试和修正消除模型“幻觉”,目标正确率是100%

主持人Jared  :是的。你能谈谈你是如何从70%提升到100%的吗?因为我们听到的关于这项技术的另一个批评是,这些大型语言模型“幻觉”太多,不够准确,不能用于真实世界。但正如你之前提到的,你正在处理的用例是一个任务关键的场景,涉及的风险很高。如果AI Agents给律师提供错误信息,可能会对重要的法庭案件产生严重影响。你是如何让它足够准确,以至于律师们——他们天生保守——能信任它的呢?

Jake Keller  :首先,这种测试驱动开发框架能起到很大的作用,因为你可以开始看到模式,了解它为什么会出错,然后你可以针对该模式添加指令。有时它仍然不能做对,然后你就会真正问自己,我的指令是否非常清晰?我是否包括了不该看到的信息?或者信息太多或太少,无法让它真正理解全部背景?通常这些模型是相当智能的,所以你通常可以追根溯源,找出你为什么没有通过某些测试,然后逐步修正,直到通过这些测试并做对。我们学到的一件事是,如果它通过了100个测试,接下来它对任何随机用户输入的准确率可能就会非常高,几乎达到100%。

主持人Gary  :让我觉得棘手的是,许多我们合作的创业者都很想走“无评估、无测试驱动”的路线,只靠感觉进行提示工程。也许你很快就转换到这种方法了,你们从一开始就很清楚,我们不能像那样做提示工程?

Jake Keller :是的,我认为最重要的事情首先取决于使用场景。对于我们处理的许多事情来说,无论是好是坏,都有一个正确答案。如果你给出了错误答案,律师们不会高兴的。我曾经是律师,也为律师服务了十年,每次我们做错了一件小事,我们都会立刻听到反馈。所以我在这个过程中也许一直有那个声音在我脑海里。

我从那10年的艰苦经历中学到的是,它必须达到100%。

主持人Gary :哦,是的,哦,是的,这可能适用于比我们意识到的更多领域。

Jake Keller :确实如此。另一件我们常常思考的事情是,你可能很快就会对这些东西失去信心。特别是如果你的第一次体验很糟糕,尤其是在你第一次接触时,你可能会想“也许我一年后再看看这个AI技术吧。” 尤其是当你是个忙碌的律师,而不是技术人员。所以我们知道,必须确保律师的第一次接触和第一周的体验是非常顺利的,否则他们就不会深入投资。

7.谈OpenAI o1模型:“让AI模仿顶尖律师是如何思考问题的”

主持人Diana  :那么让我们谈谈OpenAI的o1模型吧,因为这是一个非常不同的模型。

到目前为止,像GPT-4和之前的几代模型,它们的智能可以类比为丹尼尔·卡尼曼提出的“系统一”思维,这是一种非常快速的、基于模式的直觉决策。这种经济理论甚至赢得了诺贝尔奖。

LLMs在这种思维方面表现出色,但它们在执行功能上非常差劲。而你所描述的所有这些东西,实际上是在赋予LLM执行功能,让它能够“思考”,并真正管理那些更慢的思维过程。而我认为o1模型令人兴奋的地方在于,我们还没有看到它被构建出来,因为它几天前刚刚发布。我认为它接近于“系统二”的思维。这是AGI(通用人工智能)的关键缺失部分,我看到很多研究人员对此感到兴奋。让我们谈谈你对o1的看法,以及它会如何改变局面。

Jake Keller  : 首先,我认为o1是一个非常令人印象深刻的模型。就像其他模型一样,我们给它的测试内容是我们知道它之前无法通过的,而它展示了令人惊叹的细致程度、精确性和智能。这不仅仅是数学上的精确,有时是那些你不会预期需要一个超级智能模型来完成的任务。

例如,在我们进行的一个测试中,我们给它了一位律师的真实法律简报,但我们对其中的一些引用稍作修改,使它变得错误,比如改变了一些案例中的引用。这是一份40页的法律简报,修改可能只是加了一个词,如“不是”,这就完全改变了其含义。然后我们也将案件的完整文本提供给AI,并询问它“律师对这个案件有任何错误理解吗?” 以前的每一个LLM都会说“没有,一切都对”,因为它们在处理这种细微的差异时并不够精确。但o1模型立刻察觉到了这些差异。它会停下来思考一会儿,然后开始回答,比如它会指出“某个地方的‘和’被改为了‘既不…也不’”,这是我们以前期望的LLM能做到但始终无法通过的测试。而现在o1能够胜任这些需要精确、细致思考的任务。

主持人Gary  : 显然我们对o1的内部运作机制并不了解,但我们知道它大概使用了类似“链式思维”的方法。如果OpenAI有一个庞大的语料库,记录了人们在逐步完成任务时的内部思考过程,o1可能会变得更加出色。这与你们之前的策略有些相似,你们是把问题分解成多个步骤以达到100%的准确率,而不是简单地把所有内容都投入到上下文窗口里,然后希望它能“神奇地”工作。你认为这是目前正在发生的事情吗?

Jake Keller  :或许是的。他们可能改变了他们的承包商的工作方式,不再是简单的“输入问题,输出答案”,而是“输入问题,思考如何解决这个问题,再输出答案”。但有趣的是,这样做的限制就在于撰写这些指令的人的智力水平。

而我们正在研究的是,是否可以通过提示o1模型在思考过程中该注意哪些问题来引导它思考。我们聘请了一些顶尖的律师,让AI模仿这些顶尖律师是如何思考问题的。我们还没有最终的证据证明这显著提高了结果,但这确实是一个非常有趣的机会,即不仅教会AI如何回答问题,还教会它如何思考。

主持人Gary : 我真的非常感激,因为我觉得你在分享一些线索。在许多其他领域,这项技术才刚刚开始。你去几乎任何一家公司,人们都没有意识到刚刚发生了什么。他们仍然重复那些陈旧的说法,比如“你最好做微调”或者类似的说法。这些事情实际上根本没有与我们每天看到的创业公司和创始人为用户创造的事物联系起来。我很高兴我们能够分享这些信息和知识。即使是我们谈到的一些事情,比如“你应该做评估”。实际上,从70%到100%之间有很多隐藏的关键点,这些线索可能会催生数十亿甚至上千亿美元的公司。

Jake Keller  : 确实如此。我们希望如此。我认为你将会看到其他领域(比如法律)真正升级,当你不需要花费几百万美元和六个月的时间,真的待在地下室逐个阅读文件时,你可以直接跳过这些步骤,直接获取结果。现在,你可以从战略上、智能地思考问题了。对于这些公司来说,这将是一个巨大的突破。因为目前他们支付的薪水数百万美元只是为了完成这些工作。如果有公司能够推出一款AI,哪怕只完成其中80%的工作,其价值已经非常明显了。我想鼓励大家不要因为那些陈旧的说法而放弃,比如“它幻觉太多”“它不够准确”等等。事实上,有一条路径,你可以做到的。

主持人Gary : 有一些好消息,那就是工作不会消失,它们只会变得更有趣——这是我的看法。好了,时间到了,非常感谢你和我们一起讨论。


您需要 登录账户 后才能发表评论

发表评论

快捷回复: 表情:
AddoilApplauseBadlaughBombCoffeeFabulousFacepalmFecesFrownHeyhaInsidiousKeepFightingNoProbPigHeadShockedSinistersmileSlapSocialSweatTolaughWatermelonWittyWowYeahYellowdog
评论列表 (暂无评论,66人围观)

还没有评论,来说两句吧...

目录[+]

取消
微信二维码
微信二维码
支付宝二维码