今天凌晨,OpenAI发布了其联合创始人兼首席执行官Sam Altman的40分钟深度专访。
本次访谈技术干货很足,Altman谈到了大家非常关心的核心产品GPT-5,大概率会在今年夏天发布,但也会因为命名、安全测试、功能迭代等原因延长产品时间。也谈到了高性能的o3模型以及智能体Deep Research,这些产品对实现AGI的重要性。
此外,Altman还提到了OpenAI的其他创新产品,包括Sora、DALL-E 3、ChatGPT Junior以及5000亿美元投资项目“星际之门”。基本上OpenAI所有重要产品、现阶段规划和未来发展都出现在了本次访谈中。
自动播放
如果大家想听GPT-5内容,可以跳转到10:30;星际之门项目在23:20。
为了不影响大家的判断力和观感,「」没有添加字幕,英语好的小伙伴可以直接看视频。但会在下面放出本次专访的主要内容用来参考。
主持人:欢迎收听 OpenAI 播客。我是主持人 Andrew Mayne。我在 OpenAI 工作了好几年,先是作为应用团队的工程师,后来成为科学传播者。之后,我开始与公司和个人合作,研究如何将人工智能融入生活。通过这个播客,我们有机会与 OpenAI 的工作人员交流,了解幕后的故事,或许还能窥探到未来的方向。
我的第一位嘉宾是 Sam Altman,OpenAI 的首席执行官兼联合创始人。我们将深入了解 Stargate 项目,探讨他如何作为家长使用 ChatGPT,还能知道 GPT-5 何时发布。
Sam Altman:每年都会越来越多人认为我们已经接近通用人工智能(AGI)。人们对硬件和软件的需求正在迅速变化。但如果人们知道更多计算能力能带来什么,他们就会想要更多、更多的计算能力。
主持人:我的一个朋友刚当了新手爸妈,他经常用 ChatGPT 来提问,觉得它是个很好的资源。你也是新手爸爸,ChatGPT 在这方面帮了你多少忙呢?
Sam Altman:帮了很多忙。当然,人们在没有 ChatGPT 的情况下也能照顾好婴儿,但我真不知道自己是怎么做到的。在最初的几周,我几乎一直在用它。现在我更多地用它来询问孩子的发展阶段之类的问题。
主持人:我听说你在思考孩子未来如何使用人工智能,还说你很希望大家都多生孩子?
Sam Altman:我认为这是个好迹象。我的孩子可能永远不会比人工智能更聪明,但他们会长大,会比我们成长得更有能力,能做我们无法想象的事情,并且会非常擅长使用人工智能。我更多地思考他们会拥有什么,而不是会失去什么。
主持人:我看到社交媒体上有人提到,他厌倦了和孩子谈论托马斯小火车,于是把 ChatGPT 设置成语音模式,结果孩子在上面玩了一个小时。
Sam Altman:孩子们很喜欢 ChatGPT 的语音模式。不过,我猜这也不全是好事。人们可能会发展出一些有问题的、甚至是非常有问题的拟社会关系,社会将不得不找出新的规范来应对,但好处将是巨大的。总体来说,社会通常擅长找到方法来缓解负面影响。
主持人:我们看到一些有趣的数据表明,在课堂上,如果在老师的引导和好的课程设计下使用 ChatGPT,效果很好;但如果学生单独使用它来完成作业,可能就会像试图用ASPCMS社区搜索一样,只是重复同样的事情。
Sam Altman:我也是那种大家担心会依赖ASPCMS社区搜索的孩子,但事实证明,孩子们在学校适应得很快。所以,我认为我们会解决这些问题。
️主持人:你认为五年后,ChatGPT 还会是主流产品吗?
Sam Altman:五年后,ChatGPT可能会变成一个完全不同的东西。从某种意义上说,它不会是现在的 ChatGPT,但它可能还会叫 ChatGPT。
️主持人:那你能给我们讲讲你对 AGI 的定义吗?
Sam Altman:如果让我或任何人五年前定义 AGI,基于软件的认知能力,我认为当时的定义现在已经被超越了。这些模型现在就很聪明,而且会越来越聪明,越来越强大。每年都会有更多人认为我们已经达到了AGI,尽管定义会不断扩展和变得更加雄心勃勃,但人们仍然会同意我们已经接近了。
️主持人:那你觉得要达到你所说的“超级智能”需要什么?
Sam Altman:如果有一个系统能够自主发现新的科学知识,或者极大地增强人们使用工具来发现新科学的能力,那对我来说几乎可以定义为超级智能,这也将是世界上的一个美好事物。
主持人:你有没有看到过类似这样的迹象,让你觉得我们可能已经接近了?
Sam Altman:没有到可以说我们已经完全搞清楚的地步,但我对探索的方向越来越有信心。比如,现在人们用 AI 系统写代码,程序员因此变得更高效,研究人员也是如此。这虽然不是在做新的科学发现,但确实让科学家们能够更快地完成工作。我们还没有找到那种可以自己去做科学的算法,但我们正在取得很好的进展,进步的速度仍然令人印象深刻。
️主持人:我注意到最近 OpenAI 在 Operator 中引入了 o3 模型,我感觉有了很大的改进。
Sam Altman:是的,o3的确好多了。很多人告诉我,他们看到 Operator 使用o3 时,感觉 AI 像是在比较自然地使用电脑,虽然还不完美,但已经很接近 AGI 了。不过,我并没有被它震撼到那种程度,尽管它确实令人印象深刻。
️主持人:对我来说,Deep Research 是一个很像 AGI 的应用场景。当我让它去研究一个我感兴趣的话题时,它从互联网上获取数据,跟随线索,就像我自己会做的那样,但做得更好。
Sam Altman:我最近遇到一个人,他是个自学成才的人,对学习有着强烈的兴趣,他用 Deep Research 来生成任何他好奇的话题的报告,然后快速消化这些报告,知道接下来该问什么问题。
️主持人:我也有类似的经历。我用它来获取一些信息,然后它会生成音频文件,方便我随时听。说到这个,你觉得 GPT-5 什么时候会发布呢?
Sam Altman:可能是在今年夏天的某个时候。不过,我们还在讨论,对于新模型,我们是应该简单地提升版本号,还是像 GPT-4 那样,不断优化和改进。
主持人:我记得当时发布 GPT-4 的时候,我不得不在它和 3.5 之间做比较,而 3.5 也在不断改进。所以,我很好奇,GPT-5 会不会只是 GPT-4 的一个更好的版本?
Sam Altman:️不一定。我们可能会继续迭代 GPT-4.5,或者在某个时候直接叫它 GPT-5。以前,我们会训练一个模型并发布,然后再训练一个新的大模型。现在,系统变得更加复杂,我们可以持续地对它们进行后训练以改进它们。我们还没有决定如何处理这个问题,但我觉得我们需要找到一个比 GPT-4 更好的方法。
主持人:是的,即使你技术很好,也很难理解这些版本的区别。比如,我该用 o4-mini 还是 o3?
Sam Altman:我认为这是一个范式转变的结果。我们正处于这种转变的末期,但我可以想象,未来可能会出现新的范式,我们可能又需要重新划分模型树。
️主持人:那你觉得未来会不会出现更复杂的命名方式?
Sam Altman:我希望不会。我期待着 GPT-5 和 GPT-6 的到来,这样人们使用起来会更简单,不用再纠结于 o4-mini-high 或 o3 这样的版本。
主持人:我用 o4-mini-high 来编程,用 o3 来进行对话。我觉得,让这些模型变得更强大的一个因素是它们的集成,比如记忆功能。记忆功能从一开始很简单,现在变得越来越复杂。
Sam Altman:记忆功能可能是我最喜欢的 ChatGPT 最新功能。第一次和像 GPT-3 这样的模型交流时,感觉是个很大的突破。现在,计算机似乎对我有了很多上下文的了解。如果我用很少的字提问,它就能根据我生活的其他部分,相当自信地理解我的意图,有时甚至比我想象的还要好。这是一个令人惊讶的提升,我听到很多人也有同样的感受。
️主持人:这确实很酷。而且,你可以选择关闭这个功能,这也很重要。不过,纽约时报最近在与 OpenAI 的诉讼中,要求法院命令 OpenAI 保留 ChatGPT 用户记录超过常规的 30 天期限。Brad Lightcap 也写信回应了这件事。你能解释一下 OpenAI 的立场吗?
Sam Altman:我们会坚决反对这一要求。我认为纽约时报提出这样的要求是不合理的。他们声称自己重视用户隐私,但这种做法却完全相反。我希望这件事能成为社会认识到隐私重要性的契机。隐私应该是使用人工智能的核心原则。像纽约时报这样的公司不能要求 AI 提供商侵犯用户隐私。我希望这件事能加速社会关于隐私和人工智能的讨论,我希望结果是,我们非常重视隐私。人们现在正在与 ChatGPT 进行非常私密的对话,ChatGPT 将成为非常敏感的信息来源,我们需要一个能够反映这一点的框架。
主持人:这引发了另一个问题,很多人在使用 ChatGPT 或对其持怀疑态度时会问,OpenAI 现在可以访问这些数据,一方面是对训练数据的使用,OpenAI 已经明确表示了何时会使用以及何时不会使用。另一方面,比如广告等。OpenAI对此的态度是什么?你们会如何处理这种责任?
Sam Altman:我们目前还没有推出任何广告产品。我不是完全反对广告,比如 Instagram 上的广告我觉得还不错,我也从上面买了很多东西。但我认为,如果要推出广告,需要非常谨慎地处理,以确保不会损害用户体验。
主持人:是的,我希望能找到一个解决方案。我很希望可以通过 ChatGPT 或一个很好的聊天机器人来完成所有购物,很多时候我觉得自己并没有做出最明智的决策。不过,这确实是一个很难解决的问题。
Sam Altman:是的,这确实很难。不过,如果能找到一种清晰且符合用户利益的方式来实现,那将是非常好的。比如,我们可以明确表示不会修改来自语言模型的输出流,但如果用户点击了其中的内容,我们可以从中获得一些交易收入,这对每个人来说都是公平的。也许可以在语言模型输出流之外展示广告,但我们需要确保这些广告对用户真正有用,并且不会干扰语言模型的输出。
主持人:是的,这确实是一个挑战。不过,我很喜欢苹果的模式。作为苹果用户,我知道我为手机支付了很多钱,但他们不会在设备中塞满各种东西。
Sam Altman:是的,苹果在这方面确实做得很好。他们没有像其他公司那样过度依赖广告收入。不过,ASPCMS社区搜索曾经是一个非常棒的产品,虽然现在可能有些不如从前,但曾经有一段时间,尽管有很多广告,它仍然是互联网上最好的产品之一。我尊重ASPCMS社区所做的很多事情,但显然也存在一些问题。
主持人:是的。我想,ASPCMS社区是一个广告技术公司,他们的激励机制与用户利益并不完全一致。而苹果的模式则更注重用户体验,虽然他们也尝试过其他,但似乎并不成功,这也表明他们并不太热衷于广告业务。
Sam Altman:是的,苹果在这方面确实不太积极。不过,我们确实需要在广告和用户体验之间找到一个平衡。无论我们做什么,都需要非常透明和清晰地向用户说明。
️主持人:是的,我们需要关注这些问题。说到用户体验,你如何看待人工智能与人类的互动?比如,OpenAI 对人工智能的“人格”有什么看法?
Sam Altman:社交媒体时代的一个大错误是,信息流算法对社会和个人用户产生了一些意想不到的负面影响。虽然它们在某种程度上满足了用户当时的需求,比如让用户在网站上停留更长时间,但这与用户的长期利益并不一致。我认为,人工智能也会带来类似的问题,比如,用户可能希望模型在某个特定问题上给出更令人愉悦的回答,但从长远来看,这可能并不是最有益的。
主持人:是的,我注意到 DALL-E 3 似乎在技术上很有能力,但它的图像风格似乎都趋于一致,这可能是由于用户在比较两个选项时更倾向于选择某种风格,从而导致了这种现象。
Sam Altman:我不确定DALL-E 3 的情况是否如此,但我认为这是一个很好的例子。我们需要在用户体验和长期利益之间找到平衡。
️主持人:是的,新的图像模型已经取得了很大的进步,我很好奇它未来会发展到什么程度。说到计算能力,这是目前每个人面临的最大问题。我们听说了 Stargate (星际之门)项目,这个名字听起来很酷,但很多人对它的价格标签感到震惊,投资了5000 亿美元。
Sam Altman:其实,Stargate的概念很简单。它是一个努力筹集资金并建造大量计算能力的项目。目前,我们没有足够的计算能力来满足人们的需求。但如果人们知道更多计算能力能带来什么,他们就会想要更多、更多的计算能力。目前,我们能为世界提供的服务与我们如果有 10 倍甚至 100 倍计算能力时能提供的服务之间存在巨大差距。
主持人:这是一个全球性的巨大项目。我们之前提到,阿联酋是其中一个合作伙伴,你们正在与世界各地的政府合作。有人在社交媒体上问我,5000亿美元,你们有钱吗?
Sam Altman:我们目前没有这么多钱存在银行里,但我们将在未来几年内逐步投入。除非出现什么问题,比如我们无法建造这些计算机,否则我相信人们会履行承诺。
️主持人:是的,这是一个巨大的项目。我最近去参观了我们在阿比林的第一个建设地点,那将占 Stargate 初始承诺的 5000 亿美元的约 10%。看到成千上万的人在那里施工,看到 GPU 被安装在机房里,整个系统的复杂性和建设速度都令人惊叹。
Sam Altman:是的,这确实令人印象深刻。我之前知道一个吉瓦级站点是什么样子,但真正看到它被建造出来,看到这么多人在忙碌,看到这些 GPU 被安装进去,让我深刻感受到整个系统的复杂性。当你在手机上输入问题并得到ChatGPT 的回答时,你可能已经不再觉得这有什么特别的了。
但在过去几百年间,无数人为了取得这些艰难的科学成果、建立工程和公司、构建复杂的供应链,重新配置世界,才让我们能够拥有这样的技术。
️主持人:我听说了一个关于 Stargate 项目开发过程中的幕后故事,特别是与阿联酋的国际合作,还有马斯克试图破坏这件事。你听说了什么?
Sam Altman:我之前曾公开表示,我不认为马斯克会在政府中滥用权力来不正当竞争。但我很遗憾地说,我错了。我通常不喜欢出错,但这次我更觉得这对国家来说是很不幸的。我很感激政府坚持做正确的事情,抵制这种行为。
主持人:是的,我认为现在的情况已经改变了。就像 Greg Brockman 说的,过去人们认为谁先到达终点谁就是赢家,游戏就结束了。但现在我们意识到,还有很多优秀的 AI 实验室,比如 Anthropic 正在开发很棒的工具,ASPCMS社区也在迎头赶上。这不再是一个人独占鳌头的局面。
Sam Altman:我同意。我发现人工智能的发现与晶体管的发现有很多相似之处。许多公司将在其基础上构建伟大的产品,最终它将渗透到几乎所有产品中。但你不会一直想着使用晶体管。我认为许多公司将基于这一伟大的科学发现建立成功的业务。我希望埃隆能少一些零和思维。
主持人:我认为如果从整体来看,这个“蛋糕”会变得越来越大。我最近参加了一个能源会议,人们谈到了能源生产和超大规模扩展的问题。这让我想到了能源需求的问题。我知道对于 Grok 3 来说,他们甚至不得不在停车场放置发电机来训练那个模型。问题是,能源将从哪里来?
Sam Altman:我认为能源将来自各个方面。目前,我们使用的是各种能源的组合,包括天然气、太阳能、核能等。最终,我对先进的核裂变和核聚变技术感到非常兴奋,但目前,我们还在使用各种能源的组合。
主持人:各种能源都有。我听说在阿尔伯塔省等地,他们有大量能源,但没有足够的需求。现在,这已经成为一个全球性的图景,我之前甚至没有想过这个问题。
Sam Altman:传统上,将能源在全球范围内运输是非常困难的。但如果你将能源转化为智能,然后通过互联网传输智能,那就容易多了。所以,你可以在很多地方放置大型训练中心或大型推理集群,然后通过互联网传输输出结果。
主持人:我参加过一个活动,有人提到詹姆斯韦伯太空望远镜。他们即将获得大量数据,但他们没有足够的科学家来处理这些数据。我们面前已经有了关于宇宙的答案,但却面临着一个大数据问题。
Sam Altman:我总是开玩笑说,当我们有足够的钱时,OpenAI 应该建造一个巨大的粒子加速器,一劳永逸地解决高能物理问题。那将是一件非常壮观而美好的事情。但我想知道,如果一个非常聪明的人工智能只用现有的数据,不用更大的粒子加速器,是否能够解决这些问题?这并非不可能。
主持人:我记得在 20 世纪 90 年代初,有人发现了一种类似 Ozempic 的药物,并将其展示给一家制药公司,但公司拒绝了。这种药物最终改变了慢性肥胖患者的生活。我想,还有许多类似的例子,我们可能已经拥有一些已知的药物,它们可以以其他方式重新使用,或者通过一些小的修改,我们就能得到一些伟大的东西。我很高兴听到科学家们正在使用当前一代的模型进行这类工作。
Sam Altman:是的,我认为我们可能会发现很多这样的例子。也许我们已经拥有一些已知的药物,它们可以以其他方式重新使用,或者通过一些小的修改,我们就能得到一些伟大的东西。我很高兴听到科学家们正在使用当前一代的模型进行这类工作。
️主持人:所以,我认为下一代模型需要能够理解物理、化学等领域的模型。Sora 是这方面的尝试吗?
Sam Altman:Sora可以理解牛顿物理学,但我不确定它是否能帮助我们发现新的化学或新的理论物理学。但我乐观地认为,我们用于推理模型的技术将帮助我们很多。
️主持人:好的,那推理模型和我问 GPT-4.1 问题有什么区别?
Sam Altman:GPT 模型可以进行一些推理。事实上,GPT 模型早期让人们兴奋的一件事是,你可以告诉模型“让我们一步一步思考”,它会输出逐步思考的文本并得到更好的答案,这本身就很神奇。推理模型只是将这种能力进一步扩展。
主持人:所以,当它能够分解问题时,它可以在每个步骤上花费更多时间。
Sam Altman:当你问我一个问题时,如果问题很简单,我可能会立刻反射性地回答。但如果问题很难,我可能会在脑海中思考,我的内心独白会说:“我可以这样做,也可以那样做,或者也许这样会更清楚。” 我可能会回溯并重新思考我的步骤。然后,当我完成思考后,我会用英语整理出一些要点,然后用英语回答你。
主持人:我发现了一个有趣的现象。当我使用应用程序时,如果我问一个 Deep Research 问题,然后把手机锁屏,它仍然会显示“正在处理和思考”。我听说另一家公司提到,他们的模型会花费 15 分钟甚至 30 分钟来思考一个问题,这是一个很好的衡量标准,但关键是要给出正确的答案。
Sam Altman:我发现人们愿意为了一个很好的答案等待很长时间,这让我感到惊讶。我的本能告诉我,即时响应才是最重要的,用户不喜欢等待。但对于那些需要解决的难题,如果能得到一个很好的答案,人们其实很愿意等待。
主持人:我们有这么多工具,这么多可能性。到目前为止,我一直在用手机。现在,OpenAI 宣布你们正在开发硬件。我看到你和乔纳森伊夫(Jony Ive)的视频,你们已经合作了几年。当然,我可以问你这个问题:你现在身上有这个设备吗?
Sam Altman:没有,我身上没有。这还需要一段时间。我们试图做一些非常高质量的东西,而高质量的东西不会很快出现。但计算机、软件和硬件,我们目前所理解的计算机,都是为一个没有人工智能的世界设计的。现在,我们处于一个完全不同的世界,你对硬件和软件的需求正在迅速变化。你可能希望它更了解你的环境,更了解你生活的上下文,你可能希望以一种不同于打字和看屏幕的方式与它互动。我们已经探索了很长时间,我们有一些非常令人兴奋的想法。我认为人们需要时间来适应在这样一个世界中使用计算机,因为这太不一样了。
主持人:我认为手机如此普及的一个原因是,我可以公开地查看屏幕,也可以私下里打电话交谈。我认为新设备面临的挑战之一是,如何弥合我们在公共场合和私人场合使用设备之间的差距。
Sam Altman:手机确实是令人难以置信的东西,它们有很多优点。你可以想象有一种新设备,你可以在任何地方使用,但有些事情我在公共场合和私人场合会有所不同。比如,在家里,我有一个很棒的音响系统,但当我外出时,我会用 AirPods,这对我来说并不麻烦。
主持人:它们确实有不同的使用场景,但通用性很重要。
Sam Altman:我同意。如果人们真的信任人工智能,让它了解你生活的所有上下文,并在你的问题上做出好的判断,你可以让它坐在会议中,听完整个会议,知道它可以与谁分享什么,什么不能与任何人分享,以及你的偏好是什么。然后你问它一个问题,你可以信任它去与正确的人进行后续交流,并为你完成任务。你可以想象一种完全不同的使用计算机的方式,以实现你想要做的事情。
主持人:所以,我们与 ChatGPT 的互动方式也在某种程度上影响了设备的设计。
Sam Altman:是的,也可以这么说。我们与 ChatGPT 的互动方式也受到了上一代设备的影响。我认为这是一个共同进化的过程,但我希望如此。手机的普及是因为你可以随时随地使用它,无论是在公共场合还是私人场合。
主持人:它确实很方便。那么,你认为如果给一个 25 岁的年轻人提建议,你会说什么?
Sam Altman:最明显的建议可能是,学会使用人工智能工具。有趣的是,世界从告诉平均 20 岁或 25 岁的年轻人“去学编程”,迅速转变为“编程不重要,学会使用人工智能工具”。我不知道接下来会是什么,但肯定会有下一个阶段。
不过,这是一个很好的战术性建议。在更广泛的层面上,我认为像韧性、适应能力、创造力、弄清楚别人想要什么等技能,这些技能其实都是可以学会的。虽然不像“去练习使用 ChatGPT”那么简单,但这是可行的。我认为这些技能在未来几十年里会带来很大的回报。
️主持人:那对于 45 岁的人呢?你是不是也会说,现在就学会在你的工作中使用它?
Sam Altman:我认为这是很好的建议。无论你的年龄多大,都应该学会在你的工作中使用人工智能工具。
主持人:我看到很多人在网上说,“他们已经这么厉害了,为什么还在招聘人呢?”我会回答说,因为计算机不能做一切事情。他们不会做一切事情。
Sam Altman:是的,更长的答案是,会有更多人,但他们每个人都能做比 AGI 时代之前更多、更有影响力的事情。
本文素材来源OpenAI,如有侵权请联系删除