o1满血版最鲜测！这¥1500花得值吗？

愤怒的蜗牛

2024-12-05 409阅读 0评论

o1满血版这次不搞灰度了，发布仅4个小时后，已推送给所有（付费）用户！

手快的网友已经耍起来了～

o1满血版最鲜测！这¥1500花得值吗？

不过这次推出了更高级的Pro模式，每月200美元的定价也着实让人望而却步。

Pro模式和正式版o1究竟有啥区别，将近1500元的价格到底值不值？

许多好心人已经交钱帮大家测了。

如果让它完成一个数独，足足能思考5分30秒。

AI在思考过程中依然会犯许多错误，但这次区别在于它有了自我纠正的能力，直到得出正确答案为止。

o1满血版最鲜测！这¥1500花得值吗？

花了这么多钱，那对它的期待必然是很高的，有人上来就是一个“请治愈癌症”。

AI也是毫不客气，直接在思维链中接下“正在治愈癌症”这个任务。别管结果如何，就冲它真的努力去尝试一点，就值得点赞。

o1满血版最鲜测！这¥1500花得值吗？

26秒过后，o1 pro给出了它的详尽答案：

首先澄清目前没有治疗所有类型癌症的单一方法
介绍现代常用多种方法组合的“鸡尾酒疗法”
举例目前可被治愈的癌症类型
补充未来有前景的研究方向
最后建议用户寻求更专业的咨询

o1满血版最鲜测！这¥1500花得值吗？

正如奥特曼强调的：Pro模式的优势在于，它可以更加努力地去思考最困难的问题。

o1满血版最鲜测！这¥1500花得值吗？

o1 pro模式，1500值不值？

再来看另一个与生物医学有关的问题，o1 pro模式找出了同时满足6个复杂条件的特定蛋白质，用时53秒。

o1满血版最鲜测！这¥1500花得值吗？

当然，如果真的给它一个超出能力范围的问题，它在努力思考过后也会适时放弃。

只用HTML代码复刻经典游戏《毁灭战士》。
o1 pro模式：这是不可能完成的。

o1满血版最鲜测！这¥1500花得值吗？

o1正是之前内部代号“草莓”的模型，这次“strawberry里有几个r”是大概率难不住它了。

甚至能够全程不提这个单词的情况下，把“strawberry中有3个r”这层意思用诗表现出来。

o1满血版最鲜测！这¥1500花得值吗？

我们尝试把这首诗再喂给一个新的o1对话，发现它也能够理解这首诗想说什么，且给出了另一个符合条件的答案“Rasberry”（也就是树莓派的那个树莓），并且把诗翻译成中文。

o1满血版最鲜测！这¥1500花得值吗？

为什么它没有想到Strawberry呢？展开思维链，发现它其实也考虑到了草莓，但决定“无核”这个描述更符合树莓，毕竟草莓表面还是有籽的，树莓的籽更小且藏在里面。

另外我们还发现，把诗翻译成中文这个指令，居然无需占用推理token，解谜完成后思考就结束了。

o1满血版最鲜测！这¥1500花得值吗？

它很强，但也会出错，会把6个手指的手当成完全正常的。

鉴于AI生图也经常画出六个手指，人类的手指对AI来说就这么难吗？

o1满血版最鲜测！这¥1500花得值吗？

所以到最后，200美元到底值不值？奥特曼也给出了官方回复：

绝大多数人用免费版或20美元版就足够了，200美元版只适合很小一部分人，他们想要大量使用，且愿意为解决真正困难的问题付更多钱。

o1满血版最鲜测！这¥1500花得值吗？

20美元版o1也很强

如果确实不想一个月花200美元，20美元版o1也足够强。

现在它可以接受视觉输入，基于图像推理了。

有人把十年前的XKCD讽刺漫画发给它，当时需要5年才能解决的代码，这回o1当场就给写出来喽。

o1满血版最鲜测！这¥1500花得值吗？

甲方：当用户拍照时，APP要判断他们是否位于国家公园……
程序员：这很容易，用地理信息查询，给我几个小时。
甲方：……还要判断是否是鸟类的照片。
程序员：那我需要一个研究团队和5年时间。
在计算机科学中，很难解释简单和近乎不可能之间的区别。

o1满血版最鲜测！这¥1500花得值吗？

再来看看这个绕得脑壳疼的问题：

说出某种娱乐形式的一个特定作品，这种娱乐形式的首字母缩略词也可以代表访问过一个地区的团体的名字，该地区未来的领导人与意大利人结婚了。

出题者称ChatGPT 4o、o1-mini、Claude 3.5 Sonnet做三次错三次，而o1是做三次对三次！

o1满血版最鲜测！这¥1500花得值吗？

至于为什么《最终幻想》符合要求，同样可以让o1自己来解释。

o1满血版最鲜测！这¥1500花得值吗？

One More Thing

o1正式版以及o1 pro模式，只是OpenAI 12天直播发布计划中的第一份大礼。

明天凌晨2点，新发布还将继续。

鉴于o1正式版目前只发布在ChatGPT应用上，API接口还未开放。

并且已有人ChatGPT的前端代码中扒出GPT-4.5的存在。

o1满血版最鲜测！这¥1500花得值吗？

不少人预测，下一场发布将是GPT-4.5和对应API，以便与隔壁Claude竞争，抢占开发者市场。

o1满血版最鲜测！这¥1500花得值吗？

参考链接：
[1]https://x.com/liambolling/status/1864761137436537139。
[2]https://x.com/__nmca__/status/1864739625140654469。
[3]https://x.com/goodside/status/1864806604735955080。
[4]https://x.com/emollick/status/1864744770695815234。

让AI一键写系统性综述，难！Nature专栏：ChatGPT远远不够，一百年以后再看看

真实闭环拉满！浙大&华为发布全新闭环仿真工具HUGSIM

相关阅读

ACL 2025 | 基于Token预算感知的大模型高效推理技术

OpenAI久违发了篇「正经」论文：线性布局实现高效张量计算

被疯传的“恶趣味”：看Copilot这款“熊孩子”把微软工程师逼疯！Agent 刚上线就翻车？网友：微软工程师成了“人肉保姆” 译文

1步碾压250步！何恺明新作祭出MeanFlow，一行公式让 FID 狂降近 70%

奥特曼：Codex 让我感到 AGI！最新谈话罕见透露下一代“完美模型”，大胆预测 Agent 明年突破边界！

OpenAI深夜宣布ChatGPT支持MCP、会议记录，万物互联时代来了！

使用Claude 4提升程序员生产力的五种高级方式译文

AI+数字经济的核心三要素

您需要登录账户后才能发表评论

发表评论取消回复

评论列表（暂无评论，409人围观）

还没有评论，来说两句吧...

目录[+]

微信二维码

微信二维码

支付宝二维码