o3-pro答高难题文字游戏引围观OpenAI前员工讽刺苹果：这都不叫推理那什么叫推理-九游官方门户网站

行业资讯

o3-pro答高难题文字游戏引围观OpenAI前员工讽刺苹果：这都不叫推理那什么叫推理

发布时间：2026-01-31

o3-pro答高难题文字游戏引围观OpenAI前员工讽刺苹果：这都不叫推理那什么叫推理

　　说出歌手Sabrina Carpenter的一首歌的歌名，回答这个问题时，

　　经Sabrina Carpenter实测，o3只能做对个大概，通常只能把最后几个字母凑对。

　　虽然人已经不在OpenAI了，但Miles Brundage还是替老东家直接开大阴阳苹果：如果这都不叫推理那什么叫推理。

　　PS：苹果前几天发了个新研究，用汉诺塔等四个小游戏测试大模型，称推理模型全都没在真正思考，只是另一种形式的“模式匹配”，所谓思考只是一种假象。

　　官方测评中，o3-pro超越o3、o1-pro，成为当前最擅长编码的OpenAI模型。

　　而在大模型权威榜单LiveBench上，o3-pro和o3编码平均得分几乎无差，o3-pro仅有0.07分的优势。

　　智能体编码平均得分方面，o3-pro甚至大比分落后于o3（31.67 vs 36.67）。

　　另外，针对大模型长上下文理解的基准测试Fiction.LiveBench也放榜了。

　　让人困惑的是，在这个基准九游官方门户网站测试中，不管是o3-pro还是o3，在16k上下文中分数都下降了，到了32k，两个模型得分又回到了100。

　　除此之外，苹果&SpaceX前工程师Ben Hylak之前分享o1使用心得，得到不少网友关注，连奥特曼、Brockman都转发了。

　　苹果&SpaceX前工程师Ben Hylak的分享，好似恰巧解释了o3-pro的官方测评和各大评测榜单结果有所出入的问题。

　　Ben Hylak曾任SpaceX软件工程师、苹果VisionOS人机交互设计师，目前在创业为AI产品提供分析服务。

　　此前o1 pro推出满血$200/月版本时，Ben Hyla第一天就交了钱，整整测试了一天。

　　结果体验很糟糕，很多人表示同感，但也有人强烈反对。Ben Hylak在与持不同观点人激烈讨论了一番后，意识到自己的使用方法完九游官方门户网站全错了。

　　后来，Ben Hylak从讨厌o1转变成了每天都在用它解决最重要的问题。这件事儿的反转，让Ben Hylak测试o3-pro更加用心。

　　他透露这次自己一周前就已经提前接触到了3-pro，o3-pro“以不同方式测试，实际体验会有所不同”。

　　从经常测评大模型的经验来看，Ben Hylak认为“模型能力的发挥高度依赖背景信息”，他表示自己目前使用o3关键就是：

　　不把它当聊天对象，而是当作报告生成器。给它背景信息、设定目标，然后让它自由发挥。

　　由此，要看出o3-pro的真正实力，得给它多得多的背景信息。然鹅，Ben Hylak手头的信息素材都快榨干了。于是，Ben Hylak换了种方法：

　　他和他的联合创始人Alexis花时间把他们在Raindrop所有历史会议记录、目标全翻出来，甚至录了语音备忘录，一股脑塞给o3-pro，让它做规划。

　　它输出的计划精准踩中我们想要的点——目标数据、时间排期、优先级排序，连“必须砍哪些业务”都写得明明白白。

　　o3给出的计划合理、说得通；但o3-pro给出的计划足够具体、有依据，真真切切改变了我们对未来的思考方式。

　　除此之外，Ben Hylak认为如今的模型在孤立环境下表现已然十分出色，简单测试难不倒它，真正的挑战在于将其融入社会。

　　这种融入主要体现在工具调用方面，即模型与人类、外部数据以及其它AI协作得如何。

　　经测试，Ben Hylak表示o3-pro在这方面有了实实在在的提升——

　　“它在识别自身所处环境、准确说明可使用的工具、知晓何时需询问外部世界信息（而非假装自己掌握相关信息或权限）以及为任务挑选合适工具等方面，表现都明显更优。”

　　在这个聊天窗口中无法显示实时交互的HTML预览（我的环境仅支持纯文本和代码片段）。

　　并且给出了要查看渲染后日历的详细步骤操作，还描述了用户将看到的视觉内容。

　　相比之下，o3明明做不到还装能做，表示可以“创建日历小组件的实时交互预览”。

　　o3-pro同样明确表示进行实时Substack查询所需的网页搜索工具在当前环境未启用，所以无法直接获取最新链接。

　　Ben Hylak还发现，需要给o3-pro提供更多上下文，要是不提供足够的上下文，它会出现过度思考的情况。

　　它在分析方面超强，也很擅长借助工具做事，但自己直接动手做事就没那么在行。我觉得它会是个超棒的协调者。不过，有些ClickHouse SQL相关问题，o3处理得更好。实际效果因人而异。

　　Ben Hylak认为Claude Opus虽体量庞大，但没让他真切感受到这种“大”的独特价值；而o3-pro的输出更优，仿佛两者完全处于不同的竞争维度。

　　他继续补充道，OpenAI正沿着强化学习路径深挖（比如Deep Research、Codex项目），不只是教模型“怎么用工具”，更是教它们“思考何时该用工具”。

　　最后，Ben Hylak总结认为推理模型的Prompt技巧核心逻辑不变，之前他写的o1提示指南，现在依然适用o3-pro。

　　首先，“语境”是一切，就像给“饼干怪兽”喂饼干，精准投喂才有效，它是一种引导大语言模型激活“类记忆能力”的方式，但因为足够精准，所以效果拔群。

　　另外，系统提示的影响极大。如今模型的可塑性超强，那些能让模型“理解自身所处环境与目标”的LLM调教框架，能产生远超预期的价值。

本文由:九游,九游官网,九游娱乐官方网站,九游官方门户网站提供

上一篇：百度秒哒商业应用生成数突破50万个创造价值超50亿下一篇：变态手游app下载平台大全变态版单机游戏盒子有哪些

行业资讯

产品中心

联系我们

手机：0394-3195657

九游官方门户网站 - 互动小说与文字游戏创作平台

行业资讯