P

PotatoEcho

Lenny's Podcast 笔记:kevin-weil 深度访谈

原视频:📺 YouTube标签分类:AI构建者

🎯 核心结论

AI 时代的开发本质是“在流沙上盖楼”,其底座能力每两个月就会发生质变。 传统的确定性产品逻辑(固定输入 = 固定输出)已失效,取而代之的是“模糊输入、概率输出、持续评估”的新范式。胜负手不再是写代码的效率,而是定义什么才是“好结果”(编写 Evals)的能力,以及在垂直领域深耕非公开数据的能力。


🏛️ 核心分析(金字塔原理)

1. 认知重构:接受“底座液化”的常态

  • 深度剖析:传统软件基于固定的数据库和逻辑,性能提升以年为单位;而 AI 产品基于快速演进的模型,能力提升以月为单位。正如 Kevin 所言:“你今天使用的 AI 是你余生中能用到的最差的模型。”这种快速演进要求开发者具备极强的“前瞻性容错力”。
  • 实战案例:OpenAI 告诉开发者,如果你的产品目前刚好在模型能力的边缘(勉强能跑通),请继续坚持。因为两个月后,模型能力的下一次跳跃会让原本平庸的产品瞬间“唱起歌来(Sing)”。

2. 核心战术:Eval(评估)是 AI 产品经理的灵魂

  • 深度剖析:由于大模型是概率性的(Fuzzy output),传统的单元测试无法覆盖。PM 的核心工作从“写 PRD”转变为“写 Eval”。只有能精准定义什么是 60 分、什么是 95 分、什么是 99 分的输出,才能驱动模型的微调(Fine-tuning)和迭代。
  • 实战案例:在开发 Deep Research 时,团队并非先写代码,而是先定义“英雄案例(Hero Use Cases)”:给定一个复杂课题,完美的研报长什么样?通过持续爬坡这些评估指标,产品才具备了将“一周的工作缩短至 30 分钟”的能力。

3. 竞争壁垒:垂直数据与行业 Know-how 是最终护城河

  • 深度剖析:OpenAI 这类平台型公司无法穷尽所有垂直行业。随着通用能力的普及,真正的护城河存在于那些大模型训练集触达不到的地方——公司内部数据、特定行业的业务逻辑和复杂的离线流程。
  • 实战案例:Kevin 强调 OpenAI 拥有 300 万 API 开发者。OpenAI 负责提供最强的大脑,而开发者应利用行业特有数据进行微调,解决特定垂直领域(如电商供应链管理、医疗法律咨询)的复杂问题。

🧠 芒格格栅:思维模型拆解

  • [反向思维 (Inversion)]:Kevin 在评估项目时,会问:“如果模型能力在三个月内翻倍,我们现在的方案会变得多余吗?”通过反向思考未来必将发生的进步,来决定现在的资源投入。
  • [激励机制 (Incentives)]:在推出 ImageGen(图像生成)前,OpenAI 内部建立了一个内部画廊。当员工看到同事生成的图像并产生社交互动时,这种内部的“正向反馈回路”验证了产品的病毒式潜力。
  • [鲁棒性模型 (Robustness)]:在 Libra 项目(Facebook 的加密货币项目)的失败中,Kevin 学到了技术可行性(Robust tech)不代表商业可行性。在复杂系统中,政策和监管是比技术更底层的限制因素。

⚡ AI 时代的赋能与重塑

  • 前沿应用Deep Research(深度研究)。这不仅是一个搜索工具,而是一个具备“自省能力”的智能体。它在发现知识盲点时会自我修正,重新检索。
  • 商务/电商实战建议
    1. 市场调研自动化:利用 Deep Research 进行竞争对手情报收集和细分市场趋势分析,将原本需要分析师工作数周的报告缩减到分钟级。
    2. 视觉陈列方案优化:利用 ImageGen 的指令遵循能力(如:把 A 放在 B 的左边,呈现 Ghibli 风格),电商卖家可以零成本生成极高质量的广告图或产品场景渲染。
    3. 客服质量量化:停止使用简单的关键词匹配,为你的客服机器人编写专用的“语义 Evals”,通过模型评估模型,确保服务质量。
  • 观念打破 (Old vs New)
    • 旧观念:追求功能的“完美交付”,上线即稳定。
    • 新现实:追求功能的“动态演进”,上线只是模型能力的起点。PM 必须从“流程设计师”转变为“质量评估师”。

💡 行动建议 (Steve Jobs 风格)

  1. 马上开始编写你的 Evals。别只顾着对话,把你业务中最核心的 20 个问题列出来,给它们的答案打分,这是你唯一的资产。
  2. 向“边缘能力”靠拢。不要做那些平庸、确定的功能,去做那些现在模型做起来还很吃力的事情,因为三个月后,那就是你的爆发点。
  3. 拥抱“长考”产品。接受那些需要 30 分钟才有结果的 AI 产品,因为它们正在解决的是需要人类耗时一周的深度问题。

💬 讨论区