← Back to Blog

一人公司日记:深度对话与听觉交互 (Gemini 3 + Sound Studio)

一人公司Building in PublicAI工具微信分析Sound StudioWeb Audio API

见(我发现)

今晚是技术的修罗场。

幻觉与盲区:我发现之前的微信聊天分析系统有严重的"视野盲区"。每天晚上 10 点后的深度讨论(通常是最有价值的校友、创业、投资话题)经常被 AI 忽略。原因是我的脚本采样太激进,只取了前 50 条消息。

乱码的诅咒:生成的 HTML 报告里充斥着 \uFFFD 这种乱码字符,像是一块完美的瓷器有了裂痕。

Gemini 3 的进化:为了解决分析不够深刻的问题,我决定把底层模型全线升级到 Google 最新的 gemini-3-flash-preview

最后一公里:群友们反馈 HTML 文件手机看太麻烦。我意识到,在这个"读图时代",如果不能生成一张直观的长图,那这个工具的传播力就大打折扣。于是引入了 puppeteer 来做自动化截图。

交互的缺失:在测试 Sound Studio 时,我发现目前的体验是单向的(用户听)。如果能让用户的声音也进入这個"陶瓷窑",让视觉波纹随人声颤动,沉浸感会倍增。


感(我感到)

焦虑与突破:面对 Git Submodule 和大文件上传的报错时,一度非常焦虑。但当我把 better-sqlite3 依赖重新装好,看到终端里跳出 "✅ 长图已生成" 的那一刻,多巴胺疯狂分泌。

细节的魔力:当把 AI 总结的 Markdown 格式(**粗体**---)成功渲染成带有紫色渐变徽章的漂亮 HTML 时,我深刻体会到:技术决定下限,审美决定上限

满足:看着原本杂乱的几百条聊天记录,被自动梳理成一张结构清晰、重点突出的图片报告,这种"秩序感"让人极其舒适。


思(我认为)

AI 需要"全知视角"。之前的失败是因为我为了省 Token 限制了上下文。一旦放开到 500 条消息,并加上明确的 Prompt("关注人脉"、"关注创业"),AI 的洞察力瞬间提升了一个维度。给 AI 足够的信息,它才能还你惊艳的洞察

产品要顺应人性。用户懒得点开 HTML 文件,那就把 HTML 变成一张图。能用图片解决的,就不要发链接。这是做 C 端产品的铁律。

一人公司的核心是"工具栈"。Script + AI + Automation = 一个人活成一支队伍。今晚我就是一个全栈工程师 + 产品经理 + 测试员。

Connecting the Dots:今天通过对比 Gemini 3 Flash 和普通版,我意识到同一个模型在不同场景(Antigravity vs web)下的限制是不同的,只有多体验才能摸清边界。既然我有这么多散落的"亮点"(dots),接下来的目标就是像 Steve Jobs 说的那样,把这些点连成线,让知识产生复利,而不是零散的存在。

Vibe Coding:今天最令人惊喜的时刻,莫过于直接用语音甚至“感觉”来写代码。无需再逐字敲击,想到哪里说哪里,Antigravity 就能把它实现。这种体验让我觉得,编程终于不再是枯燥的逻辑堆砌,而是一种流动的、充满“Vibe”的创作。我希望能把这种自由的感觉传递给更多人。


行(我决定)

  1. 部署新系统:将 Gemini 3 版的分析脚本部署到服务器,设定每天凌晨自动运行。

  2. 社群交付:以后每天早上,自动把生成的 PNG 长图发到群里,作为社群的每日早报。

  3. 持续迭代:观察群友对"话题标签"的反馈,如果不准确,继续微调 Prompt。

  4. 开源分享:整理好 task.mdwalkthrough.md,记录下这次升级的全过程,作为技术沉淀。

  5. Sound Studio 升级:晚间快速迭代了 Sound Studio,新增了音频输入设备选择功能,并实现了基于麦克风输入的实时波纹可视化,让产品从"自言自语"进化为"倾听者"。


今日关键词:Gemini 3、全量分析、 Puppeteer 长图、审美力、Audio Input、Connecting Dots、Vibe Coding

今日工作时长:约 5 小时(通宵达旦)

今日心情:⭐⭐⭐⭐⭐(累但爽)


Day 3,系统在进化,我也在进化。