AI 产品作品集  工作流思维  Agent 设计

我设计能把复杂信息
转化为可用输出的 AI Agent

我更关心 AI 产品能否真正被用起来。围绕"辩论稿件生成"和"AI 情报获取"两个知识工作场景,我独立完成了从用户洞察、工作流拆解、Prompt / Agent 设计到效果验证的完整链路——不是"接一个聊天框",而是把 AI 能力组织成可用、可控、可交付的产品流程。

 代表项目
2
辩知 AI(已上线)· Intelligence Agent
 内测反馈
150
名辩手试用,NPS +72
 能力标签
4
工作流 · Prompt · 结构化 · 评估
方法论

我是如何做 AI 产品

做 AI 产品,我会先判断场景是否真的适合交给模型——高认知负担、信息碎片化、输出需要被结构化复用,才是 AI 的主场。判断完之后,我更多的精力放在工作流拆解、输出约束和效果评估上,而不是"做一个能聊的界面"。

从用户工作流出发

先把用户真实任务链路拆开,识别"找信息 / 整理信息 / 生成内容"中真正的阻塞点,再决定 AI 应该切入哪一步、承担多大比重。

把 AI 变成结构化能力

开放式任务拆成更稳定的子任务,约束输入输出 schema,减少结果发散,让模型的"灵光一现"变成可以被复用的产品能力。

关注结果是否真的有用

用相关性 / 完整性 / 可执行性 / 一致性四个维度评估输出,而不是停留在"看起来很聪明"——这也是我对 AI 产品"可交付"的底线。

Featured Work

代表项目

我选择了两个最能代表自己 AI PM 思考方式的 agent 项目。一个聚焦内容生成,一个聚焦信息获取与情报综合。

 Skill Artifact · Prompt Engineering

辩论 Skill:把领域方法论封装成可交付的 Prompt 产品

为了让 Agent 真正理解"辩论"这个垂直领域,我把教练经验系统化为一份 SKILL.md(405 行)——它既是 Claude Agent Skill 格式的标准产物,也是我对"PM 如何设计 prompt"这件事的完整答卷。

禁止虚构红线

最高优先级规则:所有数据必须来自真实搜索,标注出处,搜不到就标记 [待补充来源],从源头治理 AI 幻觉。

三大赛制覆盖

世锦赛 / 世界杯 / 新国辩三套主流赛制结构化编码,流程、时间、规则差异一目了然——让模型精确匹配用户场景。

四辩位工作流

一辩立论 / 二辩质询 / 三辩盘问 / 四辩结辩,每个辩位拆成"结构 + 时间 + 写作要求 + 论据搜索"的结构化 prompt。

可评估输出

每条论据格式化为"主张 → 推理 → 证据(来源)"三段式,输出可直接被人工校验,降低 review 成本。

SKILL.md · 片段预览 Markdown
---
name: debate-assistant
description: 华语辩论赛全流程写作助手。覆盖立论、质询、
  驳论、自由辩、结辩稿的撰写与打磨。严禁虚构数据/
  案例,所有论据必须通过网络搜索获取真实来源。
---

# 🚫 核心红线:禁止虚构

这是最高优先级规则,绝不允许违反:
1. 所有数据、案例、引用必须来自真实来源
2. 每条论据必须标注出处(作者 / 机构、年份、链接)
3. 搜不到可靠来源的,直接标记 [待补充来源]

## 🔁 核心工作流

# Step 0  辩题解析     → Step 1  立论稿
# Step 2  质询 / 盘问稿 → Step 3  驳论稿
# Step 4  自由辩稿     → Step 5  结辩稿
为什么这份 Skill 是 AI PM 的硬证据?
  • 领域翻译:把"辩论教练"这种隐性经验显性化为可执行 Prompt——PM 把场景翻译成模型能理解的语言,是 AI 产品最关键的一步。
  • 系统化建模:3 套赛制 × 4 个辩位 × 5 种稿件,不是拍脑袋写提示词,而是先建模再写 Prompt。
  • 幻觉治理:核心红线写在最前、强制搜索、要求标注来源——用产品规则约束模型行为,而不是期待模型"自己别乱编"。
  • 可交付:标准 Agent Skill 格式,可被 Claude Code / Agent 平台直接加载使用,不是 PPT 概念。
 已在线部署,可直接在浏览器预览或下载原始 Markdown。
 项目 02 · Intelligence Agent

面向 AI PM 的情报汇总 Agent(概念原型)

面向"AI 产品人需要持续追踪前沿"的真实痛点,我做了一个情报工作流的概念原型:把分散的模型更新、产品动作、行业信号,自动汇总成结构化、可对比、可行动的情报简报。

AI 情报 研究工作流 战略综合 概念原型
场景
借鉴大型科技公司内部"AI 情报跟踪"的真实需求形态做抽象与脱敏——团队需要持续消化前沿动态,但纯搜索无法满足"高频 / 连续 / 可比较"三件事。本项目内容为概念原型,不涉及任何真实企业数据或资料。
产品价值
把碎片信息压缩成"最新动态 / 趋势分类 / 竞争动作 / 对策略的潜在影响"四段式简报,让情报从"读得到"变成"用得上"。
我的角色
  • 需求抽象:把企业级情报跟踪的真实痛点剥离敏感信息,提炼为通用工作流
  • 工作流设计:信息收集 → 聚类归纳 → 结构化洞察 → 可行动摘要
  • 输出规范:定义情报 schema 与可读性强的展示形式(简报 / 卡片 / 对比表)
  • 完成概念验证(PoC)与产品叙事包装,可作为面试 / 立项材料
 Pipeline · 情报四步工作流
01
信息收集
模型发布 / 产品更新 / 行业公告多源抓取
02
聚类归纳
按主题 / 厂商 / 能力维度去重与合并
03
结构化洞察
输出趋势判断、竞争动作与策略含义
04
可行动简报
压缩为四段式卡片,支持订阅 / 分发
 输出 schema:最新动态 / 趋势分类 / 竞争动作 / 对产品策略的潜在影响
System Design

工作流与评估设计

对我来说,AI 产品的关键不只是“生成了结果”,而是这个结果是否稳定、可解释、可复用。下面是我在项目中反复使用的设计逻辑。

1

任务框定

先明确用户任务边界、输入项和输出目标,而不是直接让模型自由回答。

2

上下文锚定

加入辩题、立场、时间范围、情报主题等上下文,让输出更贴近具体场景。

3

结构化生成

通过固定模块或模板,提升完整度与后续可编辑性,减少空泛生成。

4

可用性评估

从相关性、完整性、可执行性、一致性评估输出,而不是只看“像不像人写的”。

辩论 Agent 工作流

输入解析
识别辩题、持方、轮次、风格与生成目标
立场分析
提炼核心立场与价值判断
论证结构化
生成论点树、论证顺序与素材骨架
稿件生成
输出成稿、驳论、自由辩、结辩内容
迭代优化
基于用户偏好进一步调整强度、风格、长度与攻防重点

评估维度

相关性
是否贴合辩题 / 情报主题
完整性
结构是否完整、模块是否齐全
可执行性
结果是否可直接拿去使用或继续编辑
一致性
不同轮次、不同输出之间是否风格统一
Live Product

线上产品:辩知 AI 已上线

这个作品集里说的每一个能力,都可以在 hanlinliu.top/generator 直接验证。打开即用,无需登录、无需填 API Key。

线上可验证的能力清单

下面每一项都能在线上产品里点一下就看到——这也是我对"AI PM 交付物"的要求:不是 PPT 概念,而是可点、可用、可被面试官追问。

  • 四类稿件 Tab:立论 / 驳论 / 质询 / 结辩,各自独立 Prompt 与生成流程
  • 正反方一键切换:同一辩题秒切持方,方便选手做攻防推演
  • Tavily RAG 联网取证:开关常驻界面,可追溯"数据从哪来"
  • 数字角标引用:正文出现 ¹ ² ¹⁴ 形式角标,点击直跳原文链接
  • 4 家模型自由切:Kimi / DeepSeek / OpenAI / Claude,默认 Moonshot v1 32k
  • 修改对话:对当前 Tab 发自然语言指令进行二次改写("开篇改用一句唐诗切入")
  • 零门槛演示:内置演示额度,无需自备 API Key 即可完整跑通

推荐的两分钟试用路径

1. 选一个预置辩题
比如「愚公应该移山/搬家」「人工智能的发展利大于弊」,一键填入
2. 选持方,点"生成立论"
等待 ~20 秒,观察正文里的数字角标——这是 RAG 真实取证的证据
3. 切换到"驳论 / 质询 / 结辩"Tab
体验四个稿件之间 Prompt 独立但上下文贯通的设计
4. 在右侧"修改对话"发出指令
试试"把论点二换成科技领域"——这是我最得意的交互:在稿件层而非 chat 层迭代
 如果你更想看产品思考过程,建议先翻前文「辩论 Skill · Prompt Engineering」那一节——把一份 SKILL.md 读完,比看任何演示视频都更接近我的工作方法。
Reflection

复盘与思考

这两个项目让我更清晰地回答了一个问题——AI 产品的工作不是"把模型塞进页面",而是围绕任务流设计输入、约束输出、降低不确定性,然后不断回答"这个结果对用户到底有没有用"。

有效的部分

结构化任务拆解明显优于开放式生成。在辩论、情报这类知识密集场景里,用户真正想要的不是"更聪明的回答",而是"完整、可复用、可继续编辑"的半成品。

当前的局限

输出质量仍高度依赖输入清晰度;实时事实核验与来源追踪仍是短板;长链任务跨轮次的一致性需要更系统的 memory 与评估机制。

下一步迭代

计划继续引入多轮 memory、证据引用层、persona 输出适配,并建立一套量化的质量评估面板,让 Badcase 不再只靠人工发现。