小十一 AI
AI 产品作品集 工作流思维 Agent 设计

我设计能把复杂信息
转化为可用输出的 AI Agent

围绕华语辩论稿件生成与 Microsoft Teams / M365 工作流,我完成了从用户洞察、工作流拆解、Prompt / Agent 设计到效果验证的完整链路。这里展示一个已上线产品和三个面向企业场景的 Agent。

代表项目
4
辩知 AI · DCR · Feature · Intelligence
试点反馈
2000+
备赛队员试用,NPS 72%
能力标签
4
工作流 · Prompt · 结构化 · 评估
方法论

我是如何做 AI 产品的

我会先判断场景是否真的适合交给模型,再把精力放在工作流拆解、输出约束和效果评估上。

从用户工作流出发

先把用户真实任务链路拆开,识别“找信息 / 整理信息 / 生成内容”中的阻塞点,再决定 AI 应该切入哪一步、承担多大比重。

把 AI 变成结构化能力

将开放任务拆成稳定子任务,约束输入输出 schema,减少结果发散,让模型能力从一次性回答变成可复用流程。

关注结果是否真的有用

用相关性、完整性、可执行性、一致性评估输出,而不是停留在“看起来很聪明”。

Featured Work

代表项目

每个项目都围绕真实工作场景展开:先定义痛点,再拆解工作流,最后用 Demo、PRD、PPT 和架构材料证明它可以被追问和复盘。

Skill Artifact · Prompt Engineering

辩论 Skill:把领域方法论封装成可交付的 Prompt 产品

SKILL.md 不是一段提示词,而是把辩论教练的经验系统化、约束化、可评估化后的产品级交付物。

禁止虚构红线

在 Skill 中显式定义证据要求与禁止编造数据的约束,从源头降低幻觉。

三大赛制覆盖

覆盖主流华语辩论赛制结构,让生成稿件贴合真实比赛场景。

四辩位工作流

把立论、驳论、质询、结辩拆成各自的子任务与输出要求。

可评估输出

定义稿件应满足的相关性、完整性、攻防一致性等可检验标准。

SKILL.md
# SKILL.md · 华语辩论稿生成
 
## 角色定位
你是资深华语辩论教练,负责生成可直接
用于比赛的立论 / 驳论 / 质询 / 结辩稿。
 
## 红线(hard constraints)
- 禁止编造数据、案例与引用来源
- 论据须可追溯,标注数字角标引用
- 攻防需自洽,立场前后一致
 
## 四辩位工作流
constructive: 框定定义 → 论点树 → 论据
rebuttal: 拆解逻辑 → 反例 → 重构
cross_exam: 设问链 → 预设回答 → 收口
summary: 战场归纳 → 价值升华

为什么这份 Skill 是 AI PM 的硬证据

领域翻译

把辩论教练的隐性经验翻译成模型可执行的显式规则。

系统化建模

将开放写作任务建模为有结构、可复用的子任务流程。

幻觉治理

用红线约束 + 证据要求把事实风险压在可控范围内。

可交付

SKILL.md 本身就是可被追问、可复用的产品化交付物。

Enterprise Agents · Teams / M365

面向企业产品团队的三个 Agent

围绕需求分诊、产品知识咨询和竞品情报三类高频工作流,把开放任务拆解成可审阅、可追溯的 PM 决策辅助。

System Design

工作流与评估设计

AI 产品的关键不只是“生成了结果”,而是这个结果是否稳定、可解释、可复用。

1

任务框定

明确用户任务边界、输入项和输出目标,而不是直接让模型自由回答。

2

上下文锚定

加入辩题、立场、时间范围、情报主题等上下文,让输出贴近具体场景。

3

结构化生成

通过固定模块或模板提升完整度与后续可编辑性,减少空泛生成。

4

可用性评估

从相关性、完整性、可执行性、一致性判断结果是否真的可用。

辩论 Agent 工作流

输入解析
立场分析
论证结构化
稿件生成
迭代优化

评估维度

相关性

是否切中辩题与立场核心。

完整性

论点、论据、攻防是否齐备。

可执行性

稿件能否直接上场使用。

一致性

立场与逻辑前后是否自洽。

Reflection

复盘与思考

AI 产品不是把模型塞进页面,而是围绕任务流设计输入、约束输出、降低不确定性,然后不断回答“这个结果对用户到底有没有用”。

有效的部分

结构化任务拆解明显优于开放式生成。在辩论、情报这类知识密集场景里,用户真正想要的是完整、可复用、可继续编辑的半成品。

当前的局限

输出质量仍高度依赖输入清晰度;实时事实核验、来源追踪和长链任务跨轮次一致性需要更系统的 memory 与评估机制。

下一步迭代

计划继续引入多轮 memory、证据引用层、persona 输出适配,并建立量化质量评估面板,让 Badcase 不再只靠人工发现。