AI 原生团队 运作模型
加载中
CharlieAI 原生团队 · 运作模型
EN
方法论

AI 原生团队
运作模型

AI 原生团队不是给每个人配一个 copilot,而是重新设计信息怎么流动、决策怎么发生、工作怎么协调。

84%
开发者使用或计划使用 AI 工具
Stack Overflow 2025 [S7]
60-90%
迁移类任务时间节省
Spotify Honk 案例 [S5]
28d
Sora Android 工程案例
OpenAI Codex [S4]
2026 年 4 月 2 日
问题

要解决的问题

团队协作的核心挑战:如何让每个人在正确的时间获得正确的上下文,做出正确的决策。

传统答案是层级制 -- 本质上是一个信息路由协议。要管更多人就加层级,层级越多信息流动越慢、失真越大。很多组织创新都是在这个约束内调整路由方式。

层级制的角色实际在做什么AI 能否替代
向下汇聚信息了解团队在干什么、卡在哪可大幅自动化
向上传递信息汇报进展、请求资源可大幅自动化
替下属提前做判断在权限范围内做判断部分可以,最终责任仍在人

随着业务增长,沿用传统模式的复杂度会持续上升。更好的做法是在组织还不臃肿时,就把知识、决策和状态写成 AI 可读的系统。

核心原理

让信息自己流动

不靠开会同步,不靠汇报传话。决策、方案、进度结构化存下来,AI 随时读取聚合,信息自己到该到的人手里。

需要两样东西

  • 公司知识全景 -- 团队怎么运转、谁在做什么、为什么这么决定
  • 客户知识全景 -- 用户实际在干什么,不是我们猜他在干什么

"知识全景"不是 AI 训练出来的模型,是把公司和客户的全部认知结构化存下来(文档 + 数据),让 AI 随时能查、能推理、能交叉关联。不需要复杂平台,维护好的文件夹 + AI 的理解能力就够了。

人去干系统干不了的活

  • 发现系统发现不了的 -- 直觉、主观判断、文化语境
  • 决定系统不该自己决定的 -- 伦理、高风险时刻
  • 探索系统还没覆盖的 -- 新市场、新场景

传统:智能在人脑里,层级负责搬运。
目标:让系统学会思考,让人回到现场。

I

架构

架构

四层架构

整个系统分四层,从下往上看:底层是地基,顶层面向用户。

界面 Web、桌面客户端、CLI、API、MCP 等交付入口 可替换
智能层 自动拼方案推给用户;缺能力时自动加入待建清单 核心枢纽
知识全景 公司知识全景 + 客户知识全景 持续积累
原子能力 认证、同步、推送等基础模块 -- 多个产品共用的积木 地基

界面重要,但价值不在界面里。界面可以随时换,底下的知识全景和原子能力才是真正的积累。

演进路径

第一步:AI 能读懂
AI 能读、能理解
第二步:AI 能动手
AI 能做,人审批
第三步:规则内自动化
低风险事项自动化,高风险事项人审批

参考 Palantir Ontology 的语义操作层,以及 Block "From Hierarchy to Intelligence" 对 world model / intelligence layer 的公开论述。[S6][S9]

知识全景

两个知识全景

公司知识全景

团队如何理解自身 -- 运转状态、绩效、优先级。

数据类型载体
静态知识(决策、方案、能力定义)知识仓库
Git + Markdown + YAML
动态状态(进度、谁有空、什么卡住了)AI 实时聚合
协作工具 / GitHub API / 项目系统

AI 随时查知识仓库回答:"谁最适合处理这个问题""为什么当时选了方案 A""我们有没有能力做这个"

客户知识全景

基于用户真实行为数据的深度理解 -- 不是我们猜的,是数据告诉我们的。

关键问题:团队理解了什么别人很难理解的东西?这个理解每天都在加深吗?

如果答案是"没什么",AI 只是降本增效。如果答案是深刻的,AI 揭示的是这个团队到底是什么。

飞轮效应:更丰富的信号 → 更好的模型 → 更多用户交互 → 更丰富的信号。

信息流

信息怎么流转

三步闭环:人把结论写进知识仓库,AI 读取聚合,再推送给需要的人。

写入:什么事件触发谁写什么

知识仓库不是"有空了整理一下"的事后动作,而是特定事件触发的强制写入。每次写入应该足够轻量,避免变成新的流程负担。

触发事件写入什么写到哪谁写
协作讨论有结论结论摘要decisions/ 或 meetings/讨论发起人
新功能立项方案说明 + 原型文档specs/feature-xxx/DRI
技术方案确定决策记录decisions/DRI
新能力上线能力登记文档capabilities/能力负责人
目标/优先级调整目标文档更新goals/DRI

聚合:AI 怎么读、怎么组合

知识仓库 读每个文档的元数据(状态、标签、负责人)→ 建立结构化知识图 静态知识
GitHub API 代码提交、任务、自动化流水线 → 谁在做什么、什么卡住了、哪些代码等着审 动态状态
协作工具 API 频道消息 + 会议记录 → 还没记录下来的讨论、待跟进的事项 讨论上下文

AI 的核心能力是交叉关联。知识仓库显示某位同事是安全专家,代码平台显示他当前有多个进行中 PR,系统就能提示:"安全任务适合请他审查,但不宜立即再分配高优先级执行任务"。

分发:什么时候、什么形式、到谁手里

08:00

团队晨报

昨日进展 + 阻塞项 + 爬坡图状态 + 本周目标进度。自动推送到团队协作频道。

按需

个人视图

@bot "我今天该关注什么" -- AI 综合你的 PR、Issue、目标进度给出优先级。

实时

异常告警

PR 卡住、任务长时间没人接、自动化测试失败、产品指标偏离预期 → 系统提醒相关人。

决策

上下文检索

@bot "谁适合接这个任务""上次为什么选了方案 A" -- AI 从知识仓库 + 代码平台交叉检索。

晨报示例(AI 自动生成)

团队状态 2026-04-02 (Wed)

[进行中]
风险概览页 -- 规则引擎 ▲ 下坡 70% | UI ▲ 上坡 40% | 通知 _ 未开始
昨日: 一个核心 PR 已合并,另一个仍在等待审查 | UI 组件拆分完成
时间盒: 剩余 5 天

[需要关注]
一个关键 PR 等待审查时间过长 → 建议 DRI 协调审查人
性能优化事项长时间无人认领 → 建议找性能方向专家判断优先级

[本周目标]
风险概览页 beta: 40%, 按计划
共享接口规范: 60%, 略提前

II

组织

组织

三种角色

人跟着问题走,不是问题跟着人的职能走。职能边界仍然存在,但不应该成为信息和责任的边界。

IC

独立贡献者

一专多能
  • 一个深度标签(前端、后端、数据...)
  • 日常借助 AI 参与全栈工作
  • 深度领域是团队权威
  • 评估:专业判断力 + AI 熟练度 + 主人翁意识
DRI

直接责任人

从头到尾一个人扛
  • 按问题临时拉资源,有明确周期
  • 广泛咨询但单独决定
  • 任何 IC 都可以当 DRI
  • 关键:给 DRI 足够的决策权力
PC

教练型选手

既写代码又带人
  • 替代传统纯管理角色
  • 不做信息路由,专注技术深度 + 带人
  • 架构决策 + 关键 代码审查
  • 把关新人用 AI 的产出质量

参考:GitLab DRI 模型、OpenAI AI-Native Engineering Team Guide,以及 Block 对 IC / DRI / player-coach 的公开组织设想。[S10][S3][S9]

工作方式

委托、审查、负责

工程师的核心工作从"写代码"变成:把活交给 AI,审查 AI 产出,对最终结果负责。

委托

完全交给 AI 做

样板代码、CRUD、数据模型、配置文件、大规模迁移、文档、测试框架搭建、依赖升级

审查

人 + AI 协作,人重点审

功能实现、复杂 bug 调试、重构方案、安全相关代码

负责

只能人来做,不交给 AI

系统架构、产品方向、取舍判断、最终合并决策、风险评估、跨团队协调

工作重心

活动AI 原生模式下的变化说明
描述任务变得更重要把目标、约束、验收标准和上下文讲清楚,是委托质量的前提。
审查 AI 产出成为关键瓶颈Stack Overflow 2025 显示,开发者最常见挫败来自“差不多对但不完全对”的 AI 输出。[S7]
架构设计和规划更偏向人的责任OpenAI Sora Android 复盘强调,基础架构和关键取舍需要人先搭好。[S4]
手写代码不再是唯一核心产出代码仍然重要,但人的价值更多体现在定义问题、把控边界和拥有结果。
项目管理

Shape Up + DRI

传统做法为什么总延期

传统:需求固定,时间弹性

产品需求写成:"做风险概览页 -- 评分、趋势图、导出、通知"。开发团队再去估时间。

做到中途发现比预想复杂。加人、加范围、加沟通,最后还是延期。

根本原因:需求不能砍,时间可以加。需求固定 + 时间弹性 = 必然延期。这不是管理问题,是数学问题。

Shape Up:时间固定,需求可砍

DRI 先判断:"这个问题值得多少时间。" 这不是估算,而是 appetite:这个问题配得上团队投入多少时间。

然后在 2 周内取舍:

  • 核心评分 + 基础 UI →
  • 历史趋势图 → 砍
  • 导出 PDF → 砍
  • 通知 → 标记 ~(大概率不做)

时间到了,上线手里有的。可能只有评分 + 基础 UI,但它是可用的、完整的

Appetite(胃口):DRI 在立项时设定的时间盒。不是开发团队算出来的工期,而是基于业务重要性做出的投入判断。估算是"做完要多久",appetite 是"我们愿意喂进去多少时间"。[S8]

DRI 在每个阶段干什么

定义
定义问题 + 设 Appetite
+ 粗糙草图(故意不画细)
构建
拆成几块任务,AI + 团队
各自推进
追踪
每天看 Hill Chart
决定砍什么保什么
上线或砍掉
时间到了,不延期
要么上线,要么砍掉

Hill Chart(爬坡图):比"完成 60%"有用 100 倍

"完成 60%" 没有信息量 -- 可能简单任务做完了,核心难题还没碰。

爬坡图把每块任务分两段:

  • 上坡(还在摸索怎么做)-- 还在探索怎么做,不确定性高
  • 下坡(知道怎么做了,剩体力活)-- 知道怎么做了,剩下是体力活

管理者看的是:点在动吗?一个点在上坡卡了 3 天 = 有问题,需要介入。

上坡 下坡 (摸索) (执行) /\ / \ / . \ . / \ . . / \/--------\--- 评分引擎 .............. ▲ 下坡 70% Dashboard UI .......... ▲ 上坡 40% 通知功能 .............. _ 未开始

状态同步

  • 日常进度 -- AI 从代码平台和项目系统自动生成报告,替代一部分每日站会
  • 方向对齐 -- 周度同步会议,DRI 广播更新
  • 危机 / 卡住的事 -- 立即同步,不等任何节奏

为什么 AI 时代更适合 Shape Up:AI 能在固定时间内产出更多,但如果不设 appetite,AI 会无限扩大需求("顺便加个功能"),反而更难收敛。时间盒是约束 AI 产出膨胀的最好工具。

III

执行

生命周期

产品生命周期

传统团队赌"我们猜对了用户要什么",AI 原生团队赌"我们能比别人更快地知道猜错了"。

原型先行:五步闭环

发现需求 出原型 异步评审 开发测试 发版 + 看数据
步骤谁做具体做什么输出
发现需求DRI 用几句话描述问题和目标,不写 PRD。信号来源:用户反馈、数据异常、竞品动态、直觉。 问题 brief
出原型DRI + AI AI 从问题描述生成可交互原型,需求和成功指标标注在原型旁边,DRI 调整补充。 Spec-Prototype
异步评审全员 团队异步看原型提反馈,不开评审会。人看方向对不对,AI 查逻辑漏洞。迭代 2-3 轮定稿。 已收敛的范围
开发测试IC + AI 基于原型里的 spec 开发生产版本。原型不追求直接复用,价值在于把需求、交互和指标说清楚。 生产代码 + 测试
发版 + 看数据IC + AI 每个功能独立上线,不攒版本。AI 监控灰度数据,看原型里定的成功指标有没有达成。数据驱动下一轮。 指标反馈

这条链路的关键不是让 AI 代替产品判断,而是减少信息翻译:人看原型判断体验,AI 读结构化 spec 生成实现和测试,人再审查最终结果。

哪些任务更适合提速

任务类型AI 帮助最大的部分证据边界置信度
CRUD / 样板代码生成初稿、补测试、补文档边界清晰、验收标准明确时更稳定。中高
代码迁移 / 规范化改造批量修改、运行检查、生成 PRSpotify Honk 报告迁移类任务 60-90% 时间节省。[S5]
端到端功能交付原型、实现草案、测试草案、审查辅助OpenAI Sora Android 是强上下文和清晰参考实现下的小团队案例。[S4]
复杂架构 + 核心算法资料整理、方案比较、局部实现关键取舍和最终责任仍需要专家判断。中低

核心变化:线性变循环

传统

开发 运营 维护

线性,有交接点

AI 原生

发现 构建 上线 发现 ...

循环,同一批人同一套系统

运营

运营闭环

不是人盯数据做决策,是 AI 盯数据、人做判断。

收集反馈和数据 客服反馈 / 错误监控 / 行为分析 / 用户研究记录 24/7
发现问题 AI 聚类反馈、识别异常、关联历史决策和相关代码 AI
分诊审批 AI 生成候选优先级、负责人和证据链,DRI 判断是否进入执行 AI + 人
执行验证 AI 生成候选修复、测试和变更说明,人审查后灰度发布并看数据 AI + 审查

成熟度路径

L1 AI 辅助分析 L2 AI 主动发现 L3 AI 自动建任务 L4 AI 分诊分配 L5 AI 自主修复

当前更实际的目标通常是 L3:AI 自动起草结构化任务和证据链。L5 只适合崩溃修复、安全漏洞、代码迁移等高度结构化、可验证、可回滚的场景。

风险

必须正视的风险

公开研究和案例给出的共同提醒是:AI 是放大器,不是组织修复器。强系统会被放大,弱系统也会被放大。

84%
使用或计划使用 AI 工具
Stack Overflow 2025
66%
挫败于“差不多对”的 AI 输出
Stack Overflow 2025
19%
METR 早期 RCT 的 slowdown 结果
已被标注过时
Amplifier
AI 放大组织强弱项
DORA 2025

AI 让上游更快产出,但如果下游的审查、测试、部署、回滚和责任机制没有跟上,个体加速并不会自然变成组织加速。[S1][S2][S7]

对策

1

每次只改一小块

抵制 AI 制造大变更的倾向,一个 PR 只做一件事

2

自动化测试先行

CI/CD + 自动测试是放大 AI 收益的前提

3

审查能力跟上生成速度

AI 写得越快,人审得越多,审查能力必须同步增长

4

随时能回滚

出了问题一键回退,不靠人肉兜底

其他必须注意的风险

5

盲目信任 AI 产出

AI 写的代码看着对,但可能藏着隐蔽 bug 和安全漏洞。越信任越危险,必须保持怀疑。

6

技能退化

不自己写代码,就会慢慢失去判断 AI 产出质量的能力。审查是核心工作,但审查的前提是你自己能写。

7

AI 产出淹没团队

AI 生成代码和任务的速度远超团队消化速度,积压越来越多,质量失控。必须用时间盒约束产出量。

8

供应商依赖

重度依赖某个 AI 模型,一旦涨价、换代、API 变更就被动。核心工作流不能绑死在一家。

9

数据安全

代码和业务数据发给外部 AI 服务有泄露风险。敏感代码和数据必须走本地模型或私有部署。

10

组织问题不是技术问题

流程不清、职责不明、审查跟不上、反馈不回流,这些问题不会因为换了模型自动消失。

IV

落地

执行

落地原则

外部可复用的不是固定编制,而是一组组织设计原则:小团队、强 DRI、专家审查、AI 参与低风险执行。

原则做法原因
一个结果一个 DRI每个项目或机会明确最终负责人。避免多人参与但无人最终负责。
小团队闭环围绕问题组织跨职能小队,而不是把工作按职能层层转交。减少交接和信息损耗。
专家审查安全、性能、数据、架构等高风险领域必须有人真正懂。AI 可以生成,不能替代责任和专业判断。
AI 先进入低风险环节摘要、草案、迁移、测试补充、文档、结构化 issue。更容易验证,也更容易回滚。

扩展路径

起步

先把知识仓库、决策记录、规格模板、代码检查和状态摘要跑起来。不要一开始追求全自动。

扩展后

把重复出现的能力沉淀为共享能力,把反复出现的错误沉淀为检查清单和评估集。

渐进式 AI 化

阶段AI 角色人的角色
起步AI 写草案、补测试、做摘要、辅助代码审查人仍主要负责实现和判断,顺手沉淀规则
过渡AI 自动报告、问题分类、候选修复、候选计划人从亲手生产转向委托、审查、负责
成熟AI 在低风险闭环里端到端提出行动人负责方向决策、质量判断、异常处理和最终授权
路线图

成熟度路径

快速落地不等于短期思维。每一步都要为下一步铺路,但不对外承诺内部排期。

1

地基

知识仓库、决策记录、规格模板、CI/CD、测试和基础状态摘要。

2

低风险 AI 执行

让 AI 参与文档、测试、代码草案、迁移、状态报告等可审查工作。

3

反馈到行动

把用户反馈、错误监控、产品指标连接到 issue、负责人和复盘。

4

规则内授权

在低风险、可验证、可回滚的场景中逐步开放更高自治度。

长期壁垒不是某个单点工具,而是持续积累的知识全景、共享能力、反馈闭环和团队使用 AI 的组织能力。

怎么知道有效

维度指标
产品功能假设是否被验证 / 成功指标是否回流到下一轮决策
效率从问题提出到可审查变更的时间 / 代码审查时间 / 回滚和修复时间
AI 化可审查 AI 产出比例 / AI 产出被接受比例 / AI 错误模式是否被沉淀

阶段推进判断

地基 → 低风险执行
知识可读 +
检查可跑
低风险执行 → 反馈闭环
审查成本可控 +
反馈有结构
反馈闭环 → 规则授权
风险可解释 +
操作可回滚

长期主义原则

A

越做越快

每一轮都沉淀模板、测试、能力和检查清单,下一轮的上下文加载成本更低。

B

数据越用越值钱

每个产品的用户数据进入客户知识全景,知识全景越完善,下一轮决策越准。

C

产品之间能互通

通过标准接口,产品和 agent 可以互相调用能力。能力越多,组合空间越大。

D

组织学习

团队的 AI 熟练度是最不可复制的资产

来源

来源与证据边界

这里列的是公开可访问来源。每个来源只支持它能支持的范围,案例不能直接外推成普遍规律。

编号来源可支持边界
S1 DORA 2025 State of AI-assisted Software Development AI 的主要作用是放大组织系统;最大回报来自底层组织能力,而不只是工具采购。 不直接证明某个具体团队能提速几倍。
S2 METR early-2025 RCT + 2026 update AI 提速高度依赖任务、代码库熟悉度、质量要求和测量方法;早期 19% slowdown 适合提醒不要过度外推。 METR 在 2026 年说明早期结果已过时,不能写成“AI 当前普遍让开发变慢”。
S3 OpenAI: Building an AI-Native Engineering Team Delegate, Review, Own;工程师把第一轮交给 AI,但保留审查、测试、合并和最终所有权。 是 OpenAI 的官方方法论,不是独立效果评估。
S4 OpenAI: Sora Android with Codex 小团队在清晰上下文、强工程约束和已有参考实现下,可以用 Codex 扩大执行能力。 这是 OpenAI 自身案例;页面也说明 Sora 产品在 2026-04-26 后不可用,不能作为产品长期成功证明。案例
S5 Spotify Engineering: Honk 迁移、依赖更新、规范化改造等结构化任务中,背景 coding agent 可以节省大量人工时间。 60-90% 节省只应写在迁移类任务上,不能扩展到所有产品创新。案例
S6 Palantir Ontology Overview 语义操作层可以把数字资产连接到现实业务对象,让人和 AI 围绕同一组对象工作。 支持“语义层/世界模型”的架构类比,不证明必须照搬 Palantir 平台。
S7 Stack Overflow Developer Survey 2025 AI 工具使用广泛,同时很多开发者对“差不多对但不完全对”的结果感到挫败。 是开发者调查,不是客观生产率测量。
S8 Shape Up: Set Boundaries 固定时间、可变范围;appetite 是约束,不是估算。 支持项目边界方法,不是 AI-specific 研究。
S9 Block: From Hierarchy to Intelligence world model、intelligence layer、capabilities、interfaces,以及 IC/DRI/player-coach 的组织设想。 是公司战略观点,不是第三方验证。观点
S10 GitLab Handbook: DRI DRI 对项目、事项或活动承担最终责任,同时应咨询和协作。 支持责任模型,不直接说明 AI 团队如何设计。
核心信念

让系统学会思考,
让人回到现场。

过去,智能分散在人脑中,靠层级搬运。现在,把智能建进系统 -- 信息自动流转,上下文随时可查,决策不再等人传话。人不用再当中转站,可以回到离用户最近、离问题最近的地方。

2026 年 4 月 2 日 · AI 原生团队