Agile Hands-on

面向某企采购系统 Hands-on 敏捷教练视角

下面给出一套实操性强、可直接落地的评估框架、调研方法、CI/CD 审计清单、成熟度量表、优先级建议与报告模板。

1）目标与输出（要明确的事）

目标：理解当前团队的敏捷落地真实情况与 CI/CD 实际运行状态，找出制约交付的高影响痛点，并提出可执行的改进清单与验收指标。
输出物（交付给管理层/产品/开发）：
1. 评估报告（Executive Summary、现状、证据、影响、建议、优先级、行动清单、KPI）
2. 改进 backlog（优先级+负责人+验收标准）
3. 一页仪表盘建议（关键指标）
4. 若干可立即执行的 “Quick Wins” 操作项（手把手）

2）总体方法论（“怎么调研”）

数据驱动 + 人员访谈 + 现场观察（shadowing）混合方式：
- 先抓取可自动化的数据（Jira/Issue、Git 提交、CI/CD pipeline 历史、生产部署日志、监控告警、事故/回滚记录），建立量化基线。
- 并行做半结构化访谈（PO、SM、Dev、QA、平台工程、运维、业务代表）。
- 观察：参加一次完整的 Sprint Planning / Daily / Review / Retro（不只是听报告，要观察参与度、讨论深度、是否在解决阻塞）。
- Pipeline 回放：触发一次测试流水线（或跑历史流水线）看实际耗时、故障点、日志。
价值流映射（Value Stream Mapping）：画从需求到生产的全链路，标出等待时间、重工、手工步骤、责权边界。
快速实验（若允许）：在一支团队内部试点一两项改进（比如把某一流程自动化）并记录影响。
输出基于证据：每条发现后面都挂“证据项”（Jira ticket、pipeline id、会议记录、录音/截图、Grafana 图等）。

3）要访谈的角色与核心问题（可直接复制粘贴使用）

A. 产品负责人 / 业务代表（PO）

当前采购系统最重要的业务目标是什么？有哪些量化目标（业务指标）？
现在的需求来源与优先级机制是什么？如何衡量“上线即完成”？
你对交付节奏（功能交付、缺陷修复）的满意度如何？主要痛点？
对质量、合规（例如采购合规）与安全的要求有哪些硬性指标？
期望我们本次评估后交付什么（短期/长期）？

B. Scrum Master / 团队负责人

Scrum 仪式（计划/日会/评审/回顾）实际执行情况？谁参加？时长？主要输出？
团队是否有 DoD、DoR？如何保证 story ready？
团队的阻塞如何上报、跟踪、解决？例子？
团队的跨职能程度如何？是否存在「开发 → 测试 → 运维」的重度交接？
过去 3 个 Sprint 的计划完成率/偏差情况（证据：Jira 报表）。

C. 开发工程师 / 架构师

分支策略（feature branch / trunk / release）是什么？PR 流程如何？
Code review 的实践如何？平均 review 延迟？是否强制 CI 通过才能 merge？
单元/集成/端到端测试覆盖情况（大致 % 或样本模块）？是否有易碎测试？
是否使用 Feature Flags、按需开关？能否灰度发布/回滚？
产线上出现问题的典型根因案例（示例 ticket + 回滚记录）。

D. 测试 / QA / 验收

自动化测试覆盖的范围（模块/流程）与执行方式（在 pipeline 中自动跑吗？）
回归测试需要多长？是否阻碍发布？是否存在环境数据准备的人工步骤？
缺陷流转（发现 → 修复 → 验证）周期与统计（escape defects、severity 分布）。

E. 平台 / DevOps 工程师

CI/CD 工具链（Jenkins/GitLab CI/GitHub Actions/Azure Pipelines/ArgoCD 等）实际使用情况。
环境管理（dev/test/staging/prod）如何自动化部署？是否用 IaC（Terraform/Bicep）？
镜像仓库、artifact 管理、镜像扫描工具列举。
部署时的手工步骤与回滚流程。是否做变更审批？

F. 安全 / 合规 / 运营

是否有静态代码扫描 (SAST)、依赖漏洞扫描 (SCA)、容器/镜像扫描 (SCA)？覆盖到位否？
上线流程中是否有合规审查或法务/采购审批步聚？

4）必须抓取的量化指标（对评估非常关键）

说明：尽量从系统/工具里直接导出，避免只靠主观感受。

部署频率（Deployment Frequency）：一段时间内（如一个月）生产部署次数。
变更交付前置时间（Lead time for changes）：从 commit 到该变更在生产可用之间的时间（可用平均/中位数）。
变更失败率（Change Failure Rate）：导致回滚或需要修复的生产变更数 / 总生产变更数。
恢复时间 (MTTR)：出现问题到恢复的平均时间。
PR 平均合并时长：从 PR 发起到合并的平均小时/天数。
Pipeline 成功率 & 平均耗时：成功构建比例 & 平均构建时长（按分支/按类型）。
自动化测试比率：自动化测试用例数 / 总测试用例数，或关键路径自动化覆盖率。
代码覆盖率（仅参考）：整体/核心模块的单元测试覆盖率。
故事的平均 Cycle Time：从开发开始到完成的平均天数。
Sprint 预测准确度：计划 story point vs 完成 point 比例。

（把以上指标做成一个 dashboard，并把每条指标的采样时间窗口与计算公式写清楚。）

5）CI/CD 审计检查表（逐项打勾）

版本控制
- 所有服务使用受控仓库（列出 repo）
- 有明确分支策略与保护（强制审核/CI 通过）
构建与测试
- Pipeline 自动触发（Push/PR）且可复现历史构建
- 构建时有缓存/并行优化，避免不必要重复耗时
- 单元/集成测试在 Pipeline 中自动执行并且阻断合并（可选门控）
- 有 flakiness 监测与处理策略
部署
- 使用可重复的环境（IaC）来创建环境
- 有自动化部署到 staging 的链路（并能回退）
- 生产部署是否自动化？是否支持灰度/分阶段发布/Feature flag？
- 灾难回滚/回退流程明确且可执行（runbook）
授权与安全
- Artifact 有版本化且不可变（immutable）
- 秘密管理使用 Key Vault / Secrets Manager（非明文）
- 有镜像扫描、依赖漏洞扫描、SAST 集成到 pipeline
监控与告警
- 部署后有自动化健康检查（smoke tests）
- 有自动化回滚或快速人工回滚触发点
- 部署与应用的指标/日志（Prometheus/Grafana/ELK）可追溯到单次部署
流程与治理
- 有变更审批/审批豁免规则（并记录）
- Release notes/变更记录自动生成或易于检索
- 对依赖服务（第三方）有版本/契约管理（契约测试）

6）敏捷实践成熟度量表（示例，0–4 分级）

每项给 0–4 分（0 无实践，4 很成熟、度量/自动化/文化已吸收）

Backlog 管理（清晰度、优先级、粒度）
需求准备（DoR 有无、故事拆分）
计划与估算（团队参与、稳定性）
仪式质量（日会/评审/回顾是否解决实质问题）
质量保障（自动化测试、持续集成）
交付能力（持续交付/可回滚）
团队协作（跨职能、共享责任）
持续改进（回顾的改进行动是否执行）

示例评分输出（写在报告里）：

Backlog 管理：3/4  （证据：Jira board 有优先级分类，但很多 ticket 未满足 DoR）
CI/CD 自动化：2/4 （证据：主分支有 pipeline，但仍有人工部署与回滚）

7）报告结构（模板）——直接可填充的章节

封面：项目、受评对象、评估人、评估范围（哪些服务/团队/时间窗口）
执行摘要（Executive Summary）：三段式：现状结论、最重要的 3 个问题、关键建议（可复制给高层）
评估方法与数据来源：说明怎样收集数据、访谈对象、时间窗口、样本 repo/pipe id。
详细发现（按主题分：流程/组织/代码/CI/CD/质量/安全）：每条发现后附证据。
影响评估：对业务/交付/质量/成本的具体影响（如：延迟 X，缺陷率上升 Y）。
建议与优先级：分 Quick wins / 中期 / 长期，每项写清负责组/验收标准/依赖。
行动计划（改进 backlog）：优先级、负责人、验收条件、风险/前提、需要的支持（人/工具/预算）。
衡量成功的 KPI：建议看板中的 6–8 个关键指标与目标（baseline + 目标值）。
附录：访谈记录、Jira/Git/Gitlab/CI 报表截图、pipeline logs、例子 ticket 列表。

8）Sample Executive Summary（可直接替换到报告里）

执行摘要（示例）：本次评估覆盖采购系统的核心开发团队与底层平台流水线。总体结论：团队在敏捷仪式与需求管理上已有基础（存在 DoD/回顾惯例），但故事准备与跨职能协作不稳定；CI/CD 有自动化构建但部署仍含人工步骤且缺乏灰度/回滚策略，导致回滚频次与生产故障恢复时间偏高。推荐首先落地三项 Quick-Win：1) 强制 PR + CI 阻断合并；2) 为关键路径增加自动化 smoke test；3) 在主分支启用分段灰度/Feature Flag。中期目标为实现 IaC 覆盖环境创建与引入契约测试；长期目标是把“从 commit 到生产”时间显著缩短并把故障恢复时间降至可控范围。详细行动项见第 6 节改进清单。

9）优先级建议（Quick wins / 中期 / 长期）与示例验收条件

Quick wins（立刻可做、低成本高回报）

强制 PR 模式 + CI 必须通过才能合并。
- 验收：所有主分支合并都有 PR，且合并前 pipeline 成功。
在 PR/merge 请求页面显示 pipeline 状态（降低等待/沟通成本）。
- 验收：90% PR 可在界面看到绿/红状态。
为关键业务路径加入 smoke tests（pipeline stage），部署失败自动阻断或回滚。
- 验收：部署后 5 分钟内 smoke tests 通过，否则自动回滚或发起人工确认。
修复最耽误时间的 flaky tests（先识别 top-10 flaky）。
- 验收：过去 30 天中 flaky tests 次数下降 80%。

中期举措（需要一定改造）

引入 Feature Flags + 灰度发布能力（以及监控关联指标）。
IaC（Terraform/Bicep）全面管理环境，环境创建自动化。
将部分部署改为 GitOps（ArgoCD/Flux）以实现声明式部署与可复审性。

长期战略（组织/文化/平台）

建立 SRE/平台团队负责 shared pipeline、可观测性平台、事故演练。
引进端到端契约测试、服务网格（若需要）、安全扫描自动化（SAST/DAST/SCA）。

10）如何在现场以 hands-on 方式推进（教练式操作清单）

第一周：导入—召开一场 2 小时的「价值流研讨」，画出从需求到生产的流并标出最大痛点（共同完成）。
观察式参与：至少旁听两次仪式并做行为观察笔记（谁发言、谁决策、被动/主动）。
代码与 pipeline 复盘：与工程师一起触发一次完整流水线，逐步 debug 找出瓶颈。
一起做改进：挑选一个 Quick Win（例如 PR 强制 CI），与平台工程师同屏修改 pipeline 配置并验证效果。
回顾 & 教练：在团队回顾会上分享发现并帮助团队自行写出改进行动（不是代写）。

（上述为“手把手”运作方式——教练不仅给建议，还要与工程师同做一次验证配置或 patch，这样更能推动落地。）

11）常见陷阱（现场要注意避免）

只看会议而不看数据（主观感受与实际交付能力常常不同）。
把 CI/CD 问题只归结为工具，而忽视“文化/责任边界/激励”问题。
一口气改造太多，导致团队丧失交付节奏。采用试点方式优先验证。

12）交付给管理层的一页仪表盘建议（关键指标）

部署频率 / 变更交付前置时间 / 变更失败率 / MTTR / PR 平均合并时长 / Pipeline 成功率 / Sprint 预测准确度。（报告里给出当前 baseline 与期望方向，建议把图表放在首页用 traffic-light 标色显示健康度。）

13）示例优先改进清单（可直接复制）

优先级	改进项	负责人	验收标准
高	强制 CI 通过才能合并（主分支）	Platform Eng	PR 都有 CI 状态且未通过不能合并
高	在主流程加 smoke test（阻断或自动回滚）	QA + Platform	部署后 5 分钟内 smoke pass，否则回滚
中	引入 Feature Flags 支持灰度	Dev + PO	一个服务支持按用户群灰度切换
中	把环境创建 IaC 化	Infra	一键创建 dev/stage 环境（可复现）
低	引入契约测试（Consumer-Driven）	Arch	关键服务间有契约测试并在 pipeline 中执行

14）汇报与沟通的技巧（在车企这种业务方重视合规/稳定的情境）

高层材料：聚焦“对业务影响”（节省多少时间、降低多少缺陷风险、支持多少并发采购处理）。
交付给技术管理层：给出证据（pipeline id、Jira ticket），把建议变成“下一步的可交付物与负责人”。
对业务方：把技术改进翻译为业务价值（更短的上线周期、更少的线上故障、更快的合规审核）。

15）结语 — 你现在可以立刻做的事（三步）

导出关键数据（近 3 个月的部署记录、PR 合并记录、pipeline 成功率、近 6 个 Sprint 的 Jira 报表）。
做一次 2 小时的价值流工作坊，把最大的三个等待点定为“改进候选”。
立刻推行 1 个 Quick Win（如强制 CI 阻断合并）并测量效果，作为推进文化变更的 proof-point。

上篇Agile Demo