AI 出错的代价,不再是一次 bad response 这么简单 —— 它可能一次性写 300 份工单、提 80 个 PR、发 5000 封邮件。
「做错」成本 × N;「做对」收益 × N。
这就是为什么 测试、验收、安全、风控 会变成未来 3 年最贵的能力。
不是所有 AI 行为都同等危险。
先把「可撤销」和「不可撤销」分开,再谈流程。
写 draft、生成图片、起草文档。
错了 Ctrl+Z,零代价。
策略:放开跑
发 draft 邮件、提 PR、改 staging 数据。
错了要道歉 / 回滚。
策略:人工复核
发真实邮件、付款、删库、删 prod 数据。
错了就真错了。
策略:硬卡 + 双人审
L1 的任务不能自己变成 L2。授权必须是显式的、可撤销的、带过期时间的。
# safety-policy.yaml · compiled → runtime guard level_1_allow: - tools: [write_draft, generate_image, read_docs] level_2_require_review: - tools: [send_email_draft, open_pr, write_staging_db] reviewer: human level_3_hard_block: - tools: [send_real_email, transfer_money, delete_prod] unless: two_human_sign_off AND within_24h forbidden_always: - "rm -rf /" - "drop table" - "force push origin main"
幸好全部捕获在 staging。但每一起都能上生产。
把所有工具列出来,标上等级。不标的一律按 L3。
不要信 prompt 里的 "be careful",要信执行层的硬卡。
CTO / on-call 都得知道怎么按。演练一次。
prompt 会被注入,流程不会。—— 把保护放在不可被说服的一层。
policy.yaml 模板、红队 prompt 清单、事故复盘模板 —— 评论区扣「安全」。