名称: 伦理安全影响评估描述: 当决策可能对不同群体产生不同影响，需要预见危害/利益、评估公平性和安全问题、识别弱势群体、提出风险缓解措施、定义监控指标时使用，或当用户提及伦理审查、影响评估、差异危害、安全分析、弱势群体、偏见审计或负责任AI/技术时。

伦理、安全与影响评估

目的

伦理、安全与影响评估提供了一个结构化框架，用于在发布产品、实施政策或做出影响人的决策之前，识别潜在危害、利益和不同影响。本技能指导您通过利益相关者识别、危害/利益分析、公平评估、风险缓解设计和持续监控，确保负责任和公平的结果。

何时使用

在以下情况下使用本技能：

产品发布: 影响用户体验或结果的新功能、算法更改、UI重新设计
政策决策: 服务条款更新、内容审核规则、数据使用政策、价格变更
数据与AI系统: 训练模型、部署算法、使用敏感数据、自动化决策
平台更改: 推荐系统、搜索排名、信息流算法、匹配/路由逻辑
访问与包容: 影响可访问性、弱势群体、代表性不足群体、全球市场的功能
安全关键系统: 健康、金融、交通、安全应用，错误可能导致严重后果
高风险决策: 招聘、贷款、招生、刑事司法、保险，结果显著影响生活
内容与沟通: 审核政策、事实核查系统、内容排名、放大规则

触发短语: “伦理审查”, “影响评估”, “谁可能受到危害”, “差异影响”, “弱势群体”, “偏见审计”, “公平性检查”, “安全分析”, “负责任AI”, “意外后果”

定义

伦理、安全与影响评估是一个主动评估框架，系统性地检查：

谁受到影响（利益相关者映射、弱势群体）
什么可能出错（危害场景、故障模式）
为什么重要（严重性、可能性、影响分布）
如何缓解（设计更改、保障措施、监控）
何时升级（触发因素、阈值、审查流程）

核心伦理原则:

公平性: 平等对待、非歧视、跨群体公平结果
自主权: 用户选择、知情同意、对数据和体验的控制
行善: 最大化利益、设计积极影响
非恶行: 最小化危害、"无害"作为基准
透明度: 解释决策、披露限制、建立信任
问责制: 明确所有权、补救机制、审计追踪
隐私: 数据保护、保密性、目的限制
公正性: 利益和负担的公平分配、解决历史不平等

快速示例:

场景: 推出用于贷款审批的信用评分算法

伦理影响评估:

受影响利益相关者: 贷款申请人（多样化人口统计）、贷款人、社会（经济流动性）
潜在危害:
- 差异影响: 基于历史数据训练的算法可能延续对受保护群体（种族、性别、年龄）的偏见
- 不透明性: 申请人被拒绝贷款无解释，无法质疑决策
- 反馈循环: 拒绝弱势群体贷款 → 缺乏信用历史 → 持续拒绝
- 经济危害: 错误拒绝阻碍财富积累，延续贫困
弱势群体: 历史上在贷款中受歧视的少数种族、信用记录薄的移民、年轻人、贫困人口
缓解措施:
- 公平性审计: 测试跨受保护类的差异影响、均衡几率
- 可解释性: 提供原因代码（前3个因素）、允许上诉
- 替代数据: 包括租金、公用事业支付以扩大访问
- 人工审查: 标记边缘案例进行人工审查、覆盖能力
- 定期监控: 按人口统计跟踪批准率、季度偏见审计
监控与升级:
- 指标: 批准率平等性（跨群体在10%以内）、假阳性/假阴性率、上诉推翻率
- 触发因素: 如果差异影响 >20%，升级到伦理委员会
- 审查: 季度公平性审计、年度独立评估

工作流程

复制此清单并跟踪进度：

伦理与安全评估进度：
- [ ] 步骤1：映射利益相关者和识别弱势群体
- [ ] 步骤2：分析潜在危害和利益
- [ ] 步骤3：评估公平性和差异影响
- [ ] 步骤4：评估严重性和可能性
- [ ] 步骤5：设计缓解措施和保障措施
- [ ] 步骤6：定义监控和升级协议

步骤1：映射利益相关者和识别弱势群体

识别所有受影响方（直接用户、间接、社会）。优先考虑风险最高的弱势群体。

步骤2：分析潜在危害和利益

头脑风暴每个利益相关者群体可能出现的问题（危害）和创造的价值（利益）。

步骤3：评估公平性和差异影响

评估结果、待遇或访问是否在不同群体间有差异。检查差异影响。

步骤4：评估严重性和可能性

对每个危害评分严重性（1-5）和可能性（1-5），优先处理高风险组合。

步骤5：设计缓解措施和保障措施

对高优先级危害，提出设计更改、政策保障、监督机制。

步骤6：定义监控和升级协议

设置指标、阈值、审查节奏、升级触发因素。

常见模式

模式1：算法公平性审计

利益相关者: 接收算法决策的用户（招聘、贷款、内容排名）、受保护群体
危害: 差异影响（对受保护类的偏见）、反馈循环放大不平等、不透明性阻碍问责
评估: 测试人口统计平等性、均衡几率、跨群体校准；分析训练数据的历史偏见
缓解措施: 去偏见技术、公平约束、可解释性、边缘案例人工审查、定期审计
监控: 差异影响比率、假阳性/假阴性率按群体、用户上诉和推翻率

模式2：数据隐私与同意

利益相关者: 数据主体（数据被收集的用户）、弱势群体（儿童、边缘化社区）
危害: 隐私侵犯、监视、数据泄露、缺乏知情同意、未经许可的二次使用、再识别风险
评估: 映射数据流（收集 → 存储 → 使用 → 共享）、识别敏感属性（个人身份信息、健康、位置）、同意充分性
缓解措施: 数据最小化（仅收集必要数据）、匿名化/差分隐私、精细同意、用户数据控制（导出、删除）、加密
监控: 泄露事件、数据访问日志、同意撤回率、用户数据请求（GDPR、CCPA）

模式3：内容审核与自由表达

利益相关者: 内容创作者、观众、弱势群体（骚扰目标）、社会（信息完整性）
危害: 过度审核（压制合法言论，尤其是边缘化声音）、审核不足（允许危害、骚扰、错误信息）、执行不一致
评估: 分析审核错误率（假阳性/假阴性）、跨群体差异执行、文化背景敏感性
缓解措施: 明确政策附示例、上诉流程、人工审查、多样化审核员、文化背景培训、透明度报告
监控: 审核量和错误率按类别、上诉推翻率、跨语言/区域差异执行

模式4：可访问性与包容性设计

利益相关者: 残疾用户（视觉、听觉、运动、认知）、老年人、低识字率、低带宽用户
危害: 排斥（无法使用产品）、体验退化、安全风险（无法访问关键功能）、数字鸿沟
评估: WCAG合规性审计、辅助技术测试、不同能力用户研究、跨文化可用性
缓解措施: 可访问设计（WCAG AA/AAA）、替代文本、键盘导航、屏幕阅读器支持、低带宽模式、多语言、简明语言
监控: 可访问性测试覆盖率、残疾社区用户反馈、跨能力任务完成率

模式5：安全关键系统

利益相关者: 最终用户（患者、驾驶员、操作员）、弱势群体（儿童、老年人、健康受损）、公共安全
危害: 物理危害（伤害、死亡）、心理危害（创伤）、财产损失、影响多人的级联故障
评估: 故障模式分析（FMEA）、故障树分析、最坏情况场景、打破假设的边缘案例
缓解措施: 冗余、故障安全、人工监督、严格测试（压力、混沌、对抗性）、事件响应计划、分阶段推出
监控: 错误率、近失事件、安全指标（事故、不良事件）、用户报告问题、合规性审计

防护栏

关键要求:

明确识别弱势群体: 并非所有利益相关者风险相等。优先考虑：儿童、老年人、残疾人、边缘化/受歧视群体、低收入、低识字率、地理隔离、政治目标。如果未识别，很可能遗漏。
考虑二阶和长期效应: 一阶明显危害只是开始。寻找：反馈循环（危害 → 劣势 → 更多危害）、常态化（实践成为标准）、先例（启用更糟未来行为）、积累（小危害随时间累积）。问"接下来会发生什么？"
评估差异影响，而不仅仅是平均: 功能可能帮助普通用户但危害特定群体。指标：差异影响（跨群体结果差异 >20% = 红色标志）、交叉性（身份组合可能面临独特危害）、分配公正（谁获得利益 vs. 负担？）。
在设计缓解措施，而非危害后: 反应性修复对已受危害者太晚。主动性：将保障措施融入设计、与多样化用户测试、分阶段推出带监控、终止开关、预先承诺审计。"快速行动打破常规"对影响人生命的系统不道德。
提供透明度和追索权: 受影响者有知情和质疑权利。最低要求：解释决策（哪些因素、为何结果）、上诉机制（人工审查、如错误则推翻）、补救（补偿危害）、审计追踪（调查投诉）。不透明性往往是隐藏偏见或风险的标志。
监控结果，而不仅仅是意图: 良好意图不能防止危害。测量实际影响：跨群体结果差异、用户报告危害、错误率及其分布、意外后果。设置触发审查/停机的阈值。
建立明确问责和升级: 指定所有权。定义：谁在发布前审查伦理风险？谁发布后监控？什么触发升级？谁能停止有害功能？记录决策和理由供后期审查。
尊重自主权和同意: 用户应得：知情选择（以简明语言理解同意内容）、有意义替代方案（同意非强迫）、控制（退出、删除数据、配置设置）、目的限制（数据仅用于声明目的）。儿童和弱势群体需要额外保护。

常见陷阱:

❌ 假设"我们对每个人一视同仁" = 公平性: 不平等群体的平等对待会延续不平等。公平性通常需要差异对待。
❌ 无约束优化: 无约束最大化参与度/收入会导致放大愤怒、成瘾、极化。设置伦理边界。
❌ 快速行动后道歉: 对于安全/伦理，预防 > 道歉。对弱势群体的危害不是可接受的实验。
❌ 隐私剧场: 要求同意而不解释风险，或使同意成为服务强制，不是有意义的同意。
❌ 测试中的抽样偏见: 仅对员工测试（年轻、受教育、英语使用者）会错失多样化用户的危害体验。
❌ 伦理洗白: 表演性声明而无实质变化。影响评估必须改变决策，而不仅仅是记录。

快速参考

关键资源:

模板: 利益相关者映射、危害/利益分析、风险矩阵、缓解计划、监控框架
方法论: 公平性指标、隐私分析、安全评估、偏见检测、参与式设计
评估者: 质量标准用于利益相关者分析、危害识别、缓解设计、监控

利益相关者优先级:

始终考虑的高风险群体：

儿童（<18，尤其是<13）
残疾人（视觉、听觉、运动、认知）
种族/族裔少数，尤其是历史上受歧视群体
低收入、无家可归、财务不稳定
LGBTQ+，尤其是在敌对管辖区
老年人（>65），尤其是数字技能较差者
非英语使用者、低识字率
政治异见者、活动家、记者在压制性环境中
难民、移民、无证者
精神疾病、认知障碍者

危害类别:

物理: 伤害、死亡、健康恶化
心理: 创伤、压力、焦虑、抑郁、成瘾
经济: 收入损失、债务、贫困、机会排斥
社会: 歧视、骚扰、排斥、关系损失
自主权: 强制、操纵、控制丧失、尊严侵犯
隐私: 监视、暴露、数据泄露、再识别
声誉: 污名、诽谤、地位丧失
认识论: 错误信息、知识访问丧失、过滤气泡
政治: 剥夺权利、审查、针对性压制

公平性定义（根据上下文选择）：

人口统计平等性: 跨群体结果率相等（例如，所有群体40%批准率）
均衡几率: 假阳性和假阴性率跨群体相等
平等机会: 真阳性率跨群体相等（平等访问利益）
校准: 预测概率匹配所有群体的观察频率
个体公平性: 相似个体被相似对待（利普希茨条件）
反事实公平性: 如果敏感属性（种族、性别）不同，结果相同

缓解策略:

预防: 设计更改消除危害（例如，不收集敏感数据）
减少: 降低可能性或严重性（例如，速率限制、风险行动摩擦）
检测: 监控并在危害发生时警报（例如，偏见仪表板、异常检测）
响应: 处理发现危害的流程（例如，上诉、人工审查、补偿）
保障: 冗余、故障安全、关键故障断路器
透明度: 解释、教育、建立理解和信任
赋权: 给予用户控制、选择、退出或定制能力

监控指标:

结果差异: 按受保护类测量（批准率、错误率、处理质量）
错误分布: 假阳性/假阴性，谁承担负担？
用户投诉: 量、类别、解决率、差异
参与度/保留率: 跨群体差异（有些被排斥？）
安全事件: 量、严重性、受影响人群
同意/退出: 多少人拒绝？拒绝者人口统计？

升级触发因素:

差异影响 >20% 无正当理由
安全事件导致严重危害（伤害、死亡）
弱势群体受影响不成比例（>2× 危害率）
用户投诉激增（>2× 基线）
媒体/监管机构关注
内部伦理关切提出

何时升级超出此技能:

法律合规要求（GDPR、ADA、民权法案、行业法规）
生死攸关安全关键系统（医疗、交通）
儿童或弱势群体为主要用户
高度争议或政治显著性
新颖伦理领域（新技术、无先例） → 咨询：法律顾问、伦理委员会、领域专家、受影响社区、监管机构

所需输入:

功能或决策（提议什么？更改什么？）
受影响群体（谁被影响？直接和间接？）
上下文（解决什么问题？为什么现在？）

产生输出:

ethics-safety-impact.md: 利益相关者分析、危害/利益评估、公平性评估、风险优先级排序、缓解计划、监控框架、升级协议

伦理安全影响评估Skill ethics-safety-impact

伦理、安全与影响评估

目录

目的

何时使用

定义

工作流程

常见模式

防护栏

快速参考