name: ai-ethics description: 负责任的人工智能开发与伦理考量。适用于评估AI偏见、实施公平性措施、进行伦理评估或确保AI系统与人类价值观保持一致时使用。 author: Joseph OBrien status: unpublished updated: ‘2025-12-23’ version: 1.0.1 tag: skill type: skill
AI伦理
全面的AI伦理技能,涵盖偏见检测、公平性评估、负责任AI开发以及法规合规。
何时使用此技能
- 评估AI模型是否存在偏见
- 实施公平性措施
- 进行伦理影响评估
- 确保法规合规(如欧盟AI法案等)
- 设计人机协同系统
- 创建AI透明度文档
- 开发AI治理框架
伦理原则
核心AI伦理原则
| 原则 | 描述 |
|---|---|
| 公平性 | AI不应歧视个人或群体 |
| 透明度 | AI决策应可解释 |
| 隐私保护 | 个人数据必须受到保护 |
| 问责制 | 对AI结果有明确责任 |
| 安全性 | AI不应造成伤害 |
| 人类自主权 | 人类应保持控制权 |
利益相关者考量
- 用户:系统如何影响使用者?
- 对象:AI决策如何影响被决策者?
- 社会:更广泛的社会影响是什么?
- 环境:环境影响是什么?
偏见检测与缓解
AI偏见类型
| 偏见类型 | 来源 | 示例 |
|---|---|---|
| 历史性偏见 | 训练数据反映过去的歧视 | 招聘模型偏向男性候选人 |
| 代表性偏见 | 训练数据中群体代表性不足 | 人脸识别在深色皮肤上失效 |
| 测量偏见 | 受保护属性的代理变量 | 邮政编码与种族相关 |
| 聚合偏见 | 针对多样化人群使用单一模型 | 仅基于单一族裔训练的医疗模型 |
| 评估偏见 | 有偏见的评估指标 | 准确率掩盖了差异性影响 |
公平性指标
群体公平性:
- 人口统计均等:不同群体间获得积极结果的比率相等
- 机会均等:不同群体间真正例率和假正例率相等
- 预测均等:不同群体间精确率相等
个体公平性:
- 相似的个体应获得相似的预测结果
- 反事实公平性:如果受保护属性不同,结果会改变吗?
偏见缓解策略
预处理:
- 对训练数据进行重采样/重加权
- 移除有偏见的特征
- 为代表性不足的群体进行数据增强
处理中:
- 在损失函数中加入公平性约束
- 对抗性去偏见
- 公平表示学习
后处理:
- 按群体调整阈值
- 校准
- 拒绝选项分类
可解释性与透明度
解释类型
| 类型 | 受众 | 目的 |
|---|---|---|
| 全局解释 | 开发者 | 理解模型的整体行为 |
| 局部解释 | 终端用户 | 解释特定决策 |
| 反事实解释 | 受影响方 | 需要改变什么才能获得不同结果 |
可解释性技术
- SHAP:特征重要性值
- LIME:局部可解释性解释
- 注意力图:用于神经网络
- 决策树:本质上可解释
- 特征重要性:全局模型理解
模型卡片
为每个模型记录:
- 模型目的和预期用途
- 训练数据描述
- 按子组划分的性能指标
- 局限性和伦理考量
- 版本和更新历史
AI治理
AI风险评估
风险类别(欧盟AI法案):
| 风险等级 | 示例 | 要求 |
|---|---|---|
| 不可接受 | 社会评分、操纵 | 禁止 |
| 高风险 | 医疗保健、就业、信贷 | 严格要求 |
| 有限风险 | 聊天机器人 | 透明度义务 |
| 最小风险 | 垃圾邮件过滤器 | 无要求 |
治理框架
- 政策:定义伦理原则和边界
- 流程:审查和批准工作流
- 人员:角色和职责(伦理委员会)
- 技术:用于监控和执行的工具
文档要求
- 数据来源和谱系
- 模型训练文档
- 测试和验证结果
- 部署和监控计划
- 事件响应程序
人类监督
人机协同模式
| 模式 | 使用场景 | 示例 |
|---|---|---|
| 人在环路 | 高风险决策 | 医疗诊断确认 |
| 人在环上 | 监控与干预 | 内容审核升级 |
| 人在环外 | 低风险、高容量 | 垃圾邮件过滤 |
为人类控制而设计
- 清晰的升级路径
- 覆盖能力
- 自动化的置信度阈值
- 审计追踪
- 反馈机制
隐私考量
数据最小化
- 仅收集必要数据
- 尽可能匿名化
- 使用聚合数据而非个体数据
- 不再需要时删除数据
隐私保护技术
- 差分隐私
- 联邦学习
- 安全多方计算
- 同态加密
环境影响
考量因素
- 训练计算需求
- 推理能耗
- 硬件生命周期
- 数据中心能源来源
缓解措施
- 高效架构
- 模型蒸馏
- 迁移学习
- 绿色托管提供商
参考文件
references/bias_assessment.md- 详细的偏见评估方法references/regulatory_compliance.md- AI法规要求
与其他技能的集成
- machine-learning - 用于模型开发
- testing - 用于偏见测试
- documentation - 用于模型卡片