名称: 人工智能伦理 描述: 负责任的人工智能开发与伦理考量。适用于评估AI偏见、实施公平性措施、进行伦理评估或确保AI系统与人类价值观保持一致。 作者: Joseph OBrien 状态: 未发布 更新日期: ‘2025-12-23’ 版本: 1.0.1 标签: 技能 类型: 技能
人工智能伦理
全面的人工智能伦理技能,涵盖偏见检测、公平性评估、负责任的人工智能开发以及法规遵从。
何时使用此技能
- 评估AI模型的偏见
- 实施公平性措施
- 进行伦理影响评估
- 确保法规遵从(欧盟AI法案等)
- 设计人在回路系统
- 创建AI透明度文档
- 开发AI治理框架
伦理原则
核心AI伦理原则
| 原则 | 描述 |
|---|---|
| 公平性 | AI不应歧视个人或群体 |
| 透明度 | AI决策应可解释 |
| 隐私 | 个人数据必须受到保护 |
| 问责制 | AI结果责任清晰 |
| 安全性 | AI不应造成伤害 |
| 人类能动性 | 人类应保持控制 |
利益相关者考量
- 用户:这如何影响使用系统的人?
- 主体:这如何影响AI做出决策的对象?
- 社会:更广泛的社会影响是什么?
- 环境:环境影响是什么?
偏见检测与缓解
AI偏见类型
| 偏见类型 | 来源 | 示例 |
|---|---|---|
| 历史性偏见 | 训练数据反映过去的歧视 | 招聘模型偏向男性候选人 |
| 代表性偏见 | 训练数据中群体代表性不足 | 人脸识别在深色皮肤上失败 |
| 测量偏见 | 受保护属性的代理变量 | 邮政编码与种族相关 |
| 聚合偏见 | 针对多样化人群的单一模型 | 仅针对一种族裔训练的医疗模型 |
| 评估偏见 | 有偏见的评估指标 | 准确率掩盖了差异性影响 |
公平性指标
群体公平性:
- 人口统计均等:不同群体间的正类率相等
- 均等化几率:不同群体间的真正率和假正率相等
- 预测均等:不同群体间的精确率相等
个体公平性:
- 相似的个体应获得相似的预测
- 反事实公平性:如果受保护属性不同,结果会改变吗?
偏见缓解策略
预处理:
- 训练数据的重采样/重加权
- 移除有偏见的特征
- 为代表性不足的群体进行数据增强
处理中:
- 损失函数中的公平性约束
- 对抗性去偏见
- 公平表示学习
后处理:
- 按组调整阈值
- 校准
- 拒绝选项分类
可解释性与透明度
解释类型
| 类型 | 受众 | 目的 |
|---|---|---|
| 全局解释 | 开发者 | 理解整体模型行为 |
| 局部解释 | 最终用户 | 解释特定决策 |
| 反事实解释 | 受影响方 | 需要改变什么才能获得不同结果 |
可解释性技术
- SHAP:特征重要性值
- LIME:局部可解释解释
- 注意力图:用于神经网络
- 决策树:本质上可解释
- 特征重要性:全局模型理解
模型卡片
为每个模型记录:
- 模型目的和预期用途
- 训练数据描述
- 按子组分组的性能指标
- 局限性和伦理考量
- 版本和更新历史
AI治理
AI风险评估
风险类别(欧盟AI法案):
| 风险等级 | 示例 | 要求 |
|---|---|---|
| 不可接受 | 社会评分、操纵 | 禁止 |
| 高风险 | 医疗保健、就业、信贷 | 严格要求 |
| 有限风险 | 聊天机器人 | 透明度义务 |
| 最小风险 | 垃圾邮件过滤器 | 无要求 |
治理框架
- 政策:定义伦理原则和边界
- 流程:审查和批准工作流
- 人员:角色和职责(伦理委员会)
- 技术:监控和执行的工具
文档要求
- 数据来源和谱系
- 模型训练文档
- 测试和验证结果
- 部署和监控计划
- 事件响应程序
人类监督
人在回路模式
| 模式 | 用例 | 示例 |
|---|---|---|
| 人在回路 | 高风险决策 | 医疗诊断确认 |
| 人在环上 | 监控并干预 | 内容审核升级 |
| 人不在回路 | 低风险、高容量 | 垃圾邮件过滤 |
为人类控制而设计
- 清晰的升级路径
- 覆盖能力
- 自动化的置信度阈值
- 审计跟踪
- 反馈机制
隐私考量
数据最小化
- 仅收集必要数据
- 尽可能匿名化
- 汇总而非个体数据
- 不再需要时删除数据
隐私保护技术
- 差分隐私
- 联邦学习
- 安全多方计算
- 同态加密
环境影响
考量因素
- 训练计算需求
- 推理能耗
- 硬件生命周期
- 数据中心能源来源
缓解措施
- 高效架构
- 模型蒸馏
- 迁移学习
- 绿色托管提供商
参考文件
references/bias_assessment.md- 详细的偏见评估方法references/regulatory_compliance.md- AI法规要求
与其他技能的集成
- 机器学习 - 用于模型开发
- 测试 - 用于偏见测试
- 文档 - 用于模型卡片