name: ai-ethics description: 负责任的人工智能开发与伦理考量。适用于评估AI偏见、实施公平性措施、进行伦理评估或确保AI系统与人类价值观保持一致时使用。 author: Joseph OBrien status: unpublished updated: ‘2025-12-23’ version: 1.0.1 tag: skill type: skill

AI伦理

全面的AI伦理技能，涵盖偏见检测、公平性评估、负责任AI开发以及法规合规。

何时使用此技能

评估AI模型是否存在偏见
实施公平性措施
进行伦理影响评估
确保法规合规（如欧盟AI法案等）
设计人机协同系统
创建AI透明度文档
开发AI治理框架

伦理原则

核心AI伦理原则

原则	描述
公平性	AI不应歧视个人或群体
透明度	AI决策应可解释
隐私保护	个人数据必须受到保护
问责制	对AI结果有明确责任
安全性	AI不应造成伤害
人类自主权	人类应保持控制权

利益相关者考量

用户：系统如何影响使用者？
对象：AI决策如何影响被决策者？
社会：更广泛的社会影响是什么？
环境：环境影响是什么？

偏见检测与缓解

AI偏见类型

偏见类型	来源	示例
历史性偏见	训练数据反映过去的歧视	招聘模型偏向男性候选人
代表性偏见	训练数据中群体代表性不足	人脸识别在深色皮肤上失效
测量偏见	受保护属性的代理变量	邮政编码与种族相关
聚合偏见	针对多样化人群使用单一模型	仅基于单一族裔训练的医疗模型
评估偏见	有偏见的评估指标	准确率掩盖了差异性影响

公平性指标

群体公平性：

人口统计均等：不同群体间获得积极结果的比率相等
机会均等：不同群体间真正例率和假正例率相等
预测均等：不同群体间精确率相等

个体公平性：

相似的个体应获得相似的预测结果
反事实公平性：如果受保护属性不同，结果会改变吗？

偏见缓解策略

预处理：

对训练数据进行重采样/重加权
移除有偏见的特征
为代表性不足的群体进行数据增强

处理中：

在损失函数中加入公平性约束
对抗性去偏见
公平表示学习

后处理：

按群体调整阈值
校准
拒绝选项分类

可解释性与透明度

解释类型

类型	受众	目的
全局解释	开发者	理解模型的整体行为
局部解释	终端用户	解释特定决策
反事实解释	受影响方	需要改变什么才能获得不同结果

可解释性技术

SHAP：特征重要性值
LIME：局部可解释性解释
注意力图：用于神经网络
决策树：本质上可解释
特征重要性：全局模型理解

模型卡片

为每个模型记录：

模型目的和预期用途
训练数据描述
按子组划分的性能指标
局限性和伦理考量
版本和更新历史

AI治理

AI风险评估

风险类别（欧盟AI法案）：

风险等级	示例	要求
不可接受	社会评分、操纵	禁止
高风险	医疗保健、就业、信贷	严格要求
有限风险	聊天机器人	透明度义务
最小风险	垃圾邮件过滤器	无要求

治理框架

政策：定义伦理原则和边界
流程：审查和批准工作流
人员：角色和职责（伦理委员会）
技术：用于监控和执行的工具

文档要求

数据来源和谱系
模型训练文档
测试和验证结果
部署和监控计划
事件响应程序

人类监督

人机协同模式

模式	使用场景	示例
人在环路	高风险决策	医疗诊断确认
人在环上	监控与干预	内容审核升级
人在环外	低风险、高容量	垃圾邮件过滤

为人类控制而设计

清晰的升级路径
覆盖能力
自动化的置信度阈值
审计追踪
反馈机制

隐私考量

数据最小化

仅收集必要数据
尽可能匿名化
使用聚合数据而非个体数据
不再需要时删除数据

隐私保护技术

差分隐私
联邦学习
安全多方计算
同态加密

环境影响

考量因素

训练计算需求
推理能耗
硬件生命周期
数据中心能源来源

缓解措施

高效架构
模型蒸馏
迁移学习
绿色托管提供商

参考文件

references/bias_assessment.md - 详细的偏见评估方法
references/regulatory_compliance.md - AI法规要求

与其他技能的集成

machine-learning - 用于模型开发
testing - 用于偏见测试
documentation - 用于模型卡片