名称: 人工智能伦理描述: 负责任的人工智能开发与伦理考量。适用于评估AI偏见、实施公平性措施、进行伦理评估或确保AI系统与人类价值观保持一致。作者: Joseph OBrien 状态: 未发布更新日期: ‘2025-12-23’ 版本: 1.0.1 标签: 技能类型: 技能

人工智能伦理

全面的人工智能伦理技能，涵盖偏见检测、公平性评估、负责任的人工智能开发以及法规遵从。

何时使用此技能

评估AI模型的偏见
实施公平性措施
进行伦理影响评估
确保法规遵从（欧盟AI法案等）
设计人在回路系统
创建AI透明度文档
开发AI治理框架

伦理原则

核心AI伦理原则

原则	描述
公平性	AI不应歧视个人或群体
透明度	AI决策应可解释
隐私	个人数据必须受到保护
问责制	AI结果责任清晰
安全性	AI不应造成伤害
人类能动性	人类应保持控制

利益相关者考量

用户：这如何影响使用系统的人？
主体：这如何影响AI做出决策的对象？
社会：更广泛的社会影响是什么？
环境：环境影响是什么？

偏见检测与缓解

AI偏见类型

偏见类型	来源	示例
历史性偏见	训练数据反映过去的歧视	招聘模型偏向男性候选人
代表性偏见	训练数据中群体代表性不足	人脸识别在深色皮肤上失败
测量偏见	受保护属性的代理变量	邮政编码与种族相关
聚合偏见	针对多样化人群的单一模型	仅针对一种族裔训练的医疗模型
评估偏见	有偏见的评估指标	准确率掩盖了差异性影响

公平性指标

群体公平性：

人口统计均等：不同群体间的正类率相等
均等化几率：不同群体间的真正率和假正率相等
预测均等：不同群体间的精确率相等

个体公平性：

相似的个体应获得相似的预测
反事实公平性：如果受保护属性不同，结果会改变吗？

偏见缓解策略

预处理：

训练数据的重采样/重加权
移除有偏见的特征
为代表性不足的群体进行数据增强

处理中：

损失函数中的公平性约束
对抗性去偏见
公平表示学习

后处理：

按组调整阈值
校准
拒绝选项分类

可解释性与透明度

解释类型

类型	受众	目的
全局解释	开发者	理解整体模型行为
局部解释	最终用户	解释特定决策
反事实解释	受影响方	需要改变什么才能获得不同结果

可解释性技术

SHAP：特征重要性值
LIME：局部可解释解释
注意力图：用于神经网络
决策树：本质上可解释
特征重要性：全局模型理解

模型卡片

为每个模型记录：

模型目的和预期用途
训练数据描述
按子组分组的性能指标
局限性和伦理考量
版本和更新历史

AI治理

AI风险评估

风险类别（欧盟AI法案）：

风险等级	示例	要求
不可接受	社会评分、操纵	禁止
高风险	医疗保健、就业、信贷	严格要求
有限风险	聊天机器人	透明度义务
最小风险	垃圾邮件过滤器	无要求

治理框架

政策：定义伦理原则和边界
流程：审查和批准工作流
人员：角色和职责（伦理委员会）
技术：监控和执行的工具

文档要求

数据来源和谱系
模型训练文档
测试和验证结果
部署和监控计划
事件响应程序

人类监督

人在回路模式

模式	用例	示例
人在回路	高风险决策	医疗诊断确认
人在环上	监控并干预	内容审核升级
人不在回路	低风险、高容量	垃圾邮件过滤

为人类控制而设计

清晰的升级路径
覆盖能力
自动化的置信度阈值
审计跟踪
反馈机制

隐私考量

数据最小化

仅收集必要数据
尽可能匿名化
汇总而非个体数据
不再需要时删除数据

隐私保护技术

差分隐私
联邦学习
安全多方计算
同态加密

环境影响

考量因素

训练计算需求
推理能耗
硬件生命周期
数据中心能源来源

缓解措施

高效架构
模型蒸馏
迁移学习
绿色托管提供商

参考文件

references/bias_assessment.md - 详细的偏见评估方法
references/regulatory_compliance.md - AI法规要求

与其他技能的集成

机器学习 - 用于模型开发
测试 - 用于偏见测试
文档 - 用于模型卡片