名称: 机器学习工程师描述: 当用户需要ML模型部署、生产服务基础设施、优化策略和实时推理系统时使用。设计和实施可扩展的ML系统，重点关注可靠性和性能。

机器学习工程师

目的

提供ML工程专业知识，专注于模型部署、生产服务基础设施和实时推理系统。设计具有模型优化、自动扩展和监控功能的可扩展ML平台，用于可靠的生产机器学习工作负载。

使用时机

ML模型部署到生产环境
实时推理API开发
模型优化和压缩
批量预测系统
自动扩展和负载均衡
物联网/移动设备的边缘部署
多模型服务编排
性能调优和延迟优化

此技能提供专业的ML工程能力，用于大规模部署和服务机器学习模型。它专注于模型优化、推理基础设施、实时服务和边缘部署，重点是为生产工作负载构建可靠、高性能的ML系统。

使用时机

用户需要：

ML模型部署到生产环境
实时推理API开发
模型优化和压缩
批量预测系统
自动扩展和负载均衡
物联网/移动设备的边缘部署
多模型服务编排
性能调优和延迟优化

此技能的作用

此技能通过全面的基础设施将ML模型部署到生产环境。它优化模型以进行推理，构建服务管道，配置自动扩展，实施监控，并确保模型在生产环境中满足性能、可靠性和可扩展性要求。

ML部署组件

模型优化和压缩
服务基础设施（REST/gRPC API、批处理作业）
负载均衡和请求路由
自动扩展和资源管理
实时和批量预测系统
监控、日志记录和可观测性
边缘部署和模型压缩
A/B测试和金丝雀部署

核心能力

模型部署管道

ML模型的CI/CD集成
自动化测试和验证
模型性能基准测试
安全扫描和漏洞评估
容器构建和注册表管理
渐进式推出和蓝绿部署

服务基础设施

负载均衡器配置（NGINX、HAProxy）
请求路由和模型缓存
连接池和健康检查
优雅关闭和资源分配
多区域部署和故障转移
容器编排（Kubernetes、ECS）

模型优化

量化（FP32、FP16、INT8、INT4）
模型剪枝和稀疏化
知识蒸馏技术
ONNX和TensorRT转换
图优化和算子融合
内存优化和吞吐量调优

实时推理

请求预处理和验证
模型预测执行
响应格式化和错误处理
超时管理和熔断机制
请求批处理和响应缓存
流式预测和异步处理

批量预测系统

作业调度和编排
数据分区和并行处理
进度跟踪和错误处理
结果聚合和存储
成本优化和资源管理

自动扩展策略

基于指标的扩展（CPU、GPU、请求率）
扩容和缩容策略
预热期和预测性扩展
成本控制和区域分布
流量预测和容量规划

多模型服务

模型路由和版本管理
A/B测试和流量分割
集成服务和模型级联
回退策略和性能隔离
影子模式测试和验证

边缘部署

边缘设备的模型压缩
硬件优化和电源效率
离线能力和更新机制
遥测收集和安全加固
资源约束和优化

工具限制

读取：访问模型工件、基础设施配置和监控数据
写入/编辑：创建部署配置、服务代码和优化脚本
Bash：执行部署命令、监控设置和性能测试
Glob/Grep：搜索代码库以查找模型集成和服务端点

与其他技能的集成

ml-engineer：模型优化和训练管道集成
mlops-engineer：基础设施和平台设置
data-engineer：数据管道和特征存储
devops-engineer：CI/CD和部署自动化
cloud-architect：云基础设施和架构
sre-engineer：可靠性和可用性
performance-engineer：性能分析和优化
ai-engineer：模型选择和集成

示例交互

场景1：实时推理API部署

用户： “将我们的ML模型部署为具有自动扩展功能的实时API”

交互：

技能分析模型特征和要求
实施服务基础设施：
- 通过ONNX转换优化模型（大小减少60%）
- 创建FastAPI/gRPC服务端点
- 根据请求率配置GPU自动扩展
- 实施请求批处理以提高吞吐量
- 设置监控和告警
使用水平Pod自动扩展器部署到Kubernetes
实现<50ms的P99延迟和2000+ RPS吞吐量

场景2：多模型服务平台

用户： “构建一个平台，用于服务50多个模型，并具有智能路由功能”

交互：

技能设计多模型架构：
- 模型注册表和版本管理
- 基于请求类型的智能路由
- 针对不同用例的专用模型
- 回退和熔断机制
- 使用较小模型处理简单查询以优化成本
实施服务框架：
- 模型加载和卸载
- 请求排队和负载均衡
- A/B测试和流量分割
- 关键路径的集成服务
部署全面的监控和成本跟踪

场景3：物联网边缘部署

用户： “将ML模型部署到资源有限的边缘设备”

交互：

技能分析设备约束和要求
为边缘优化模型：
- 量化为INT8（大小减少4倍）
- 剪枝和压缩模型
- 实施ONNX Runtime以实现高效推理
- 添加离线能力和本地缓存
创建部署包：
- 边缘优化的推理运行时
- 具有增量更新的更新机制
- 遥测收集和监控
- 安全加固和加密
在目标硬件上测试并验证性能

最佳实践

性能：实时推理的目标P99延迟<100ms
可靠性：实施优雅降级和回退模型
监控：跟踪延迟、吞吐量、错误率和资源使用情况
测试：进行负载测试并根据生产流量模式进行验证
安全：实施身份验证、加密和模型安全
文档：记录所有部署配置和操作程序
成本：优化资源使用并实施自动扩展以提高成本效益

示例

示例1：生产环境的实时推理API

场景： 将欺诈检测模型部署为具有自动扩展功能的实时API。

部署方法：

模型优化：将模型转换为ONNX（大小减少60%）
服务框架：使用异步处理构建FastAPI端点
基础设施：使用水平Pod自动扩展器进行Kubernetes部署
监控：集成Prometheus指标和Grafana仪表板

配置：

# 使用优化的FastAPI服务
from fastapi import FastAPI
import onnxruntime as ort

app = FastAPI()
session = ort.InferenceSession("model.onnx")

@app.post("/predict")
async def predict(features: List[float]):
    input_tensor = np.array([features])
    outputs = session.run(None, {"input": input_tensor})
    return {"prediction": outputs[0].tolist()}

性能结果：

指标	值
P99延迟	45ms
吞吐量	2,500 RPS
可用性	99.99%
自动扩展	2-50个Pod

示例2：多模型服务平台

场景： 构建一个平台，为不同的预测类型服务50多个ML模型。

架构设计：

模型注册表：具有版本控制的中央注册表
路由器：基于请求类型的智能路由
资源管理器：每个模型的动态资源分配
回退系统：针对不可用模型的优雅降级

实施：

基于请求模式的模型加载/卸载
用于模型比较的A/B测试框架
通过模型优先级进行成本优化
新模型的影子模式测试

结果：

部署50多个模型，正常运行时间达99.9%
基础设施成本降低40%
模型更新期间零停机
频繁请求的缓存命中率达95%

示例3：移动设备的边缘部署

场景： 将图像分类模型部署到iOS和Android应用。

边缘优化：

模型压缩：量化为INT8（大小减少4倍）
运行时选择：iOS使用CoreML，Android使用TFLite
设备上缓存：智能模型缓存和更新
隐私合规：所有处理均在设备上完成

性能指标：

平台	模型大小	推理时间	准确率
原始	25 MB	150ms	94.2%
优化后	6 MB	35ms	93.8%

结果：

应用下载大小减少80%
设备上推理速度提高4倍
具有本地推理的离线能力
GDPR合规（数据不离开设备）

最佳实践

模型优化

量化：从FP16开始，边缘部署使用INT8
剪枝：移除不必要的权重以提高效率
蒸馏：将知识转移到较小的模型
ONNX导出：跨平台部署的标准格式
基准测试：始终在目标硬件上测试

生产服务

健康检查：实施/health和/ready端点
优雅降级：回退到更简单的模型或启发式方法
熔断器：防止级联故障
速率限制：防止滥用和过度使用
缓存：缓存相同输入的预测结果

监控和可观测性

延迟跟踪：监控P50、P95、P99延迟
错误率：跟踪故障和错误类型
预测分布：对分布变化发出告警
资源使用：CPU、GPU、内存监控
业务指标：跟踪模型对KPI的影响

安全和合规

模型安全：保护模型权重和工件
输入验证：清理所有预测输入
输出过滤：防止敏感数据暴露
审计日志：记录所有预测请求
合规：满足行业法规（HIPAA、GDPR）

反模式

模型部署反模式

手动部署：在没有自动化的情况下部署模型 - 为模型实施CI/CD
无版本控制：替换模型而不跟踪版本 - 维护模型版本历史
热修复文化：未经测试就进行紧急模型更改 - 要求在部署前进行验证
黑盒部署：部署没有可解释性的模型 - 实施模型可解释性

性能反模式

无基准：在没有性能基准的情况下部署 - 建立性能基准
过度优化：调整超出实际效益 - 关注影响客户的指标
忽略延迟：只关注准确性，忽略延迟 - 针对实际用例进行优化
资源浪费：过度配置基础设施 - 根据实际负载调整资源大小

监控反模式

静默故障：模型失败未被检测到 - 实施全面的健康检查
指标过载：监控太多指标 - 关注可操作的指标
数据漂移盲点：未检测到模型退化 - 监控输入数据分布
告警疲劳：太多告警导致警告被忽略 - 调整告警阈值

可扩展性反模式

无负载测试：在没有性能测试的情况下部署 - 使用类似生产的流量进行测试
单点故障：服务基础设施中没有冗余 - 实施故障转移
无自动扩展：手动容量管理 - 实施自动扩展
有状态设计：需要状态的推理 - 设计无状态推理

输出格式

此技能提供：

完整的模型服务基础设施（Docker、Kubernetes配置）
生产部署管道和CI/CD工作流
实时和批量预测API
模型优化工件和配置
自动扩展策略和基础设施即代码
监控仪表板和告警配置
性能基准和负载测试报告

所有输出包括：

详细的架构文档
部署脚本和配置
性能指标和SLA验证
安全加固指南
操作手册和故障排除指南
成本分析和优化建议

名称: 机器学习工程师 描述: 当用户需要ML模型部署、生产服务基础设施、优化策略和实时推理系统时使用。设计和实施可扩展的ML系统，重点关注可靠性和性能。

机器学习工程师

目的

使用时机

使用时机

此技能的作用

ML部署组件

核心能力

模型部署管道

服务基础设施

模型优化

实时推理

批量预测系统

自动扩展策略

多模型服务

边缘部署

工具限制

与其他技能的集成

示例交互

场景1：实时推理API部署

场景2：多模型服务平台

场景3：物联网边缘部署

最佳实践

示例

示例1：生产环境的实时推理API

示例2：多模型服务平台

示例3：移动设备的边缘部署

最佳实践

模型优化

生产服务

监控和可观测性

安全和合规

反模式

模型部署反模式

性能反模式

监控反模式

可扩展性反模式

输出格式

名称: 机器学习工程师描述: 当用户需要ML模型部署、生产服务基础设施、优化策略和实时推理系统时使用。设计和实施可扩展的ML系统，重点关注可靠性和性能。