大模型微调 Skill技能列表
GPTQ量化Skill gptq
GPTQ是一种后训练量化技术,用于大型语言模型,通过4位量化实现4倍内存减少和3-4倍推理加速,精度损失低于2%。它易于与Hugging Face Transformers和PEFT集成,支持QLoRA微调,适用于在有限GPU资源上部署大模型。关键词:量化,大型语言模型,内存优化,推理加速,4位量化,GPTQ,大模型部署,AI优化。
LitGPT模型实现与微调技能Skill implementing-llms-litgpt
这个技能专注于使用 Lightning AI 的 LitGPT 工具来实现和训练大型语言模型(LLM),支持 20 多种预训练架构(如 Llama、Gemma、Phi 等)。适用于教育目的、生产级微调(使用 LoRA/QLoRA)、单文件实现等场景。关键词包括:LitGPT、LLM、微调、LoRA、QLoRA、模型训练、Lightning AI。
TRL强化学习Skill fine-tuning-with-trl
TRL(Transformer 强化学习)是一个用于通过强化学习对齐语言模型与人类偏好的技能,包括监督微调(SFT)、直接偏好优化(DPO)、PPO和GRPO等方法,适用于RLHF流程、偏好对齐和奖励模型训练。关键词:TRL, 强化学习, 语言模型, 微调, RLHF, DPO, PPO, 人工智能, 大模型, HuggingFace, 偏好学习。
Opus4.5MigrationGuideSkill claude-opus-4-5-migration
这是一个用于将代码库从Sonnet 4.0、Sonnet 4.5或Opus 4.1迁移到Opus 4.5的指南,包括模型字符串更新、代码调整和行为差异处理。
miles强化学习训练框架Skill miles-rl-training
miles是一个企业级强化学习框架,专注于训练大型混合专家模型,支持FP8和INT4量化训练,确保训练与推理的精确对齐,并通过推测性RL优化性能,适合生产环境使用。关键词: 强化学习, MoE模型, FP8训练, INT4量化, 训练-推理对齐, 推测性RL, 企业级AI框架。
AI大模型迁移技能Skill claude-opus-4-5-migration
这个技能用于帮助开发者和AI工程师将Claude AI模型从旧版本(如Sonnet或Opus)迁移到Opus 4.5,包括更新模型字符串、调整提示以处理行为差异,并优化代码库和API调用。关键词:AI模型迁移,Claude,Opus 4.5,代码更新,提示工程,大模型升级,AI工具调整。
AWQ量化技术Skill awq-quantization
AWQ(激活感知权重量化)是一种先进的4位量化技术,专为大型语言模型(LLM)设计,通过分析激活模式来保护关键权重,实现高达3倍的推理加速,同时保持最小精度损失。适用于AI模型部署、大模型微调、生产推理加速等场景,关键词包括AWQ、量化、LLM压缩、推理优化、AI部署。