大模型微调 Skill技能列表
LLM量化与内存优化技术Skill quantizing-models-bitsandbytes
这个技能涉及使用bitsandbytes库对大型语言模型进行量化和内存优化,通过8位和4位量化减少GPU内存占用50-75%,精度损失小于1%,支持INT8、NF4、FP4格式、QLoRA微调和8位优化器,适用于有限内存环境下的模型加载、推理和训练,与HuggingFace Transformers集成。关键词:LLM量化、内存优化、bitsandbytes、QLoRA、深度学习、大模型微调、GPU加速、HuggingFace、AI模型优化。
简单偏好优化(SimPO)Skill simpo-training
简单偏好优化 (SimPO) 是一种用于大型语言模型对齐的训练方法,无需参考模型,比DPO更高效,适用于AI模型的微调和优化,提升模型在偏好数据上的性能。关键词:SimPO, 偏好优化, LLM对齐, AI训练, 大模型微调, 深度学习, 机器学习。
提示架构师Skill prompt-architect
这个技能用于根据Claude 4.x标准,将用户需求转化为结构化、可执行的最佳实践提示。它基于Nate B. Jones的四个初学者动作(定义输出形状、提供上下文、建议静默计划、添加自检)和Anthropic的最佳实践,通过合同风格模板生成优化提示,提升AI模型交互效率和质量。适用于大模型微调、提示工程优化,关键词:提示架构、Claude 4.x、最佳实践、提示生成、AI模型优化、Nate B. Jones、大模型微调、提示工程、合同风格模板、自检验证。
GRPO/RL微调训练技能Skill grpo-rl-training
这个技能提供专家级指导,用于使用TRL库实现GRPO(组相对策略优化)来微调语言模型。它专注于推理能力和任务特定行为,通过自定义奖励函数优化模型输出,适用于需要结构化输出和可验证任务的应用,如数学、编码和事实核查。关键词:GRPO, 强化学习, TRL, 模型微调, 推理, 奖励函数, 结构化输出, 大语言模型
模型合并Skill model-merging
模型合并技能用于无需重新训练即可结合多个预训练或微调AI模型的能力,通过混合不同领域专家(如数学、编程和聊天)来创建专业模型,提高性能并降低成本。关键词包括模型合并、mergekit、AI模型融合、无训练合并、大模型优化、深度学习应用。
TRL强化学习Skill fine-tuning-with-trl
TRL(Transformer 强化学习)是一个用于通过强化学习对齐语言模型与人类偏好的技能,包括监督微调(SFT)、直接偏好优化(DPO)、PPO和GRPO等方法,适用于RLHF流程、偏好对齐和奖励模型训练。关键词:TRL, 强化学习, 语言模型, 微调, RLHF, DPO, PPO, 人工智能, 大模型, HuggingFace, 偏好学习。
宪法人工智能技能Skill constitutional-ai
宪法人工智能技能是一种用于AI安全对齐的技术,通过自我批判和AI反馈训练模型变得无害,无需人类标签。它涉及监督学习阶段的自我批判和修订,以及强化学习阶段的RLAIF,旨在提高AI的无害性、透明度和可扩展性。关键词:AI安全、宪法AI、RLAIF、自我批判、强化学习、无害训练、安全对齐。
HuggingFace模型训练器Skill hugging-face-model-trainer
此技能用于在Hugging Face Jobs云基础设施上,利用TRL(Transformer Reinforcement Learning)技术训练或微调大型语言模型。支持SFT、DPO、GRPO和奖励建模等多种方法,包含GGUF格式转换用于本地部署。涵盖数据集准备、硬件选择、成本估算、实时监控等全流程指导,适用于云端GPU训练、大模型微调、AI应用开发、深度学习、NLP和AIGC场景。
miles强化学习训练框架Skill miles-rl-training
miles是一个企业级强化学习框架,专注于训练大型混合专家模型,支持FP8和INT4量化训练,确保训练与推理的精确对齐,并通过推测性RL优化性能,适合生产环境使用。关键词: 强化学习, MoE模型, FP8训练, INT4量化, 训练-推理对齐, 推测性RL, 企业级AI框架。
HQQ模型量化技术Skill hqq-quantization
HQQ(Half-Quadratic Quantization)是一种先进的AI模型量化技术,专为大语言模型设计,支持无校准数据的4/3/2-bit精度权重压缩,实现快速模型优化和内存效率提升,适用于AI推理加速、模型部署、vLLM和HuggingFace框架集成,以及LoRA微调。关键词:量化、模型压缩、无校准、AI推理、大模型微调、内存优化。
GPTQ量化Skill gptq
GPTQ是一种后训练量化技术,用于大型语言模型,通过4位量化实现4倍内存减少和3-4倍推理加速,精度损失低于2%。它易于与Hugging Face Transformers和PEFT集成,支持QLoRA微调,适用于在有限GPU资源上部署大模型。关键词:量化,大型语言模型,内存优化,推理加速,4位量化,GPTQ,大模型部署,AI优化。
LLaMA-Factory微调工具Skill llama-factory
LLaMA-Factory技能是一个专为大型语言模型(LLM)微调设计的无代码WebUI工具,支持超过100种模型、多种量化技术如QLoRA,以及多模态应用,提供从入门到高级的全面文档和指导,助力人工智能开发者高效进行模型定制。关键词:LLaMA-Factory, 微调, LLM, WebUI, 无代码, QLoRA, 多模态, 人工智能