大模型微调 - SkillsBot AI Skill技能库

热门搜索：openclaw springboot vue react 短视频智能体 rag 爬虫量化区块链比特币

大模型微调 Skill技能列表

LLM量化与内存优化技术Skill quantizing-models-bitsandbytes

这个技能涉及使用bitsandbytes库对大型语言模型进行量化和内存优化，通过8位和4位量化减少GPU内存占用50-75%，精度损失小于1%，支持INT8、NF4、FP4格式、QLoRA微调和8位优化器，适用于有限内存环境下的模型加载、推理和训练，与HuggingFace Transformers集成。关键词：LLM量化、内存优化、bitsandbytes、QLoRA、深度学习、大模型微调、GPU加速、HuggingFace、AI模型优化。

安装

⚡

4.5

简单偏好优化(SimPO)Skill simpo-training

简单偏好优化 (SimPO) 是一种用于大型语言模型对齐的训练方法，无需参考模型，比DPO更高效，适用于AI模型的微调和优化，提升模型在偏好数据上的性能。关键词：SimPO, 偏好优化, LLM对齐, AI训练, 大模型微调, 深度学习, 机器学习。

安装

⚡

4.5

提示架构师Skill prompt-architect

这个技能用于根据Claude 4.x标准，将用户需求转化为结构化、可执行的最佳实践提示。它基于Nate B. Jones的四个初学者动作（定义输出形状、提供上下文、建议静默计划、添加自检）和Anthropic的最佳实践，通过合同风格模板生成优化提示，提升AI模型交互效率和质量。适用于大模型微调、提示工程优化，关键词：提示架构、Claude 4.x、最佳实践、提示生成、AI模型优化、Nate B. Jones、大模型微调、提示工程、合同风格模板、自检验证。

安装

⚡

4.5

GRPO/RL微调训练技能Skill grpo-rl-training

这个技能提供专家级指导，用于使用TRL库实现GRPO（组相对策略优化）来微调语言模型。它专注于推理能力和任务特定行为，通过自定义奖励函数优化模型输出，适用于需要结构化输出和可验证任务的应用，如数学、编码和事实核查。关键词：GRPO, 强化学习, TRL, 模型微调, 推理, 奖励函数, 结构化输出, 大语言模型

安装

⚡

4.5

模型合并Skill model-merging

模型合并技能用于无需重新训练即可结合多个预训练或微调AI模型的能力，通过混合不同领域专家（如数学、编程和聊天）来创建专业模型，提高性能并降低成本。关键词包括模型合并、mergekit、AI模型融合、无训练合并、大模型优化、深度学习应用。

安装

⚡

4.5

TRL强化学习Skill fine-tuning-with-trl

TRL（Transformer 强化学习）是一个用于通过强化学习对齐语言模型与人类偏好的技能，包括监督微调（SFT）、直接偏好优化（DPO）、PPO和GRPO等方法，适用于RLHF流程、偏好对齐和奖励模型训练。关键词：TRL, 强化学习, 语言模型, 微调, RLHF, DPO, PPO, 人工智能, 大模型, HuggingFace, 偏好学习。

安装

⚡

4.5

宪法人工智能技能Skill constitutional-ai

宪法人工智能技能是一种用于AI安全对齐的技术，通过自我批判和AI反馈训练模型变得无害，无需人类标签。它涉及监督学习阶段的自我批判和修订，以及强化学习阶段的RLAIF，旨在提高AI的无害性、透明度和可扩展性。关键词：AI安全、宪法AI、RLAIF、自我批判、强化学习、无害训练、安全对齐。

安装

⚡

4.5

HuggingFace模型训练器Skill hugging-face-model-trainer

此技能用于在Hugging Face Jobs云基础设施上，利用TRL（Transformer Reinforcement Learning）技术训练或微调大型语言模型。支持SFT、DPO、GRPO和奖励建模等多种方法，包含GGUF格式转换用于本地部署。涵盖数据集准备、硬件选择、成本估算、实时监控等全流程指导，适用于云端GPU训练、大模型微调、AI应用开发、深度学习、NLP和AIGC场景。

安装

⚡

4.5

miles强化学习训练框架Skill miles-rl-training

miles是一个企业级强化学习框架，专注于训练大型混合专家模型，支持FP8和INT4量化训练，确保训练与推理的精确对齐，并通过推测性RL优化性能，适合生产环境使用。关键词: 强化学习, MoE模型, FP8训练, INT4量化, 训练-推理对齐, 推测性RL, 企业级AI框架。

安装

⚡

4.5

HQQ模型量化技术Skill hqq-quantization

HQQ（Half-Quadratic Quantization）是一种先进的AI模型量化技术，专为大语言模型设计，支持无校准数据的4/3/2-bit精度权重压缩，实现快速模型优化和内存效率提升，适用于AI推理加速、模型部署、vLLM和HuggingFace框架集成，以及LoRA微调。关键词：量化、模型压缩、无校准、AI推理、大模型微调、内存优化。

安装

⚡

4.5

GPTQ量化Skill gptq

GPTQ是一种后训练量化技术，用于大型语言模型，通过4位量化实现4倍内存减少和3-4倍推理加速，精度损失低于2%。它易于与Hugging Face Transformers和PEFT集成，支持QLoRA微调，适用于在有限GPU资源上部署大模型。关键词：量化，大型语言模型，内存优化，推理加速，4位量化，GPTQ，大模型部署，AI优化。

安装

⚡

4.5

LLaMA-Factory微调工具Skill llama-factory

LLaMA-Factory技能是一个专为大型语言模型（LLM）微调设计的无代码WebUI工具，支持超过100种模型、多种量化技术如QLoRA，以及多模态应用，提供从入门到高级的全面文档和指导，助力人工智能开发者高效进行模型定制。关键词：LLaMA-Factory, 微调, LLM, WebUI, 无代码, QLoRA, 多模态, 人工智能

安装