大模型微调 Skill技能列表
模型合并Skill model-merging
模型合并技能用于无需重新训练即可结合多个预训练或微调AI模型的能力,通过混合不同领域专家(如数学、编程和聊天)来创建专业模型,提高性能并降低成本。关键词包括模型合并、mergekit、AI模型融合、无训练合并、大模型优化、深度学习应用。
HQQ模型量化技术Skill hqq-quantization
HQQ(Half-Quadratic Quantization)是一种先进的AI模型量化技术,专为大语言模型设计,支持无校准数据的4/3/2-bit精度权重压缩,实现快速模型优化和内存效率提升,适用于AI推理加速、模型部署、vLLM和HuggingFace框架集成,以及LoRA微调。关键词:量化、模型压缩、无校准、AI推理、大模型微调、内存优化。
HuggingFace模型训练器Skill hugging-face-model-trainer
此技能用于在Hugging Face Jobs云基础设施上,利用TRL(Transformer Reinforcement Learning)技术训练或微调大型语言模型。支持SFT、DPO、GRPO和奖励建模等多种方法,包含GGUF格式转换用于本地部署。涵盖数据集准备、硬件选择、成本估算、实时监控等全流程指导,适用于云端GPU训练、大模型微调、AI应用开发、深度学习、NLP和AIGC场景。
Megatron-Core大语言模型训练Skill training-llms-megatron
Megatron-Core 是一个用于训练大规模语言模型(2B-462B 参数)的框架,采用先进的并行策略(如张量并行、管道并行、专家并行),在 NVIDIA GPU(如 H100)上实现高 GPU 效率(最高 47% 模型浮点运算利用率),适用于生产环境训练如 LLaMA、Nemotron、DeepSeek 等模型。关键词:大语言模型训练,Megatron-Core,并行计算,GPU 优化,分布式训练,AI 模型训练。
HuggingFace分类器微调技能Skill huggingface-classifier
该技能专注于使用Hugging Face transformer模型进行意图分类任务的微调与推理。核心功能包括模型选择(如BERT、RoBERTa、DeBERTa)、配置训练流程、实现高效推理、设计标签体系以及模型评估与部署。适用于构建意图识别系统、实体抽取等自然语言处理应用。关键词:HuggingFace,Transformer模型微调,意图分类,NLP,模型训练,推理优化,标签映射,模型评估。
RWKV架构Skill rwkv-architecture
RWKV是一种结合Transformer和RNN的混合神经网络架构,具有线性推理复杂度、无限上下文处理能力和高效内存使用。适用于长序列处理、流式应用和大模型训练与推理,特别适合AI领域的模型开发和优化。关键词:RWKV, Transformer, RNN, 线性复杂度, 无限上下文, 高效推理, 机器学习, AI模型, 大模型微调
OpenRLHFRLHF训练技能Skill openrlhf-training
该技能专注于使用OpenRLHF框架进行高性能强化学习人类反馈(RLHF)训练,支持PPO、GRPO、RLOO、DPO等多种算法,用于微调7B至70B+的大型语言模型。通过Ray分布式架构和vLLM推理加速,优化GPU资源使用,提高训练效率。关键词:RLHF、PPO、大模型微调、分布式训练、vLLM加速。
LLaMA-Factory微调工具Skill llama-factory
LLaMA-Factory技能是一个专为大型语言模型(LLM)微调设计的无代码WebUI工具,支持超过100种模型、多种量化技术如QLoRA,以及多模态应用,提供从入门到高级的全面文档和指导,助力人工智能开发者高效进行模型定制。关键词:LLaMA-Factory, 微调, LLM, WebUI, 无代码, QLoRA, 多模态, 人工智能
LLM量化与内存优化技术Skill quantizing-models-bitsandbytes
这个技能涉及使用bitsandbytes库对大型语言模型进行量化和内存优化,通过8位和4位量化减少GPU内存占用50-75%,精度损失小于1%,支持INT8、NF4、FP4格式、QLoRA微调和8位优化器,适用于有限内存环境下的模型加载、推理和训练,与HuggingFace Transformers集成。关键词:LLM量化、内存优化、bitsandbytes、QLoRA、深度学习、大模型微调、GPU加速、HuggingFace、AI模型优化。
GRPO/RL微调训练技能Skill grpo-rl-training
这个技能提供专家级指导,用于使用TRL库实现GRPO(组相对策略优化)来微调语言模型。它专注于推理能力和任务特定行为,通过自定义奖励函数优化模型输出,适用于需要结构化输出和可验证任务的应用,如数学、编码和事实核查。关键词:GRPO, 强化学习, TRL, 模型微调, 推理, 奖励函数, 结构化输出, 大语言模型
简单偏好优化(SimPO)Skill simpo-training
简单偏好优化 (SimPO) 是一种用于大型语言模型对齐的训练方法,无需参考模型,比DPO更高效,适用于AI模型的微调和优化,提升模型在偏好数据上的性能。关键词:SimPO, 偏好优化, LLM对齐, AI训练, 大模型微调, 深度学习, 机器学习。
LitGPT模型实现与微调技能Skill implementing-llms-litgpt
这个技能专注于使用 Lightning AI 的 LitGPT 工具来实现和训练大型语言模型(LLM),支持 20 多种预训练架构(如 Llama、Gemma、Phi 等)。适用于教育目的、生产级微调(使用 LoRA/QLoRA)、单文件实现等场景。关键词包括:LitGPT、LLM、微调、LoRA、QLoRA、模型训练、Lightning AI。