大模型微调 Skill技能列表

4.5

AWQ量化技术Skill awq-quantization

AWQ(激活感知权重量化)是一种先进的4位量化技术,专为大型语言模型(LLM)设计,通过分析激活模式来保护关键权重,实现高达3倍的推理加速,同时保持最小精度损失。适用于AI模型部署、大模型微调、生产推理加速等场景,关键词包括AWQ、量化、LLM压缩、推理优化、AI部署。

4.5

LLM量化与内存优化技术Skill quantizing-models-bitsandbytes

这个技能涉及使用bitsandbytes库对大型语言模型进行量化和内存优化,通过8位和4位量化减少GPU内存占用50-75%,精度损失小于1%,支持INT8、NF4、FP4格式、QLoRA微调和8位优化器,适用于有限内存环境下的模型加载、推理和训练,与HuggingFace Transformers集成。关键词:LLM量化、内存优化、bitsandbytes、QLoRA、深度学习、大模型微调、GPU加速、HuggingFace、AI模型优化。

4.5

GPTQ量化Skill gptq

GPTQ是一种后训练量化技术,用于大型语言模型,通过4位量化实现4倍内存减少和3-4倍推理加速,精度损失低于2%。它易于与Hugging Face Transformers和PEFT集成,支持QLoRA微调,适用于在有限GPU资源上部署大模型。关键词:量化,大型语言模型,内存优化,推理加速,4位量化,GPTQ,大模型部署,AI优化。

4.5

HQQ模型量化技术Skill hqq-quantization

HQQ(Half-Quadratic Quantization)是一种先进的AI模型量化技术,专为大语言模型设计,支持无校准数据的4/3/2-bit精度权重压缩,实现快速模型优化和内存效率提升,适用于AI推理加速、模型部署、vLLM和HuggingFace框架集成,以及LoRA微调。关键词:量化、模型压缩、无校准、AI推理、大模型微调、内存优化。

4.5

miles强化学习训练框架Skill miles-rl-training

miles是一个企业级强化学习框架,专注于训练大型混合专家模型,支持FP8和INT4量化训练,确保训练与推理的精确对齐,并通过推测性RL优化性能,适合生产环境使用。关键词: 强化学习, MoE模型, FP8训练, INT4量化, 训练-推理对齐, 推测性RL, 企业级AI框架。

4.5

OpenRLHFRLHF训练技能Skill openrlhf-training

该技能专注于使用OpenRLHF框架进行高性能强化学习人类反馈(RLHF)训练,支持PPO、GRPO、RLOO、DPO等多种算法,用于微调7B至70B+的大型语言模型。通过Ray分布式架构和vLLM推理加速,优化GPU资源使用,提高训练效率。关键词:RLHF、PPO、大模型微调、分布式训练、vLLM加速。

4.5

简单偏好优化(SimPO)Skill simpo-training

简单偏好优化 (SimPO) 是一种用于大型语言模型对齐的训练方法,无需参考模型,比DPO更高效,适用于AI模型的微调和优化,提升模型在偏好数据上的性能。关键词:SimPO, 偏好优化, LLM对齐, AI训练, 大模型微调, 深度学习, 机器学习。

4.5

Slime大模型强化学习微调框架Skill slime-rl-training

Slime 是一个专为大语言模型(LLM)设计的后训练强化学习框架,结合 Megatron-LM 进行高效训练和 SGLang 进行高吞吐量推理生成。它支持 GLM、Qwen3、DeepSeek 等多种模型,适用于自定义数据生成、多轮对话训练和智能体开发,关键词包括:大语言模型、强化学习、后训练、Megatron-LM、SGLang、微调、AI 智能体。

4.5

TRL强化学习Skill fine-tuning-with-trl

TRL(Transformer 强化学习)是一个用于通过强化学习对齐语言模型与人类偏好的技能,包括监督微调(SFT)、直接偏好优化(DPO)、PPO和GRPO等方法,适用于RLHF流程、偏好对齐和奖励模型训练。关键词:TRL, 强化学习, 语言模型, 微调, RLHF, DPO, PPO, 人工智能, 大模型, HuggingFace, 偏好学习。

4.5

verl强化学习训练技能Skill verl-rl-training

这个技能提供了使用verl库进行大型语言模型强化学习训练的全面指导,包括RLHF、GRPO、PPO等多种算法,支持分布式训练、多后端切换,适用于数学推理、视觉语言模型等场景。关键词:verl, 强化学习, LLM, RLHF, GRPO, PPO, 分布式训练, 大模型微调。

4.5

本地LLM微调Skill local-llm-fine-tuning

本地LLM微调技能专注于在本地硬件上使用LoRA、QLoRA等高效技术微调大型语言模型,如Llama、Mistral、Gemma。涉及数据集准备、模型配置、训练优化和评估,适用于人工智能、自然语言处理和大模型应用开发。关键词:本地LLM微调、LoRA、QLoRA、PEFT、Hugging Face、模型训练、AI微调。

4.5

Megatron-Core大语言模型训练Skill training-llms-megatron

Megatron-Core 是一个用于训练大规模语言模型(2B-462B 参数)的框架,采用先进的并行策略(如张量并行、管道并行、专家并行),在 NVIDIA GPU(如 H100)上实现高 GPU 效率(最高 47% 模型浮点运算利用率),适用于生产环境训练如 LLaMA、Nemotron、DeepSeek 等模型。关键词:大语言模型训练,Megatron-Core,并行计算,GPU 优化,分布式训练,AI 模型训练。