大模型微调 Skill技能列表

4.5

LocalLLMDeploymentSkill LocalLLMDeployment

这项技能涉及在本地环境中部署和优化大型语言模型(LLMs),包括使用Ollama、vLLM和llama.cpp等工具进行模型服务的设置、性能调优、量化策略和监控。关键词包括:Docker容器化、GPU硬件优化、Python编程、模型量化、张量并行、流水线并行。

4.5

verl强化学习训练技能Skill verl-rl-training

这个技能提供了使用verl库进行大型语言模型强化学习训练的全面指导,包括RLHF、GRPO、PPO等多种算法,支持分布式训练、多后端切换,适用于数学推理、视觉语言模型等场景。关键词:verl, 强化学习, LLM, RLHF, GRPO, PPO, 分布式训练, 大模型微调。

4.5

本地LLM微调Skill local-llm-fine-tuning

本地LLM微调技能专注于在本地硬件上使用LoRA、QLoRA等高效技术微调大型语言模型,如Llama、Mistral、Gemma。涉及数据集准备、模型配置、训练优化和评估,适用于人工智能、自然语言处理和大模型应用开发。关键词:本地LLM微调、LoRA、QLoRA、PEFT、Hugging Face、模型训练、AI微调。

4.5

HuggingFace分类器微调技能Skill huggingface-classifier

该技能专注于使用Hugging Face transformer模型进行意图分类任务的微调与推理。核心功能包括模型选择(如BERT、RoBERTa、DeBERTa)、配置训练流程、实现高效推理、设计标签体系以及模型评估与部署。适用于构建意图识别系统、实体抽取等自然语言处理应用。关键词:HuggingFace,Transformer模型微调,意图分类,NLP,模型训练,推理优化,标签映射,模型评估。

4.5

提示工程模式Skill prompt-engineering-patterns

此技能专注于通过高级提示工程技术优化大型语言模型(LLM)的性能、可靠性和可控性。它涉及Few-Shot学习、Chain-of-Thought提示、提示优化、模板系统等核心能力,适用于AI应用开发和LLM微调。关键词:提示工程、LLM优化、Few-Shot学习、Chain-of-Thought、Prompt模板、AI智能体。

4.5

LLM基准测试评估套件Skill evaluating-llms-harness

lm-evaluation-harness 是一个开源工具,用于评估大型语言模型(LLM)在多个标准学术基准上的性能,如MMLU、GSM8K、HumanEval等。它支持标准化提示和指标,帮助研究人员和开发者在模型比较、训练跟踪和学术报告中实现可重复的评估。关键词:大型语言模型,评估,基准测试,人工智能,机器学习,NLP,大模型,学术研究。

4.5

Unsloth快速微调指南Skill unsloth

Unsloth 技能提供专家指导,用于使用Unsloth工具进行快速模型微调,实现2-5倍的训练加速和50-80%的内存节省,支持LoRA和QLoRA优化技术。适用于Llama、Mistral、Gemma、Qwen等大型语言模型的微调。关键词:Unsloth, 快速微调, AI模型微调, 训练优化, 内存效率, LoRA, QLoRA, 大模型。

4.5

LLM量化与内存优化技术Skill quantizing-models-bitsandbytes

这个技能涉及使用bitsandbytes库对大型语言模型进行量化和内存优化,通过8位和4位量化减少GPU内存占用50-75%,精度损失小于1%,支持INT8、NF4、FP4格式、QLoRA微调和8位优化器,适用于有限内存环境下的模型加载、推理和训练,与HuggingFace Transformers集成。关键词:LLM量化、内存优化、bitsandbytes、QLoRA、深度学习、大模型微调、GPU加速、HuggingFace、AI模型优化。

4.5

add-domainSkill add-domain

向现有系统添加新的知识领域。通过对话推导出特定于领域的配置,生成领域文件夹、模板和词汇表,同时保留并连接到现有的架构。

4.5

Slime大模型强化学习微调框架Skill slime-rl-training

Slime 是一个专为大语言模型(LLM)设计的后训练强化学习框架,结合 Megatron-LM 进行高效训练和 SGLang 进行高吞吐量推理生成。它支持 GLM、Qwen3、DeepSeek 等多种模型,适用于自定义数据生成、多轮对话训练和智能体开发,关键词包括:大语言模型、强化学习、后训练、Megatron-LM、SGLang、微调、AI 智能体。

4.5

简单偏好优化(SimPO)Skill simpo-training

简单偏好优化 (SimPO) 是一种用于大型语言模型对齐的训练方法,无需参考模型,比DPO更高效,适用于AI模型的微调和优化,提升模型在偏好数据上的性能。关键词:SimPO, 偏好优化, LLM对齐, AI训练, 大模型微调, 深度学习, 机器学习。

4.5

提示架构师Skill prompt-architect

这个技能用于根据Claude 4.x标准,将用户需求转化为结构化、可执行的最佳实践提示。它基于Nate B. Jones的四个初学者动作(定义输出形状、提供上下文、建议静默计划、添加自检)和Anthropic的最佳实践,通过合同风格模板生成优化提示,提升AI模型交互效率和质量。适用于大模型微调、提示工程优化,关键词:提示架构、Claude 4.x、最佳实践、提示生成、AI模型优化、Nate B. Jones、大模型微调、提示工程、合同风格模板、自检验证。