大模型微调 Skill技能列表
LLM基准测试评估套件Skill evaluating-llms-harness
lm-evaluation-harness 是一个开源工具,用于评估大型语言模型(LLM)在多个标准学术基准上的性能,如MMLU、GSM8K、HumanEval等。它支持标准化提示和指标,帮助研究人员和开发者在模型比较、训练跟踪和学术报告中实现可重复的评估。关键词:大型语言模型,评估,基准测试,人工智能,机器学习,NLP,大模型,学术研究。
verl强化学习训练技能Skill verl-rl-training
这个技能提供了使用verl库进行大型语言模型强化学习训练的全面指导,包括RLHF、GRPO、PPO等多种算法,支持分布式训练、多后端切换,适用于数学推理、视觉语言模型等场景。关键词:verl, 强化学习, LLM, RLHF, GRPO, PPO, 分布式训练, 大模型微调。
LocalLLMDeploymentSkill LocalLLMDeployment
这项技能涉及在本地环境中部署和优化大型语言模型(LLMs),包括使用Ollama、vLLM和llama.cpp等工具进行模型服务的设置、性能调优、量化策略和监控。关键词包括:Docker容器化、GPU硬件优化、Python编程、模型量化、张量并行、流水线并行。
本地LLM微调Skill local-llm-fine-tuning
本地LLM微调技能专注于在本地硬件上使用LoRA、QLoRA等高效技术微调大型语言模型,如Llama、Mistral、Gemma。涉及数据集准备、模型配置、训练优化和评估,适用于人工智能、自然语言处理和大模型应用开发。关键词:本地LLM微调、LoRA、QLoRA、PEFT、Hugging Face、模型训练、AI微调。
参数高效微调(PEFT)Skill peft-fine-tuning
参数高效微调(PEFT)是一种技术,用于对大语言模型(LLM)进行微调,通过训练少量参数(如少于1%)来适应新任务,使用LoRA、QLoRA等方法,适用于GPU内存有限的情况,支持多适配器服务。关键词:PEFT, LoRA, QLoRA, 参数高效微调, 大模型微调, 人工智能, 机器学习。
知识蒸馏Skill knowledge-distillation
知识蒸馏是一种压缩大型语言模型的技术,通过从大型教师模型向小型学生模型传递知识,以在部署时保持高性能并降低推理成本。适用于模型压缩、能力迁移、成本优化和专业模型创建等场景。关键词:知识蒸馏,模型压缩,LLM,教师-学生模型,温度缩放,软目标,反向KLD,大语言模型,人工智能,深度学习。
提示架构师Skill prompt-architect
这个技能用于根据Claude 4.x标准,将用户需求转化为结构化、可执行的最佳实践提示。它基于Nate B. Jones的四个初学者动作(定义输出形状、提供上下文、建议静默计划、添加自检)和Anthropic的最佳实践,通过合同风格模板生成优化提示,提升AI模型交互效率和质量。适用于大模型微调、提示工程优化,关键词:提示架构、Claude 4.x、最佳实践、提示生成、AI模型优化、Nate B. Jones、大模型微调、提示工程、合同风格模板、自检验证。
宪法人工智能技能Skill constitutional-ai
宪法人工智能技能是一种用于AI安全对齐的技术,通过自我批判和AI反馈训练模型变得无害,无需人类标签。它涉及监督学习阶段的自我批判和修订,以及强化学习阶段的RLAIF,旨在提高AI的无害性、透明度和可扩展性。关键词:AI安全、宪法AI、RLAIF、自我批判、强化学习、无害训练、安全对齐。
add-domainSkill add-domain
向现有系统添加新的知识领域。通过对话推导出特定于领域的配置,生成领域文件夹、模板和词汇表,同时保留并连接到现有的架构。
提示工程模式Skill prompt-engineering-patterns
此技能专注于通过高级提示工程技术优化大型语言模型(LLM)的性能、可靠性和可控性。它涉及Few-Shot学习、Chain-of-Thought提示、提示优化、模板系统等核心能力,适用于AI应用开发和LLM微调。关键词:提示工程、LLM优化、Few-Shot学习、Chain-of-Thought、Prompt模板、AI智能体。
Slime大模型强化学习微调框架Skill slime-rl-training
Slime 是一个专为大语言模型(LLM)设计的后训练强化学习框架,结合 Megatron-LM 进行高效训练和 SGLang 进行高吞吐量推理生成。它支持 GLM、Qwen3、DeepSeek 等多种模型,适用于自定义数据生成、多轮对话训练和智能体开发,关键词包括:大语言模型、强化学习、后训练、Megatron-LM、SGLang、微调、AI 智能体。
Unsloth快速微调指南Skill unsloth
Unsloth 技能提供专家指导,用于使用Unsloth工具进行快速模型微调,实现2-5倍的训练加速和50-80%的内存节省,支持LoRA和QLoRA优化技术。适用于Llama、Mistral、Gemma、Qwen等大型语言模型的微调。关键词:Unsloth, 快速微调, AI模型微调, 训练优化, 内存效率, LoRA, QLoRA, 大模型。