人工智能 Skill技能列表

4.5

简单偏好优化(SimPO)Skill simpo-training

简单偏好优化 (SimPO) 是一种用于大型语言模型对齐的训练方法,无需参考模型,比DPO更高效,适用于AI模型的微调和优化,提升模型在偏好数据上的性能。关键词:SimPO, 偏好优化, LLM对齐, AI训练, 大模型微调, 深度学习, 机器学习。

4.5

OpenRLHFRLHF训练技能Skill openrlhf-training

该技能专注于使用OpenRLHF框架进行高性能强化学习人类反馈(RLHF)训练,支持PPO、GRPO、RLOO、DPO等多种算法,用于微调7B至70B+的大型语言模型。通过Ray分布式架构和vLLM推理加速,优化GPU资源使用,提高训练效率。关键词:RLHF、PPO、大模型微调、分布式训练、vLLM加速。

4.5

miles强化学习训练框架Skill miles-rl-training

miles是一个企业级强化学习框架,专注于训练大型混合专家模型,支持FP8和INT4量化训练,确保训练与推理的精确对齐,并通过推测性RL优化性能,适合生产环境使用。关键词: 强化学习, MoE模型, FP8训练, INT4量化, 训练-推理对齐, 推测性RL, 企业级AI框架。

4.5

GRPO/RL微调训练技能Skill grpo-rl-training

这个技能提供专家级指导,用于使用TRL库实现GRPO(组相对策略优化)来微调语言模型。它专注于推理能力和任务特定行为,通过自定义奖励函数优化模型输出,适用于需要结构化输出和可验证任务的应用,如数学、编码和事实核查。关键词:GRPO, 强化学习, TRL, 模型微调, 推理, 奖励函数, 结构化输出, 大语言模型

4.5

PerplexityAI搜索与研究技能Skill perplexity

这个技能涉及使用 Perplexity AI 工具进行高效网络搜索、智能问答和深度研究,适用于信息检索、知识整合和问题解答。关键词:AI搜索、网络研究、信息检索、Perplexity、问答系统。

4.5

并行代理协同技能Skill parallel-agents

并行代理协同技能是一个AI驱动的工具,用于协调多个专业代理进行代码分析、安全审计、开发任务等。它支持多代理并行工作、上下文传递和统一报告生成。关键词:并行代理,AI协同,代码审计,安全分析,软件开发,多代理系统,AI智能体。

4.5

HQQ模型量化技术Skill hqq-quantization

HQQ(Half-Quadratic Quantization)是一种先进的AI模型量化技术,专为大语言模型设计,支持无校准数据的4/3/2-bit精度权重压缩,实现快速模型优化和内存效率提升,适用于AI推理加速、模型部署、vLLM和HuggingFace框架集成,以及LoRA微调。关键词:量化、模型压缩、无校准、AI推理、大模型微调、内存优化。

4.5

GPTQ量化Skill gptq

GPTQ是一种后训练量化技术,用于大型语言模型,通过4位量化实现4倍内存减少和3-4倍推理加速,精度损失低于2%。它易于与Hugging Face Transformers和PEFT集成,支持QLoRA微调,适用于在有限GPU资源上部署大模型。关键词:量化,大型语言模型,内存优化,推理加速,4位量化,GPTQ,大模型部署,AI优化。

4.5

GGUF量化技术Skill gguf-quantization

GGUF量化技术是一种AI模型压缩和部署技能,使用GGUF格式和llama.cpp工具对大型语言模型进行2-8位量化,以实现高效的CPU、GPU和Apple Silicon硬件上的推理部署。它支持灵活的量化选项,用于优化模型大小、推理速度和内存使用,适用于本地AI工具、消费硬件和云部署场景。关键词:GGUF,量化,AI模型,llama.cpp,CPU推理,GPU加速,模型压缩,本地部署。

4.5

FlashAttention优化Skill optimizing-attention-flash

Flash Attention优化是一种用于Transformer模型注意力机制的技术,通过IO感知分块和重计算,实现2-4倍速度提升和10-20倍内存减少。适用于训练和推理长序列(>512 tokens)的Transformer模型,解决GPU内存问题,并支持PyTorch原生、高级功能如滑动窗口注意力和H100 FP8优化。关键词:Flash Attention,Transformer优化,内存效率,速度提升,深度学习,GPU加速,注意力机制。

4.5

LLM量化与内存优化技术Skill quantizing-models-bitsandbytes

这个技能涉及使用bitsandbytes库对大型语言模型进行量化和内存优化,通过8位和4位量化减少GPU内存占用50-75%,精度损失小于1%,支持INT8、NF4、FP4格式、QLoRA微调和8位优化器,适用于有限内存环境下的模型加载、推理和训练,与HuggingFace Transformers集成。关键词:LLM量化、内存优化、bitsandbytes、QLoRA、深度学习、大模型微调、GPU加速、HuggingFace、AI模型优化。

4.5

AWQ量化技术Skill awq-quantization

AWQ(激活感知权重量化)是一种先进的4位量化技术,专为大型语言模型(LLM)设计,通过分析激活模式来保护关键权重,实现高达3倍的推理加速,同时保持最小精度损失。适用于AI模型部署、大模型微调、生产推理加速等场景,关键词包括AWQ、量化、LLM压缩、推理优化、AI部署。