搜索结果: "量化"

4.5

前端开发模式Skill frontend-patterns

前端开发模式技能专注于使用React和Next.js框架,涵盖组件设计、状态管理、性能优化、UI最佳实践等,帮助开发者构建高性能、可维护的前端应用。关键词:前端开发、React、Next.js、状态管理、性能优化、UI设计、组件模式、量化交易应用。

4.5

miles强化学习训练框架Skill miles-rl-training

miles是一个企业级强化学习框架,专注于训练大型混合专家模型,支持FP8和INT4量化训练,确保训练与推理的精确对齐,并通过推测性RL优化性能,适合生产环境使用。关键词: 强化学习, MoE模型, FP8训练, INT4量化, 训练-推理对齐, 推测性RL, 企业级AI框架。

4.5

HQQ模型量化技术Skill hqq-quantization

HQQ(Half-Quadratic Quantization)是一种先进的AI模型量化技术,专为大语言模型设计,支持无校准数据的4/3/2-bit精度权重压缩,实现快速模型优化和内存效率提升,适用于AI推理加速、模型部署、vLLM和HuggingFace框架集成,以及LoRA微调。关键词:量化、模型压缩、无校准、AI推理、大模型微调、内存优化。

4.5

GPTQ量化Skill gptq

GPTQ是一种后训练量化技术,用于大型语言模型,通过4位量化实现4倍内存减少和3-4倍推理加速,精度损失低于2%。它易于与Hugging Face Transformers和PEFT集成,支持QLoRA微调,适用于在有限GPU资源上部署大模型。关键词:量化,大型语言模型,内存优化,推理加速,4位量化,GPTQ,大模型部署,AI优化。

4.5

GGUF量化技术Skill gguf-quantization

GGUF量化技术是一种AI模型压缩和部署技能,使用GGUF格式和llama.cpp工具对大型语言模型进行2-8位量化,以实现高效的CPU、GPU和Apple Silicon硬件上的推理部署。它支持灵活的量化选项,用于优化模型大小、推理速度和内存使用,适用于本地AI工具、消费硬件和云部署场景。关键词:GGUF,量化,AI模型,llama.cpp,CPU推理,GPU加速,模型压缩,本地部署。

4.5

LLM量化与内存优化技术Skill quantizing-models-bitsandbytes

这个技能涉及使用bitsandbytes库对大型语言模型进行量化和内存优化,通过8位和4位量化减少GPU内存占用50-75%,精度损失小于1%,支持INT8、NF4、FP4格式、QLoRA微调和8位优化器,适用于有限内存环境下的模型加载、推理和训练,与HuggingFace Transformers集成。关键词:LLM量化、内存优化、bitsandbytes、QLoRA、深度学习、大模型微调、GPU加速、HuggingFace、AI模型优化。

4.5

AWQ量化技术Skill awq-quantization

AWQ(激活感知权重量化)是一种先进的4位量化技术,专为大型语言模型(LLM)设计,通过分析激活模式来保护关键权重,实现高达3倍的推理加速,同时保持最小精度损失。适用于AI模型部署、大模型微调、生产推理加速等场景,关键词包括AWQ、量化、LLM压缩、推理优化、AI部署。

4.5

vLLM高性能LLM推理服务Skill serving-llms-vllm

vLLM是一个用于部署和优化大语言模型(LLM)推理的开源框架,支持高吞吐量、低延迟推理,通过PagedAttention和连续批处理技术提升效率,兼容OpenAI API,并适用于量化模型(如AWQ、GPTQ、FP8)和GPU内存受限环境。关键词:vLLM,大语言模型,推理服务,PagedAttention,连续批处理,高吞吐量,量化模型,AI部署,OpenAI兼容,LLM推理

4.5

TensorRT-LLM推理优化Skill tensorrt-llm

TensorRT-LLM是一个基于NVIDIA TensorRT的开源库,专用于优化大型语言模型(LLM)的推理性能。它针对NVIDIA GPU(如A100/H100)进行生产部署,提供高吞吐量、低延迟、支持量化(如FP8/INT4)、动态批处理和跨GPU扩展,适用于实时AI应用和高效模型服务。关键词:TensorRT-LLM, NVIDIA GPU, LLM推理优化, 高吞吐量, 低延迟, 量化模型, 动态批处理, 多GPU部署, AI应用部署。

4.5

llama-cpp推理引擎Skill llama-cpp

llama-cpp是一个开源工具,用于在CPU、Apple Silicon和消费级GPU上高效运行大型语言模型推理,特别适用于边缘部署和没有NVIDIA硬件的环境。它支持GGUF量化格式,以减少内存使用并提高速度,优化用于苹果设备、AMD/Intel GPU和嵌入式系统。关键词包括:LLM推理、CPU推理、GGUF量化、边缘AI、非NVIDIA硬件、Apple Silicon、模型部署。

4.5

MultiversXSDK-Go交易构建技能Skill mvx_sdk_go_builders

本技能专注于使用MultiversX SDK-Go中的构建器工具,进行区块链交易的构建、签名和管理。涵盖基础交易、智能合约交互、ESDT令牌传输和中继交易等场景,适用于区块链开发者、量化交易专家和DApp开发者。关键词包括:MultiversX, Go SDK, 交易构建, 签名, 区块链, 智能合约, ESDT, 中继交易, 量化金融。

4.5

执行因果分析Skill performing-causal-analysis

执行因果分析技能利用CausalPy库进行因果模型拟合和影响估计,支持差异中的差异(DiD)、中断时间序列(ITS)、合成控制(SC)和断点回归(RD)等分析方法,适用于数据科学、经济学和量化金融领域,帮助用户从数据中提取因果洞察并进行可视化展示。关键词:因果分析、CausalPy、DiD、ITS、SC、RD、数据科学、量化金融、预测建模、数据分析。