搜索结果: "量化"

4.5

电子表格技能Skill "spreadsheet"

这个技能用于使用Python库(如openpyxl和pandas)创建、编辑、分析和可视化电子表格文件(如.xlsx, .csv, .tsv),包括处理公式、引用、格式化和图表。适用于数据分析、金融建模、报表生成等场景,提高工作效率和准确性。关键词:电子表格处理、Python编程、数据分析、Excel自动化、金融建模、数据可视化、量化金融。

4.5

技能安装器Skill skill-installer

这个技能是一个Codex技能自动化安装工具,用于安装和管理Codex技能。它支持从openai/skills的精选列表或指定的GitHub仓库(包括私有仓库)安装技能,提供脚本化操作和多种安装方法,如直接下载或git稀疏检出。关键词:技能安装、Codex技能、GitHub安装、自动化部署、DevOps工具、量化交易辅助。

4.5

MCP服务器构建技能Skill mcp-builder

这是一个用于创建高质量MCP(模型上下文协议)服务器的技能,帮助开发者构建工具使大型语言模型(LLM)能与外部服务交互。关键词:MCP、服务器开发、LLM集成、API工具、模型上下文协议、人工智能代理、量化交易数据分析。

4.5

前端开发模式Skill frontend-patterns

前端开发模式技能专注于使用React和Next.js框架,涵盖组件设计、状态管理、性能优化、UI最佳实践等,帮助开发者构建高性能、可维护的前端应用。关键词:前端开发、React、Next.js、状态管理、性能优化、UI设计、组件模式、量化交易应用。

4.5

miles强化学习训练框架Skill miles-rl-training

miles是一个企业级强化学习框架,专注于训练大型混合专家模型,支持FP8和INT4量化训练,确保训练与推理的精确对齐,并通过推测性RL优化性能,适合生产环境使用。关键词: 强化学习, MoE模型, FP8训练, INT4量化, 训练-推理对齐, 推测性RL, 企业级AI框架。

4.5

HQQ模型量化技术Skill hqq-quantization

HQQ(Half-Quadratic Quantization)是一种先进的AI模型量化技术,专为大语言模型设计,支持无校准数据的4/3/2-bit精度权重压缩,实现快速模型优化和内存效率提升,适用于AI推理加速、模型部署、vLLM和HuggingFace框架集成,以及LoRA微调。关键词:量化、模型压缩、无校准、AI推理、大模型微调、内存优化。

4.5

GPTQ量化Skill gptq

GPTQ是一种后训练量化技术,用于大型语言模型,通过4位量化实现4倍内存减少和3-4倍推理加速,精度损失低于2%。它易于与Hugging Face Transformers和PEFT集成,支持QLoRA微调,适用于在有限GPU资源上部署大模型。关键词:量化,大型语言模型,内存优化,推理加速,4位量化,GPTQ,大模型部署,AI优化。

4.5

GGUF量化技术Skill gguf-quantization

GGUF量化技术是一种AI模型压缩和部署技能,使用GGUF格式和llama.cpp工具对大型语言模型进行2-8位量化,以实现高效的CPU、GPU和Apple Silicon硬件上的推理部署。它支持灵活的量化选项,用于优化模型大小、推理速度和内存使用,适用于本地AI工具、消费硬件和云部署场景。关键词:GGUF,量化,AI模型,llama.cpp,CPU推理,GPU加速,模型压缩,本地部署。

4.5

LLM量化与内存优化技术Skill quantizing-models-bitsandbytes

这个技能涉及使用bitsandbytes库对大型语言模型进行量化和内存优化,通过8位和4位量化减少GPU内存占用50-75%,精度损失小于1%,支持INT8、NF4、FP4格式、QLoRA微调和8位优化器,适用于有限内存环境下的模型加载、推理和训练,与HuggingFace Transformers集成。关键词:LLM量化、内存优化、bitsandbytes、QLoRA、深度学习、大模型微调、GPU加速、HuggingFace、AI模型优化。

4.5

AWQ量化技术Skill awq-quantization

AWQ(激活感知权重量化)是一种先进的4位量化技术,专为大型语言模型(LLM)设计,通过分析激活模式来保护关键权重,实现高达3倍的推理加速,同时保持最小精度损失。适用于AI模型部署、大模型微调、生产推理加速等场景,关键词包括AWQ、量化、LLM压缩、推理优化、AI部署。

4.5

vLLM高性能LLM推理服务Skill serving-llms-vllm

vLLM是一个用于部署和优化大语言模型(LLM)推理的开源框架,支持高吞吐量、低延迟推理,通过PagedAttention和连续批处理技术提升效率,兼容OpenAI API,并适用于量化模型(如AWQ、GPTQ、FP8)和GPU内存受限环境。关键词:vLLM,大语言模型,推理服务,PagedAttention,连续批处理,高吞吐量,量化模型,AI部署,OpenAI兼容,LLM推理

4.5

TensorRT-LLM推理优化Skill tensorrt-llm

TensorRT-LLM是一个基于NVIDIA TensorRT的开源库,专用于优化大型语言模型(LLM)的推理性能。它针对NVIDIA GPU(如A100/H100)进行生产部署,提供高吞吐量、低延迟、支持量化(如FP8/INT4)、动态批处理和跨GPU扩展,适用于实时AI应用和高效模型服务。关键词:TensorRT-LLM, NVIDIA GPU, LLM推理优化, 高吞吐量, 低延迟, 量化模型, 动态批处理, 多GPU部署, AI应用部署。