深度学习 Skill技能列表

4.5

Torchtitan分布式LLM预训练Skill distributed-llm-pretraining-torchtitan

Torchtitan是一个用于大规模语言模型(LLM)预训练的PyTorch原生平台,支持4D并行(FSDP2、TP、PP、CP)、Float8训练和分布式检查点,适用于从8到512+ GPU的Llama、DeepSeek等模型的预训练,提供高效的训练速度和可扩展性。关键词:分布式训练、LLM预训练、PyTorch、Torchtitan、4D并行、Float8、深度学习、人工智能。

4.5

Mamba架构Skill mamba-architecture

Mamba是一种高效的选择性状态空间模型(SSM)架构,专为序列建模设计,如自然语言处理(NLP)。它具有线性复杂度O(n),相比Transformer的O(n²),推理速度快5倍,支持长达百万令牌的序列,无需KV缓存,内存使用低。适用于长上下文任务、流式应用和高效推理场景。关键词:Mamba, 状态空间模型, SSM, 线性复杂度, 高效推理, NLP, 深度学习, AI模型架构。

4.5

MoE训练Skill moe-training

此技能专注于训练Mixture of Experts(专家混合)模型,适用于大规模深度学习模型的开发,如Mixtral 8x7B和DeepSeek-V3。它涵盖了MoE架构、路由机制、负载平衡和专家并行等技术,旨在以较低的计算成本训练高容量模型。关键词:MoE, 专家混合模型, 深度学习, 大模型训练, 稀疏架构, 计算优化。

4.5

稀疏自编码器训练与分析技能Skill sparse-autoencoder-training

SAELens技能用于训练和分析稀疏自编码器,以将密集的神经网络激活分解为稀疏、可解释的特征,适用于机制可解释性研究、特征发现和叠加分析。关键词:稀疏自编码器、SAE、机制可解释性、特征发现、神经网络激活、深度学习、NLP、人工智能。

4.5

FlashAttention优化Skill optimizing-attention-flash

Flash Attention优化是一种用于Transformer模型注意力机制的技术,通过IO感知分块和重计算,实现2-4倍速度提升和10-20倍内存减少。适用于训练和推理长序列(>512 tokens)的Transformer模型,解决GPU内存问题,并支持PyTorch原生、高级功能如滑动窗口注意力和H100 FP8优化。关键词:Flash Attention,Transformer优化,内存效率,速度提升,深度学习,GPU加速,注意力机制。

4.5

等变架构设计师Skill equivariant-architecture-designer

这个技能用于设计尊重对称性群的神经网络架构,提供等变层、G-CNN、e3nn等技术的架构模式和实现指导,适用于图像处理、点云、图形等领域的深度学习任务。关键词:等变神经网络、对称性群、架构设计、深度学习、AI应用。

4.5

PyTorch几何库Skill torch-geometric

这个技能是用于开发和训练图神经网络(GNN)的Python库,基于PyTorch。它支持节点分类、图分类、链接预测、异构图处理、分子属性预测等应用,适用于社交网络分析、引用网络、3D几何数据等场景,是几何深度学习的强大工具。关键词:图神经网络、深度学习、PyTorch、GCN、GAT、GraphSAGE、节点分类、图分类、链接预测、分子属性预测、异构图。

4.5

TensorFlow模型部署Skill tensorflow-model-deployment

该技能用于将训练好的TensorFlow模型部署到生产环境,涵盖模型导出为SavedModel格式、转换为TensorFlow Lite用于移动和边缘设备、应用量化技术优化性能和大小、设置服务基础设施如TensorFlow Serving、以及进行模型验证和测试。关键词:TensorFlow, 模型部署, SavedModel, TensorFlow Lite, 量化, 优化, AI应用, 深度学习, 云服务

4.5

scvi-toolsSkill scvi-tools

scvi-tools 是一个用于单细胞分析的深度学习框架,提供多种模型如 scVI、scANVI、totalVI、PeakVI、MultiVI、DestVI、veloVI 和 sysVI,用于数据集成、批校正、多模态分析、参考映射、RNA 速度分析等。关键词:深度学习、单细胞分析、scvi-tools、数据集成、批校正、多模态分析、参考映射、RNA速度分析。

4.5

DeepSpeed分布式训练技能Skill deepspeed

DeepSpeed技能提供对微软DeepSpeed框架的专家指导,专注于分布式深度学习训练优化,包括ZeRO技术、管道并行、混合精度训练和通信优化,适用于大规模模型训练、性能调优和内存效率提升。关键词:分布式训练、深度学习、ZeRO优化、混合精度、大规模模型训练、DeepSpeed框架、AI训练加速、GPU内存优化。

4.5

nnsight远程神经网络解释工具Skill nnsight-remote-interpretability

nnsight是一个用于解释和操作神经网络内部的工具,支持通过NDIF远程执行,适用于大规模模型的可解释性实验。它允许研究人员在任何PyTorch模型上运行相同代码,无需本地GPU资源。关键词:神经网络解释,远程执行,nnsight,NDIF,大模型分析,PyTorch模型,深度学习可解释性。

4.5

HuggingFace加速器Skill huggingface-accelerate

HuggingFace Accelerate 是一个用于简化分布式训练的Python库,只需添加四行代码即可为PyTorch脚本提供分布式支持,支持DeepSpeed、FSDP等多种后端,自动处理设备放置和混合精度训练,是HuggingFace生态系统中的标准工具,适用于快速原型开发和统一API。关键词:分布式训练、PyTorch、HuggingFace、加速器、DeepSpeed、FSDP、混合精度、AI训练、深度学习。