深度学习 - SkillsBot AI Skill技能库

cutlass-tritonSkill cutlass-triton

cutlass-triton是一个专门用于生成优化GPU内核的技能，使用CUTLASS和Triton实现高性能计算。

TensorFlow物理机器学习Skill tensorflow-physics-ml

该技能专门用于将TensorFlow机器学习技术应用于物理科学领域，核心功能包括构建物理信息神经网络（PINN）、训练神经网络势能（NNP）、使用图神经网络处理分子系统等。关键词：TensorFlow物理应用，物理信息神经网络，神经网络势能，图神经网络，科学机器学习，PINN，NNP，GNN，深度学习物理建模。

单细胞深度学习分析技能Skill bio-single-cell

这个技能提供基于scvi-tools和scverse生态系统的单细胞深度学习方法，包括数据整合、批处理校正、ATAC-seq分析、多模态分析、QC质量控制等生物信息学任务。适用于使用深度学习进行单细胞数据分析。关键词：单细胞分析、深度学习、scvi-tools、生物信息学、数据整合、QC、质量控制、批处理校正。

深度化学机器学习工具包Skill deepchem

DeepChem 是一个用于化学、材料科学和生物学的 Python 机器学习库，支持分子属性预测、药物发现、图神经网络等，关键词包括分子机器学习、ADMET 预测、GNN、药物发现、深度学习。

分布式训练（Ray/多节点）Skill DistributedTraining(Ray/Multi-node)(Core)

本技能专注于使用Ray框架在多台机器或多个GPU上进行大规模机器学习模型训练的实践方法。核心内容包括数据并行与模型并行的策略选择、Ray Train/Tune库的应用模式，以及确保训练过程可复现、可追踪、可恢复的关键操作规范。关键词：分布式训练，Ray框架，多节点训练，数据并行，模型并行，MLflow，可复现性，检查点，故障恢复，机器学习扩展。

PyTorchLightning深度学习训练框架Skill pytorch-lightning

PyTorch Lightning 是一个高级 PyTorch 框架，用于简化深度学习训练过程。它提供 Trainer 类来自动处理 GPU/TPU 切换、分布式训练（如 DDP、FSDP、DeepSpeed）、混合精度、梯度积累、检查点保存和日志记录，减少样板代码，使训练循环更干净、可扩展。适用于机器学习、深度学习项目，提高开发效率和代码可维护性，支持从研究到生产的环境。关键词：PyTorch Lightning, 深度学习, 训练框架, 分布式训练, 自动训练, PyTorch, 回调系统, 最佳实践。

扩散对接模型Skill diffdock

扩散对接模型（DiffDock）是一种基于扩散模型的人工智能工具，用于分子对接，主要预测蛋白质与小分子配体的结合姿态，生成置信分数评估预测可靠性，支持虚拟筛选和批量处理，适用于结构基础药物设计、化学研究和药物研发。关键词包括：分子对接、扩散模型、蛋白质、配体、药物设计、虚拟筛选、深度学习、生物医药、AI应用。

Mamba架构Skill mamba-architecture

Mamba是一种高效的选择性状态空间模型（SSM）架构，专为序列建模设计，如自然语言处理（NLP）。它具有线性复杂度O(n)，相比Transformer的O(n²)，推理速度快5倍，支持长达百万令牌的序列，无需KV缓存，内存使用低。适用于长上下文任务、流式应用和高效推理场景。关键词：Mamba, 状态空间模型, SSM, 线性复杂度, 高效推理, NLP, 深度学习, AI模型架构。

稀疏自编码器训练与分析技能Skill sparse-autoencoder-training

SAELens技能用于训练和分析稀疏自编码器，以将密集的神经网络激活分解为稀疏、可解释的特征，适用于机制可解释性研究、特征发现和叠加分析。关键词：稀疏自编码器、SAE、机制可解释性、特征发现、神经网络激活、深度学习、NLP、人工智能。

FlashAttention优化Skill optimizing-attention-flash

Flash Attention优化是一种用于Transformer模型注意力机制的技术，通过IO感知分块和重计算，实现2-4倍速度提升和10-20倍内存减少。适用于训练和推理长序列（>512 tokens）的Transformer模型，解决GPU内存问题，并支持PyTorch原生、高级功能如滑动窗口注意力和H100 FP8优化。关键词：Flash Attention，Transformer优化，内存效率，速度提升，深度学习，GPU加速，注意力机制。

TensorFlow神经网络构建与训练Skill tensorflow-neural-networks

这个技能专注于使用TensorFlow框架进行神经网络的构建和训练，覆盖从入门到高级的模型开发，包括图像分类、文本处理等应用。关键词：TensorFlow, 神经网络, 深度学习, Keras, 自定义层, 模型训练, AI开发, 机器学习, 计算机视觉, 自然语言处理。

TensorRT模型优化与部署Skill tensorrt-optimization

TensorRT模型优化与部署技能是一个专注于利用NVIDIA TensorRT技术，将深度学习模型（如ONNX格式）高效转换为优化后的推理引擎的专业工具。它支持FP16、INT8等多种精度模式，提供动态形状处理、内核融合分析、自定义插件开发以及详细的性能分析功能。通过该技能，开发者可以显著提升模型在GPU上的推理速度与效率，降低延迟，实现高性能AI应用部署。关键词：TensorRT，模型优化，推理加速，INT8校准，动态形状，CUDA，深度学习部署，性能分析。