深度学习 Skill技能列表

4.5

cublas-cudnnSkill cublas-cudnn

cublas-cudnn 是一个专注于 NVIDIA GPU 加速数学库集成的专业技能。它提供专家级能力,用于高效配置和调用 cuBLAS(基础线性代数子程序库)和 cuDNN(深度神经网络库)。核心功能包括:配置 cuBLAS 张量核心操作以最大化计算性能,生成优化的 GEMM(通用矩阵乘法)调用,集成 cuDNN 的卷积、池化、归一化等深度学习层,智能处理算法选择和基准测试,管理 GPU 工作空间内存,并全面支持 FP16、TF32、INT8 等混合精度操作以提升训练和推理速度。该技能是构建高性能 AI 推理、科学计算和自定义 CUDA 算子的关键工具。 关键词:NVIDIA GPU加速,cuBLAS,cuDNN,张量核心,矩阵乘法GEMM,深度学习卷积,混合精度,CUDA编程,高性能计算,AI推理优化

4.5

TensorFlow物理机器学习Skill tensorflow-physics-ml

该技能专门用于将TensorFlow机器学习技术应用于物理科学领域,核心功能包括构建物理信息神经网络(PINN)、训练神经网络势能(NNP)、使用图神经网络处理分子系统等。关键词:TensorFlow物理应用,物理信息神经网络,神经网络势能,图神经网络,科学机器学习,PINN,NNP,GNN,深度学习物理建模。

4.5

cutlass-tritonSkill cutlass-triton

cutlass-triton是一个专门用于生成优化GPU内核的技能,使用CUTLASS和Triton实现高性能计算。

4.5

深度化学机器学习工具包Skill deepchem

DeepChem 是一个用于化学、材料科学和生物学的 Python 机器学习库,支持分子属性预测、药物发现、图神经网络等,关键词包括分子机器学习、ADMET 预测、GNN、药物发现、深度学习。

4.5

分布式训练(Ray/多节点)Skill DistributedTraining(Ray/Multi-node)(Core)

本技能专注于使用Ray框架在多台机器或多个GPU上进行大规模机器学习模型训练的实践方法。核心内容包括数据并行与模型并行的策略选择、Ray Train/Tune库的应用模式,以及确保训练过程可复现、可追踪、可恢复的关键操作规范。关键词:分布式训练,Ray框架,多节点训练,数据并行,模型并行,MLflow,可复现性,检查点,故障恢复,机器学习扩展。

4.5

TensorRT模型优化与部署Skill tensorrt-optimization

TensorRT模型优化与部署技能是一个专注于利用NVIDIA TensorRT技术,将深度学习模型(如ONNX格式)高效转换为优化后的推理引擎的专业工具。它支持FP16、INT8等多种精度模式,提供动态形状处理、内核融合分析、自定义插件开发以及详细的性能分析功能。通过该技能,开发者可以显著提升模型在GPU上的推理速度与效率,降低延迟,实现高性能AI应用部署。关键词:TensorRT,模型优化,推理加速,INT8校准,动态形状,CUDA,深度学习部署,性能分析。

4.5

PyTorchFSDP分布式训练技能Skill pytorch-fsdp

这个技能专为PyTorch FSDP(全分片数据并行训练)设计,提供参数分片、混合精度、CPU卸载和FSDP2等功能的详细指导,适用于大规模深度学习模型的分布式训练。关键词:PyTorch, FSDP, 分布式训练, 深度学习, 参数分片, 混合精度, CPU卸载, 人工智能, 机器学习。

4.5

PyTorch图神经网络库(PyG)Skill torch-geometric

PyTorch Geometric (PyG) 是一个基于 PyTorch 的图神经网络库,用于开发和训练图神经网络,适用于节点分类、图分类、链接预测、分子性质预测、社交网络分析等应用。关键词:图神经网络,深度学习,PyTorch,GNN,节点分类,图分类,链接预测,分子预测,社交网络分析,异构图,几何深度学习,GCN,GAT,GraphSAGE。

4.5

PyTorchLightning深度学习训练框架Skill pytorch-lightning

PyTorch Lightning 是一个高级 PyTorch 框架,用于简化深度学习训练过程。它提供 Trainer 类来自动处理 GPU/TPU 切换、分布式训练(如 DDP、FSDP、DeepSpeed)、混合精度、梯度积累、检查点保存和日志记录,减少样板代码,使训练循环更干净、可扩展。适用于机器学习、深度学习项目,提高开发效率和代码可维护性,支持从研究到生产的环境。关键词:PyTorch Lightning, 深度学习, 训练框架, 分布式训练, 自动训练, PyTorch, 回调系统, 最佳实践。

4.5

对称性群识别器Skill symmetry-group-identifier

这个技能用于将识别的对称性映射到数学群,为神经网络架构设计提供数学基础。它帮助用户识别离散或连续对称性,匹配到具体群如循环群、二面体群、李群等,并验证群属性。关键词:对称性识别、群论映射、数学群、深度学习架构、神经网络对称性、SO(3)、SE(3)、量化交易分析(扩展应用)。

4.5

扩散对接模型Skill diffdock

扩散对接模型(DiffDock)是一种基于扩散模型的人工智能工具,用于分子对接,主要预测蛋白质与小分子配体的结合姿态,生成置信分数评估预测可靠性,支持虚拟筛选和批量处理,适用于结构基础药物设计、化学研究和药物研发。关键词包括:分子对接、扩散模型、蛋白质、配体、药物设计、虚拟筛选、深度学习、生物医药、AI应用。

4.5

Torchtitan分布式LLM预训练Skill distributed-llm-pretraining-torchtitan

Torchtitan是一个用于大规模语言模型(LLM)预训练的PyTorch原生平台,支持4D并行(FSDP2、TP、PP、CP)、Float8训练和分布式检查点,适用于从8到512+ GPU的Llama、DeepSeek等模型的预训练,提供高效的训练速度和可扩展性。关键词:分布式训练、LLM预训练、PyTorch、Torchtitan、4D并行、Float8、深度学习、人工智能。