深度学习 Skill技能列表

4.5

PyTorch模型训练器Skill pytorch-trainer

PyTorch模型训练器是一个专注于深度学习模型训练的专业技能工具。它提供完整的自定义训练循环、高效的梯度管理(包括裁剪和累积)、GPU优化加速以及混合精度训练支持。该工具集成了学习率调度、检查点管理、多GPU分布式训练和早停机制,并能与主流实验跟踪系统无缝对接。适用于机器学习工程师、AI研究员进行模型训练、AutoML流水线编排和分布式训练任务。关键词:PyTorch训练,深度学习,模型训练,GPU优化,梯度管理,混合精度,分布式训练,AutoML。

4.5

TensorFlow模型训练器Skill tensorflow-trainer

TensorFlow模型训练器是一个用于自动化深度学习模型训练、评估和部署的专业技能。它支持Keras API和自定义训练循环,集成了分布式训练策略、TensorBoard可视化、回调函数管理以及生产环境模型导出功能。该技能能够处理从数据加载、模型训练到SavedModel/TFLite导出的完整机器学习流水线,适用于大规模分布式训练和边缘设备部署场景。关键词:TensorFlow训练,Keras模型,分布式训练,TensorBoard,模型导出,深度学习,机器学习,AI模型部署,回调函数,混合精度训练。

4.5

CUDA图捕获与优化Skill cuda-graphs

CUDA图捕获与优化技能,专注于减少内核启动开销和优化执行模式,通过图化工作流程提升AI推理和批处理效率。

4.5

稳定基线3Skill stable-baselines3

稳定基线3 是一个基于 PyTorch 的强化学习库,提供可靠的强化学习算法实现(如 PPO、SAC、DQN),支持快速训练 RL 代理、创建自定义环境、实现回调函数和优化工作流程。关键词:强化学习、稳定基线3、PyTorch、RL 算法、训练代理、自定义环境、回调函数、向量化环境、深度强化学习、AI 应用。

4.5

单细胞基因组学深度学习工具Skill scvi-tools

scvi-tools是一个基于Python的框架,专门用于单细胞基因组学数据的深度生成模型分析。它支持批效应校正、多模态数据集成、差异表达分析等,适用于单细胞RNA-seq、ATAC-seq、空间转录组学等多种数据类型。关键词:单细胞基因组学、深度学习、变分推断、数据分析、批效应校正。

4.5

TensorFlow物理机器学习Skill tensorflow-physics-ml

该技能专门用于将TensorFlow机器学习技术应用于物理科学领域,核心功能包括构建物理信息神经网络(PINN)、训练神经网络势能(NNP)、使用图神经网络处理分子系统等。关键词:TensorFlow物理应用,物理信息神经网络,神经网络势能,图神经网络,科学机器学习,PINN,NNP,GNN,深度学习物理建模。

4.5

cublas-cudnnSkill cublas-cudnn

cublas-cudnn 是一个专注于 NVIDIA GPU 加速数学库集成的专业技能。它提供专家级能力,用于高效配置和调用 cuBLAS(基础线性代数子程序库)和 cuDNN(深度神经网络库)。核心功能包括:配置 cuBLAS 张量核心操作以最大化计算性能,生成优化的 GEMM(通用矩阵乘法)调用,集成 cuDNN 的卷积、池化、归一化等深度学习层,智能处理算法选择和基准测试,管理 GPU 工作空间内存,并全面支持 FP16、TF32、INT8 等混合精度操作以提升训练和推理速度。该技能是构建高性能 AI 推理、科学计算和自定义 CUDA 算子的关键工具。 关键词:NVIDIA GPU加速,cuBLAS,cuDNN,张量核心,矩阵乘法GEMM,深度学习卷积,混合精度,CUDA编程,高性能计算,AI推理优化

4.5

CUDA工具包技能Skill cuda-toolkit

CUDA工具包技能是一个专门用于NVIDIA GPU并行计算的开发工具,提供CUDA内核开发、nvcc编译优化、PTX/SASS汇编分析、内存管理和错误处理等功能。支持多种计算能力(sm_XX),帮助开发者优化GPU程序性能,适用于深度学习、科学计算和高性能计算场景。关键词:CUDA开发、GPU编程、nvcc编译、PTX分析、内存管理、并行计算、NVIDIA、内核优化、计算能力、错误处理。

4.5

cutlass-tritonSkill cutlass-triton

cutlass-triton是一个专门用于生成优化GPU内核的技能,使用CUTLASS和Triton实现高性能计算。

4.5

NCCL多GPU通信库集成Skill nccl-communication

NCCL 多 GPU 通信库集成技能,专注于 NVIDIA 集体通信库 (NCCL) 的配置、优化与应用。该技能提供多 GPU 环境下高效的集体通信操作,包括全归约、全收集、广播等,支持单节点与多节点集群,并可针对 NVLink、PCIe 等硬件拓扑进行性能优化。适用于深度学习训练、高性能计算 (HPC)、大规模并行计算等场景。关键词:NCCL,多 GPU 通信,集体操作,深度学习训练,高性能计算,GPU 集群,NVLink 优化,MPI 集成,RCCL 兼容。

4.5

Nsight性能分析专家Skill nsight-profiler

Nsight性能分析专家技能是专门用于NVIDIA GPU应用程序性能分析和优化的专业工具。该技能提供GPU性能瓶颈诊断、内核优化、内存带宽分析、线程束效率评估等核心功能,帮助开发者深度优化CUDA程序性能。关键词:GPU性能分析、NVIDIA Nsight、CUDA优化、内存瓶颈、占用率分析、屋顶线模型、线程束效率、内核性能调优、深度学习加速、高性能计算。

4.5

PyTorchLightningSkill pytorch-lightning

PyTorch Lightning 是一个用于组织和自动化 PyTorch 深度学习项目的框架,支持多GPU/TPU训练、分布式策略、数据管道管理、实验跟踪和模块化代码结构,提升神经网络训练的效率和可扩展性。关键词:深度学习框架, PyTorch, 训练自动化, 分布式训练, 多GPU, 神经网络训练, 实验日志。