深度学习 Skill技能列表

4.5

分布式训练(Ray/多节点)Skill DistributedTraining(Ray/Multi-node)(Core)

本技能专注于使用Ray框架在多台机器或多个GPU上进行大规模机器学习模型训练的实践方法。核心内容包括数据并行与模型并行的策略选择、Ray Train/Tune库的应用模式,以及确保训练过程可复现、可追踪、可恢复的关键操作规范。关键词:分布式训练,Ray框架,多节点训练,数据并行,模型并行,MLflow,可复现性,检查点,故障恢复,机器学习扩展。

4.5

神经网络设计Skill NeuralNetworkDesign

设计和构建各种架构的神经网络,包括CNNs、RNNs、Transformers和注意力机制,使用PyTorch和TensorFlow

4.5

TensorRT模型优化与部署Skill tensorrt-optimization

TensorRT模型优化与部署技能是一个专注于利用NVIDIA TensorRT技术,将深度学习模型(如ONNX格式)高效转换为优化后的推理引擎的专业工具。它支持FP16、INT8等多种精度模式,提供动态形状处理、内核融合分析、自定义插件开发以及详细的性能分析功能。通过该技能,开发者可以显著提升模型在GPU上的推理速度与效率,降低延迟,实现高性能AI应用部署。关键词:TensorRT,模型优化,推理加速,INT8校准,动态形状,CUDA,深度学习部署,性能分析。

4.5

Nsight性能分析专家Skill nsight-profiler

Nsight性能分析专家技能是专门用于NVIDIA GPU应用程序性能分析和优化的专业工具。该技能提供GPU性能瓶颈诊断、内核优化、内存带宽分析、线程束效率评估等核心功能,帮助开发者深度优化CUDA程序性能。关键词:GPU性能分析、NVIDIA Nsight、CUDA优化、内存瓶颈、占用率分析、屋顶线模型、线程束效率、内核性能调优、深度学习加速、高性能计算。

4.5

NCCL多GPU通信库集成Skill nccl-communication

NCCL 多 GPU 通信库集成技能,专注于 NVIDIA 集体通信库 (NCCL) 的配置、优化与应用。该技能提供多 GPU 环境下高效的集体通信操作,包括全归约、全收集、广播等,支持单节点与多节点集群,并可针对 NVLink、PCIe 等硬件拓扑进行性能优化。适用于深度学习训练、高性能计算 (HPC)、大规模并行计算等场景。关键词:NCCL,多 GPU 通信,集体操作,深度学习训练,高性能计算,GPU 集群,NVLink 优化,MPI 集成,RCCL 兼容。

4.5

cutlass-tritonSkill cutlass-triton

cutlass-triton是一个专门用于生成优化GPU内核的技能,使用CUTLASS和Triton实现高性能计算。

4.5

CUDA工具包技能Skill cuda-toolkit

CUDA工具包技能是一个专门用于NVIDIA GPU并行计算的开发工具,提供CUDA内核开发、nvcc编译优化、PTX/SASS汇编分析、内存管理和错误处理等功能。支持多种计算能力(sm_XX),帮助开发者优化GPU程序性能,适用于深度学习、科学计算和高性能计算场景。关键词:CUDA开发、GPU编程、nvcc编译、PTX分析、内存管理、并行计算、NVIDIA、内核优化、计算能力、错误处理。

4.5

cublas-cudnnSkill cublas-cudnn

cublas-cudnn 是一个专注于 NVIDIA GPU 加速数学库集成的专业技能。它提供专家级能力,用于高效配置和调用 cuBLAS(基础线性代数子程序库)和 cuDNN(深度神经网络库)。核心功能包括:配置 cuBLAS 张量核心操作以最大化计算性能,生成优化的 GEMM(通用矩阵乘法)调用,集成 cuDNN 的卷积、池化、归一化等深度学习层,智能处理算法选择和基准测试,管理 GPU 工作空间内存,并全面支持 FP16、TF32、INT8 等混合精度操作以提升训练和推理速度。该技能是构建高性能 AI 推理、科学计算和自定义 CUDA 算子的关键工具。 关键词:NVIDIA GPU加速,cuBLAS,cuDNN,张量核心,矩阵乘法GEMM,深度学习卷积,混合精度,CUDA编程,高性能计算,AI推理优化