name: gpu-memory-analysis description: 专用于GPU内存层次结构分析与优化的技能。分析内存访问模式、检测存储体冲突、优化缓存利用率、分析全局内存带宽，并生成优化的内存访问代码模式。 allowed-tools: Bash(*) Read Write Edit Glob Grep WebFetch metadata: author: babysitter-sdk version: “1.0.0” category: memory-optimization backlog-id: SK-005

GPU内存分析

您是 gpu-memory-analysis - 一个专用于GPU内存层次结构分析与优化的技能。此技能提供了理解和优化GPU内存访问模式的专家级能力。

概述

此技能支持AI驱动的GPU内存优化，包括：

分析内存访问模式（合并访问、跨步访问）
检测并解决共享内存存储体冲突
优化L1/L2缓存利用率
配置共享内存与L1缓存分区
分析纹理和常量内存使用情况
分析全局内存带宽利用率
识别不必要的内存事务
生成优化的内存访问代码模式

先决条件

CUDA Toolkit 11.0+
Nsight Compute（用于内存性能分析）
compute-sanitizer（用于内存验证）

能力

1. 内存访问模式分析

分析合并访问和跨步访问：

// 良好：合并访问（线程访问连续地址）
__global__ void coalescedAccess(float* data, int n) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < n) {
        float val = data[idx];  // 合并访问：线程i访问data[i]
        data[idx] = val * 2.0f;
    }
}

// 差：跨步访问（对缓存不友好）
__global__ void stridedAccess(float* data, int n, int stride) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    int actualIdx = idx * stride;  // 非合并访问！
    if (actualIdx < n) {
        float val = data[actualIdx];
        data[actualIdx] = val * 2.0f;
    }
}

// 分析命令
// ncu --section MemoryWorkloadAnalysis ./program

2. 存储体冲突检测

检测并解决共享内存冲突：

// 差：存储体冲突（所有线程访问同一存储体）
__global__ void bankConflict(float* output) {
    __shared__ float smem[256];
    int tid = threadIdx.x;

    // 线程束中的所有线程访问同一列 = 存储体冲突
    smem[tid * 32] = tid;  // 32路存储体冲突！
    __syncthreads();
    output[tid] = smem[tid * 32];
}

// 良好：无存储体冲突
__global__ void noBankConflict(float* output) {
    __shared__ float smem[256];
    int tid = threadIdx.x;

    smem[tid] = tid;  // 连续访问 = 无冲突
    __syncthreads();
    output[tid] = smem[tid];
}

// 填充以避免2D访问中的冲突
__global__ void paddedAccess(float* input, float* output, int width) {
    // 填充1以避免列访问时的存储体冲突
    __shared__ float smem[32][33];  // 33而不是32

    int x = threadIdx.x;
    int y = threadIdx.y;

    smem[y][x] = input[y * width + x];
    __syncthreads();

    // 转置访问 - 由于填充，无存储体冲突
    output[x * width + y] = smem[x][y];
}

3. 缓存优化

优化L1/L2缓存使用：

// 配置L1/共享内存偏好
cudaFuncSetCacheConfig(myKernel, cudaFuncCachePreferL1);     // 更多L1缓存
cudaFuncSetCacheConfig(myKernel, cudaFuncCachePreferShared); // 更多共享内存
cudaFuncSetCacheConfig(myKernel, cudaFuncCachePreferEqual);  // 平均分配

// 使用__ldg的缓存提示（只读数据缓存）
__global__ void cacheOptimized(const float* __restrict__ input, float* output, int n) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < n) {
        // 对输入使用只读缓存
        float val = __ldg(&input[idx]);
        output[idx] = val * 2.0f;
    }
}

// 流式存储（对只写数据绕过缓存）
__global__ void streamingStore(float* output, int n) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < n) {
        // 绕过缓存，避免污染只写数据
        __stcs(&output[idx], computeValue(idx));
    }
}

4. 共享内存优化

高效的共享内存使用：

// 使用优化共享内存的平铺矩阵乘法
template<int TILE_SIZE>
__global__ void tiledMatMul(const float* A, const float* B, float* C,
                            int M, int N, int K) {
    __shared__ float As[TILE_SIZE][TILE_SIZE];
    __shared__ float Bs[TILE_SIZE][TILE_SIZE];

    int bx = blockIdx.x, by = blockIdx.y;
    int tx = threadIdx.x, ty = threadIdx.y;

    int row = by * TILE_SIZE + ty;
    int col = bx * TILE_SIZE + tx;

    float sum = 0.0f;

    for (int t = 0; t < (K + TILE_SIZE - 1) / TILE_SIZE; t++) {
        // 协作加载到共享内存
        if (row < M && t * TILE_SIZE + tx < K)
            As[ty][tx] = A[row * K + t * TILE_SIZE + tx];
        else
            As[ty][tx] = 0.0f;

        if (t * TILE_SIZE + ty < K && col < N)
            Bs[ty][tx] = B[(t * TILE_SIZE + ty) * N + col];
        else
            Bs[ty][tx] = 0.0f;

        __syncthreads();

        // 计算部分乘积
        for (int k = 0; k < TILE_SIZE; k++) {
            sum += As[ty][k] * Bs[k][tx];
        }

        __syncthreads();
    }

    if (row < M && col < N) {
        C[row * N + col] = sum;
    }
}

5. 全局内存带宽分析

分析并优化带宽：

# 分析内存吞吐量
ncu --metrics \
    l1tex__t_bytes_pipe_lsu_mem_global_op_ld.sum.per_second,\
    l1tex__t_bytes_pipe_lsu_mem_global_op_st.sum.per_second,\
    dram__bytes_read.sum.per_second,\
    dram__bytes_write.sum.per_second \
    ./program

# 检查内存效率
ncu --metrics \
    smsp__sass_average_data_bytes_per_sector_mem_global_op_ld.ratio,\
    smsp__sass_average_data_bytes_per_sector_mem_global_op_st.ratio \
    ./program

6. 纹理和常量内存

专用内存优化：

// 用于空间局部访问的纹理内存
texture<float, 2, cudaReadModeElementType> texRef;

__global__ void textureKernel(float* output, int width, int height) {
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;

    if (x < width && y < height) {
        // 硬件插值和缓存
        float val = tex2D(texRef, x + 0.5f, y + 0.5f);
        output[y * width + x] = val;
    }
}

// 用于广播数据的常量内存
__constant__ float coefficients[256];

__global__ void constantMemKernel(float* data, int n) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < n) {
        // 所有线程读取相同的常量 = 广播
        data[idx] *= coefficients[idx % 256];
    }
}

7. 内存事务分析

识别不必要的事务：

// 分析每次请求的内存事务
// 理想情况：每32个线程1次事务（4字节 * 32 = 128字节 = 1个扇区）

// 差：未对齐访问导致额外事务
__global__ void unalignedAccess(float* data, int offset) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    // 偏移offset字节未对齐
    float val = data[idx + offset];  // 可能需要2次事务
}

// 良好：对齐访问
__global__ void alignedAccess(float* __restrict__ data) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    float val = data[idx];  // 每个线程束1次事务
}

8. 内存访问模式生成

生成优化模式：

// 数组结构体（SoA）- 更适合GPU
struct ParticlesSoA {
    float* x;
    float* y;
    float* z;
    float* vx;
    float* vy;
    float* vz;
};

__global__ void updateParticlesSoA(ParticlesSoA p, int n, float dt) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < n) {
        // 每个字段的合并访问
        p.x[idx] += p.vx[idx] * dt;
        p.y[idx] += p.vy[idx] * dt;
        p.z[idx] += p.vz[idx] * dt;
    }
}

// 结构体数组（AoS）- 在GPU上避免使用
struct ParticleAoS {
    float x, y, z;
    float vx, vy, vz;
};

__global__ void updateParticlesAoS(ParticleAoS* particles, int n, float dt) {
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < n) {
        // 非合并访问：线程访问交错的内存
        particles[idx].x += particles[idx].vx * dt;
        particles[idx].y += particles[idx].vy * dt;
        particles[idx].z += particles[idx].vz * dt;
    }
}

流程集成

此技能与以下流程集成：

gpu-memory-optimization.js - 内存优化工作流
shared-memory-usage-patterns.js - 共享内存模式
gpu-cpu-data-transfer-optimization.js - 传输优化
gpu-memory-pool-allocator.js - 内存池分配器

输出格式

{
  "operation": "analyze-memory-access",
  "kernel": "matrixMultiply",
  "analysis": {
    "global_memory": {
      "load_efficiency": 0.95,
      "store_efficiency": 1.0,
      "transactions_per_request": 1.05,
      "throughput_gbps": 450
    },
    "shared_memory": {
      "bank_conflicts": 0,
      "utilization": 0.85
    },
    "cache": {
      "l1_hit_rate": 0.72,
      "l2_hit_rate": 0.45
    }
  },
  "issues": [
    {
      "type": "strided_access",
      "location": "第42行",
      "severity": "中等",
      "recommendation": "将数据布局重新排序为SoA"
    }
  ],
  "recommendations": [
    "将AoS转换为SoA以获得更好的合并访问",
    "向共享内存添加填充以避免存储体冲突"
  ]
}

依赖项

CUDA Toolkit 11.0+
Nsight Compute
compute-sanitizer

约束

存储体冲突检测需要详细的性能分析
某些优化是特定于架构的
纹理内存的收益取决于访问模式
缓存行为因GPU代次而异