name: warp-primitives description: 线程束级编程与SIMD优化。使用线程束洗牌指令、投票函数、协作组、线程束同步算法，并最小化线程束分化以实现最佳GPU性能。 allowed-tools: Bash(*) Read Write Edit Glob Grep WebFetch metadata: author: babysitter-sdk version: “1.0.0” category: low-level-optimization backlog-id: SK-012

warp-primitives

您是 warp-primitives - 一个专门用于GPU线程束级编程和SIMD优化的技能。此技能提供低级别GPU性能优化的专家级能力。

概述

此技能支持AI驱动的线程束级编程，包括：

使用线程束洗牌指令 (_shfl*)
实现线程束投票函数 (__ballot, __any, __all)
设计线程束同步算法
优化线程束分化模式
使用协作组进行灵活同步
实现线程束级归约
分析并最小化线程束停顿
支持CUDA 11+线程束内置函数

先决条件

CUDA Toolkit 11.0+
计算能力3.0+的GPU
理解SIMT执行模型

能力

1. 线程束洗牌指令

线程束内的数据交换：

// __shfl_sync: 从任意通道广播
__device__ float warpBroadcast(float val, int srcLane) {
    return __shfl_sync(0xffffffff, val, srcLane);
}

// __shfl_up_sync: 向上移位（用于包含性扫描）
__device__ float shflUp(float val, int delta) {
    return __shfl_up_sync(0xffffffff, val, delta);
}

// __shfl_down_sync: 向下移位（用于归约）
__device__ float shflDown(float val, int delta) {
    return __shfl_down_sync(0xffffffff, val, delta);
}

// __shfl_xor_sync: 蝴蝶模式（用于归约）
__device__ float shflXor(float val, int laneMask) {
    return __shfl_xor_sync(0xffffffff, val, laneMask);
}

// 使用洗牌进行线程束级归约
__device__ float warpReduceSum(float val) {
    for (int offset = warpSize / 2; offset > 0; offset >>= 1) {
        val += __shfl_down_sync(0xffffffff, val, offset);
    }
    return val;
}

// 使用XOR进行线程束级归约（蝴蝶模式）
__device__ float warpReduceSumXor(float val) {
    for (int mask = warpSize / 2; mask > 0; mask >>= 1) {
        val += __shfl_xor_sync(0xffffffff, val, mask);
    }
    return val;  // 所有通道都有结果
}

// 线程束级包含性扫描
__device__ float warpInclusiveScan(float val) {
    for (int offset = 1; offset < warpSize; offset <<= 1) {
        float n = __shfl_up_sync(0xffffffff, val, offset);
        if (threadIdx.x % warpSize >= offset) {
            val += n;
        }
    }
    return val;
}

2. 线程束投票函数

集体线程束操作：

// __ballot_sync: 创建谓词的位掩码
__device__ unsigned int warpBallot(bool predicate) {
    return __ballot_sync(0xffffffff, predicate);
}

// __any_sync: 任何线程有真谓词
__device__ bool warpAny(bool predicate) {
    return __any_sync(0xffffffff, predicate);
}

// __all_sync: 所有线程有真谓词
__device__ bool warpAll(bool predicate) {
    return __all_sync(0xffffffff, predicate);
}

// 计算线程束中设置位的数量
__device__ int warpPopcount(bool predicate) {
    return __popc(__ballot_sync(0xffffffff, predicate));
}

// 在活动线程中查找位置
__device__ int warpExclusiveCount(bool predicate) {
    unsigned int mask = __ballot_sync(0xffffffff, predicate);
    unsigned int laneMask = (1u << (threadIdx.x % warpSize)) - 1;
    return __popc(mask & laneMask);
}

// 示例：线程束内的流压缩
__device__ int warpCompact(int* output, int value, bool keep) {
    unsigned int mask = __ballot_sync(0xffffffff, keep);
    int total = __popc(mask);

    if (keep) {
        int pos = __popc(mask & ((1u << (threadIdx.x % warpSize)) - 1));
        output[pos] = value;
    }

    return total;
}

3. 协作组

灵活同步：

#include <cooperative_groups.h>
namespace cg = cooperative_groups;

// 线程束级协作组
__device__ void warpOperation(float* data) {
    cg::thread_block_tile<32> warp = cg::tiled_partition<32>(cg::this_thread_block());

    int lane = warp.thread_rank();
    float val = data[lane];

    // 线程束级归约
    for (int offset = warp.size() / 2; offset > 0; offset >>= 1) {
        val += warp.shfl_down(val, offset);
    }

    if (lane == 0) data[0] = val;
}

// 灵活的瓦片大小
template<int TILE_SIZE>
__device__ void tiledOperation(float* data) {
    cg::thread_block_tile<TILE_SIZE> tile =
        cg::tiled_partition<TILE_SIZE>(cg::this_thread_block());

    float val = data[tile.thread_rank()];

    // 瓦片级归约
    for (int offset = tile.size() / 2; offset > 0; offset >>= 1) {
        val += tile.shfl_down(val, offset);
    }

    if (tile.thread_rank() == 0) {
        data[tile.meta_group_rank()] = val;
    }
}

// 网格级同步（需要协作启动）
__global__ void gridSyncKernel(float* data, int n) {
    cg::grid_group grid = cg::this_grid();

    // 阶段1
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    if (idx < n) data[idx] *= 2.0f;

    grid.sync();  // 同步整个网格

    // 阶段2 - 所有块都能看到阶段1的结果
    if (idx < n) data[idx] += 1.0f;
}

4. 线程束分化优化

最小化分化影响：

// 差：分化分支
__global__ void divergentKernel(float* data, int n) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    if (idx < n) {
        if (data[idx] > 0) {  // 分化！
            data[idx] = expf(data[idx]);  // 部分线程执行
        } else {
            data[idx] = 0.0f;  // 其他线程执行
        }
    }
}

// 更好：谓词执行
__global__ void predicatedKernel(float* data, int n) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    if (idx < n) {
        bool positive = data[idx] > 0;
        // 两条路径都计算，选择结果
        float result = positive ? expf(data[idx]) : 0.0f;
        data[idx] = result;
    }
}

// 最佳：重新组织数据以减少分化
// 分别处理正负值
__global__ void reorganizedKernel(float* positive, float* negative,
                                   int nPos, int nNeg) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;

    // 线程束中的所有线程走相同路径
    if (idx < nPos) {
        positive[idx] = expf(positive[idx]);
    }
}

// 线程束级提前退出
__global__ void warpEarlyExit(float* data, int* flags, int n) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;

    // 检查整个线程束是否可以跳过
    bool needsWork = (idx < n) && flags[idx];
    if (!__any_sync(0xffffffff, needsWork)) {
        return;  // 整个线程束退出
    }

    // 只有有工作的线程束继续
    if (needsWork) {
        data[idx] = expensiveComputation(data[idx]);
    }
}

5. 线程束同步编程

隐式线程束同步：

// Volta之前：隐式线程束同步（已弃用模式）
// Volta之后：使用显式__syncwarp()

__device__ float warpSafeReduce(float val) {
    // 始终使用显式同步掩码
    val += __shfl_down_sync(0xffffffff, val, 16);
    val += __shfl_down_sync(0xffffffff, val, 8);
    val += __shfl_down_sync(0xffffffff, val, 4);
    val += __shfl_down_sync(0xffffffff, val, 2);
    val += __shfl_down_sync(0xffffffff, val, 1);
    return val;
}

// 活动掩码处理
__device__ float activeWarpReduce(float val) {
    unsigned int active = __activemask();
    for (int offset = warpSize / 2; offset > 0; offset >>= 1) {
        val += __shfl_down_sync(active, val, offset);
    }
    return val;
}

// 收敛线程束的匹配同步
__device__ void convergentOperation() {
    // 确保线程在线程束操作前收敛
    unsigned int mask = __match_any_sync(__activemask(), threadIdx.x / 8);
    // mask包含具有相同值的线程
}

6. 线程束级矩阵操作

线程束协作的矩阵片段：

// 线程束级矩阵乘法（简化的WMMA概念）
__device__ void warpMatMul4x4(float* A, float* B, float* C) {
    int lane = threadIdx.x % 32;

    // 每个通道拥有结果的一个元素
    int row = lane / 4;
    int col = lane % 4;

    float sum = 0.0f;
    for (int k = 0; k < 4; k++) {
        // 广播A[row][k]和B[k][col]
        float a = __shfl_sync(0xffffffff, A[row * 4 + k], row * 4 + k);
        float b = __shfl_sync(0xffffffff, B[k * 4 + col], k * 4 + col);
        sum += a * b;
    }
    C[lane] = sum;
}

7. 线程束停顿分析

识别并修复停顿原因：

// 常见停顿原因及解决方案

// 1. 内存依赖停顿
__global__ void memoryStall(float* data) {
    int idx = threadIdx.x;
    float val = data[idx];  // 长延迟加载
    // 在此处等待数据时停顿
    data[idx] = val * 2.0f;
}

// 解决方案：增加占用率或隐藏延迟
__global__ void hiddenLatency(float* data, int n) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;

    // 加载多个值
    float v1 = data[idx];
    float v2 = data[idx + n];

    // 在v2加载时对v1进行计算
    v1 = v1 * 2.0f + 1.0f;

    // 现在v2应该就绪了
    v2 = v2 * 2.0f + 1.0f;

    data[idx] = v1;
    data[idx + n] = v2;
}

// 2. 同步停顿
__global__ void syncStall(float* shared_data) {
    __shared__ float smem[256];
    smem[threadIdx.x] = shared_data[threadIdx.x];
    __syncthreads();  // 所有线程在此等待
}

// 解决方案：最小化同步点，使用线程束级同步

流程集成

此技能与以下流程集成：

warp-efficiency-optimization.js - 线程束效率工作流
reduction-scan-implementation.js - 归约/扫描模式
parallel-algorithm-design.js - 算法优化

输出格式

{
  "operation": "generate-warp-reduction",
  "configuration": {
    "data_type": "float",
    "reduction_op": "sum",
    "use_xor_pattern": true
  },
  "generated_code": "warp_reduction.cu",
  "analysis": {
    "shuffle_instructions": 5,
    "sync_masks": "0xffffffff",
    "cooperative_groups_used": false
  },
  "performance": {
    "instructions_per_element": 6,
    "warp_efficiency": 1.0,
    "divergence": "none"
  }
}

依赖项

CUDA Toolkit 11.0+
cooperative_groups头文件

约束

线程束洗牌需要所有参与线程
同步掩码必须正确表示活动线程
协作组需要编译时瓦片大小
网格同步需要协作内核启动