Ubuntu下C++如何利用GPU加速计算

发布时间:2025-07-22 10:04:26

阅读量:106

在Ubuntu下，使用C++进行GPU加速计算通常涉及以下几个步骤：

选择GPU加速库：
- CUDA：由NVIDIA提供，适用于NVIDIA GPU。
- OpenCL：跨平台，适用于多种GPU和CPU。
- ROCm：由AMD提供，适用于AMD GPU。
安装GPU加速库：
- 对于CUDA，可以从NVIDIA官网下载并安装CUDA Toolkit。
- 对于OpenCL，Ubuntu通常预装了OpenCL驱动和库，但可能需要安装额外的开发包。
- 对于ROCm，可以从AMD官网下载并安装ROCm软件栈。
编写C++代码：
- 使用所选库提供的API编写GPU加速的C++代码。
- 通常需要将计算密集型任务转移到GPU上执行，并将结果传回CPU。
编译和运行：
- 使用适当的编译器标志和库链接选项来编译C++代码。
- 运行生成的可执行文件以执行GPU加速计算。

以下是一个简单的示例，展示如何使用CUDA在Ubuntu下使用C++进行GPU加速计算：

安装CUDA Toolkit

下载CUDA Toolkit：

wget https://developer.download.nvidia.com/compute/cuda/11.4.2/local_installers/cuda_11.4.2_460.32.03_linux.run

运行安装程序：

sudo sh cuda_11.4.2_460.32.03_linux.run

按照提示完成安装，并设置环境变量：

echo 'export PATH=/usr/local/cuda-11.4/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-11.4/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

编写CUDA C++代码

创建一个名为vector_add.cu的文件，内容如下：

#include 
#include 

__global__ void vectorAdd(const float *A, const float *B, float *C, int numElements) {
    int index = blockIdx.x * blockDim.x + threadIdx.x;
    if (index < numElements xss=removed class="hljs-function">int main() {
    int numElements = 256;
    size_t size = numElements * sizeof(float);
    float *h_A, *h_B, *h_C;
    float *d_A, *d_B, *d_C;

    // Allocate host memory
    h_A = (float *)malloc(size);
    h_B = (float *)malloc(size);
    h_C = (float *)malloc(size);

    // Initialize host memory
    for (int i = 0; i < numElements xss=removed class="hljs-built_in">rand() / (float)RAND_MAX;
        h_B[i] = rand() / (float)RAND_MAX;
    }

    // Allocate device memory
    cudaMalloc(&d_A, size);
    cudaMalloc(&d_B, size);
    cudaMalloc(&d_C, size);

    // Copy host memory to device memory
    cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);

    // Launch vectorAdd kernel
    int threadsPerBlock = 256;
    int blocksPerGrid = (numElements + threadsPerBlock - 1) / threadsPerBlock;
    vectorAdd<<>>(d_A, d_B, d_C, numElements);

    // Copy result back to host memory
    cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);

    // Verify the result
    for (int i = 0; i < numElements class="hljs-keyword">if (fabs(h_A[i] + h_B[i] - h_C[i]) > 1e-5) {
            std::cerr << "Result verification failed at element "<< i class="hljs-built_in">exit(EXIT_FAILURE);
        }
    }

    std::cout << "Test PASSED" << std class="hljs-comment">// Free device memory
    cudaFree(d_A);
    cudaFree(d_B);
    cudaFree(d_C);

    // Free host memory
    free(h_A);
    free(h_B);
    free(h_C);

    return 0;
}