未指定在Memcpy上启动失败

在Cuda运行我的程序时遇到“未指定的启动失败”。我检查了错误。

该程序是一个微分方程的解算器。它迭代TOTAL_ITER次。 ROOM_X和ROOM_Y是matrix的宽度和高度。

这是标题，它的名字是“唯一的：

#define ITER_BETWEEN_SAVES 10000 #define TOTAL_ITER 10000 #define ROOM_X 2048 #define ROOM_Y 2048 #define SOURCE_DIM_X 200 #define SOURCE_DIM_Y 1000 #define ALPHA 1.11e-4 #define DELTA_T 10 #define H 0.1 #include <stdio.h> void Matrix(float* M); void SolverCPU(float* M1, float* M2); __global__ void SolverGPU(float* M1, float* M2);

这里是内核和一个填充matrix的函数：

 #include "solver.h" #include<cuda.h> void Matrix(float* M) { for (int j = 0; j < SOURCE_DIM_Y; ++j) { for (int i = 0; i < SOURCE_DIM_X; ++i) { M[(i+(ROOM_X/2 - SOURCE_DIM_X/2)) + ROOM_X * (j+(ROOM_Y/2 - SOURCE_DIM_Y/2))] = 100; } } } __global__ void SolverGPU(float* M1,float *M2) { int i =threadIdx.x + blockIdx.x * blockDim.x; int j = threadIdx.y + blockIdx.y * blockDim.y; float M1_Index = M1[i + ROOM_X * j]; float M1_IndexUp = M1[i+1 + ROOM_X * j]; float M1_IndexDown =M1[i-1 + ROOM_X * j]; float M1_IndexLeft = M1[i + ROOM_X * (j+1)]; float M1_IndexRight = M1[i + ROOM_X *(j-1)]; M2[i + ROOM_X * j] = M1_Index + (ALPHA * DELTA_T / (H*H)) * (M1_IndexUp + M1_IndexDown + M1_IndexLeft +M1_IndexRight - 4*M1_Index); }

这是主要的

 int main(int argc, char* argv[] ){ float *M1_h, *M1_d,*M2_h, *M2_d; int size = ROOM_X * ROOM_Y * sizeof(float); cudaError_t err = cudaSuccess; //Allocating Memories on Host M1_h = (float *)malloc(size); M2_h = (float *)malloc(size); //Allocating Memories on Host err=cudaMalloc((void**)&M1_d, size); if (err != cudaSuccess) { fprintf(stderr, "Failed to allocate array_d ... %s .\n", cudaGetErrorString(err)); exit(EXIT_FAILURE); } err=cudaMalloc((void**)&M2_d, size); if (err != cudaSuccess) { fprintf(stderr, "Failed to allocate array_d ... %s .\n", cudaGetErrorString(err)); exit(EXIT_FAILURE); } //Filling the Matrix Matrix(M1_h); //Copy on Device err = cudaMemcpy(M1_d, M1_h, size, cudaMemcpyHostToDevice); if(err !=0){ printf("%s-%d\n",cudaGetErrorString(err),1); getchar(); } err=cudaMemcpy(M2_d, M2_h, size, cudaMemcpyHostToDevice); if(err !=0){ printf("%s-%d",cudaGetErrorString(err),2); getchar(); } dim3 dimGrid(64,64); dim3 dimBlock(32,32); //SolverGPU<< <threadsPerBlock, numBlocks >> >(M1_d,M2_d); for(int i=0;i<TOTAL_ITER;i++) { if (i%2==0) SolverGPU<< <dimGrid,dimBlock >> >(M1_d,M2_d); else SolverGPU<< <dimGrid,dimBlock >> >(M2_d,M1_d); } err=cudaMemcpy(M1_h, M1_d, size, cudaMemcpyDeviceToHost); if(err !=0){ printf("%s-%d",cudaGetErrorString(err),3); getchar(); } cudaFree(M1_d); cudaFree(M2_d); free(M1_h); free(M2_h); return 0; }

编译没有问题。

当我检查我的错误时，“未指定的启动失败”出现在内核之后的memcpy中。

好的，所以我已经读过，通常是由于内核运行不正常。但是我找不到内核中的错误…我猜这就是错误非常简单，但无法find它。

当我编译并运行你的代码时，我得到：

 an illegal memory access was encountered-3

打印出来。

您可能确实正在获得“未指定的发射失败”。确切的错误报告将取决于CUDA版本，GPU和平台。不过，我们可以继续前进。

任何一个消息都表示内核启动，但遇到错误，因此未能成功完成。您可以使用debugging器（如Linux上的cuda-gdb）或Windows上的Nsight VSE来debugging内核执行问题。但是我们现在不需要debugging器了。

一个有用的工具是cuda-memcheck 。如果我们用cuda-memcheck运行你的程序，我们会得到一些额外的输出，表明内核正在进行大小为4的无效全局读操作。这意味着你正在进行一个超出边界的内存访问。如果我们重新编译添加-lineinfo开关的代码，然后用cuda-memcheck重新运行你的代码，我们可以获得更多的清晰度。现在我们得到的输出如下所示：

 $ nvcc -arch=sm_20 -lineinfo -o t615 t615.cu $ cuda-memcheck ./t615 |more ========= CUDA-MEMCHECK ========= Invalid __global__ read of size 4 ========= at 0x00000070 in /home/bob/misc/t615.cu:34:SolverGPU(float*, float*) ========= by thread (31,0,0) in block (3,0,0) ========= Address 0x4024fe1fc is out of bounds ========= Saved host backtrace up to driver entry point at kernel launch time ========= Host Frame:/usr/lib64/libcuda.so.1 (cuLaunchKernel + 0x2cd) [0x150a7d] ========= Host Frame:./t615 [0x11ef8] ========= Host Frame:./t615 [0x3b143] ========= Host Frame:./t615 [0x297d] ========= Host Frame:./t615 (__gxx_personality_v0 + 0x378) [0x26a0] ========= Host Frame:./t615 (__gxx_personality_v0 + 0x397) [0x26bf] ========= Host Frame:./t615 [0x2889] ========= Host Frame:/lib64/libc.so.6 (__libc_start_main + 0xf4) [0x1d994] ========= Host Frame:./t615 (__gxx_personality_v0 + 0x111) [0x2439] ========= --More--

（还有更多的错误输出）

这意味着内核遇到的第一个错误是大小为4的无效全局读取（例如，尝试读取int或float数量的越界访问）。使用lineinfo信息，我们可以看到发生了这种情况：

 ========= at 0x00000070 in /home/bob/misc/t615.cu:34:SolverGPU(float*, float*)

即在文件中的第34行。这行恰好是这行内核代码：

  float M1_IndexRight = M1[i + ROOM_X *(j-1)];

我们可以进一步debugging，也许使用in-kernel printf语句来发现问题所在。但是我们已经知道我们正在索引出界，所以让我们来看一下索引：

  i + ROOM_X *(j-1)

当i = 0和j = 0（即你的2D线程数组中的线程（0,0）），这是什么评估？它评估为-2048（即 – ROOM_X ），这是一个非法指数。试图从M1[-2048]读取将产生一个错误。

你的内核里有很多复杂的索引，所以我很确定还有其他的错误。您可以使用类似的方法来追踪这些（可能使用printf来分析计算的索引，或者testing索引的有效性）。

未指定在Memcpy上启动失败

通过JNI传递C和Java之间的指针

使用Nvidia的CUDA压缩库

Java中GPGPU / CUDA / OpenCL的最佳方法？

如何在Visual Studio 2008中启动一个新的CUDA项目？

CUDA：共有多less个并发线程？

什么是银行冲突？（做Cuda / OpenCL编程）

错误消息：找不到或打开PDB文件

如何在CUDA中使用2Darrays？

CUDA是否支持recursion？

我怎样才能使用嵌套for循环加起来两个2d（pitched）数组？

未指定在Memcpy上启动失败

通过JNI传递C和Java之间的指针

使用Nvidia的CUDA压缩库

Java中GPGPU / CUDA / OpenCL的最佳方法？

如何在Visual Studio 2008中启动一个新的CUDA项目？

CUDA：共有多less个并发线程？

什么是银行冲突？ （做Cuda / OpenCL编程）

错误消息：找不到或打开PDB文件

如何在CUDA中使用2Darrays？

CUDA是否支持recursion？

我怎样才能使用嵌套for循环加起来两个2d（pitched）数组？

什么是银行冲突？（做Cuda / OpenCL编程）