几何尺寸与公差论坛

 找回密码
 注册
查看: 1880|回复: 14

黄金模板-离散点排个序算个中值

[复制链接]
发表于 2022-12-20 17:53:34 | 显示全部楼层 |阅读模式
想法是 比如8张图,一张图有300X300个像素,每次取8张图矩阵的第n个点,8列的像素点的灰度值排个序,求个中值
想像下玩魔方拼色块的感觉
 楼主| 发表于 2023-2-19 19:31:46 | 显示全部楼层
下是使用CUDA编写的算法,用于将离散点排序并计算中位数。这里假设输入数据集已经被加载到GPU内存中,并且GPU具有足够的内存来容纳整个数据集。

首先,我们将定义一个CUDA核函数,它将在GPU上运行以对数据进行排序:
__global__ void sort_kernel(float *data, int n) {
    // 计算线程索引
    int idx = blockIdx.x * blockDim.x + threadIdx.x;

    // 通过奇偶排序算法对数据进行排序
    for (int i = 0; i < n; i++) {
        // 确定排序方向
        int dir = i % 2 == 0 ? 1 : -1;

        // 计算元素位置
        int j = dir * i / 2 + (1 - dir) * (n - i - 1) / 2;

        // 比较并交换元素
        if (idx < j) {
            if (dir * data[2 * idx] > dir * data[2 * j]) {
                float temp0 = data[2 * idx];
                float temp1 = data[2 * idx + 1];
                data[2 * idx] = data[2 * j];
                data[2 * idx + 1] = data[2 * j + 1];
                data[2 * j] = temp0;
                data[2 * j + 1] = temp1;
            }
        }
    }
}
在上面的代码中,我们使用奇偶排序算法对数据进行排序。该算法对于数据量较小的情况下具有较高的效率,并且可以在CUDA核函数中轻松实现。

接下来,我们将编写一个CUDA函数,它将启动上述核函数来对输入数据进行排序:
void sort_data(float *data, int n) {
    // 将数据从主机内存拷贝到设备内存
    float *d_data;
    cudaMalloc(&d_data, 2 * n * sizeof(float));
    cudaMemcpy(d_data, data, 2 * n * sizeof(float), cudaMemcpyHostToDevice);

    // 启动排序核函数
    int block_size = 256;
    int grid_size = (n + block_size - 1) / block_size;
    sort_kernel<<<grid_size, block_size>>>(d_data, n);

    // 将排序后的数据从设备内存拷贝回主机内存
    cudaMemcpy(data, d_data, 2 * n * sizeof(float), cudaMemcpyDeviceToHost);

    // 释放设备内存
    cudaFree(d_data);
}
最后,我们可以编写一个CUDA函数,它将排序后的数据集用于计算中位数:
float compute_median(float *data, int n) {
    // 对数据进行排序
    sort_data(data, n);

    // 计算中位数
    float median;
    if (n % 2 == 0) {
        median = (data[n / 2] + data[n / 2 - 1]) / 2.0f;
    } else {
        median = data[n / 2];
    }

    return median;
}
 楼主| 发表于 2023-2-19 19:35:13 | 显示全部楼层
继续,优化上面的排序代码,要求高效排序
上面提供的奇偶排序算法可以在排序小规模数据时实现良好的性能,但在排序大规模数据时,这种方法的效率较低。以下是一个更加高效的排序算法——并行归并排序——它可以在GPU上使用CUDA并行计算来加速排序过程。

首先,我们定义一个CUDA核函数,它实现了一个归并操作。在归并操作中,我们将两个已排序的数组合并成一个大的已排序的数组:
__global__ void merge_kernel(float *data, float *temp, int left, int right, int end) {
    int start = left;
    int mid = right - 1;
    int i = left;

    // 将数据合并到临时数组中
    while (left <= mid && right <= end) {
        if (data[left] < data[right]) {
            temp[i++] = data[left++];
        } else {
            temp[i++] = data[right++];
        }
    }

    while (left <= mid) {
        temp[i++] = data[left++];
    }

    while (right <= end) {
        temp[i++] = data[right++];
    }

    // 将数据从临时数组拷贝回原数组
    for (i = start; i <= end; i++) {
        data[i] = temp[i];
    }
}
在上述代码中,我们将两个已排序的子数组合并成一个大的已排序的数组。由于在GPU上进行归并操作可能会导致访问冲突,因此我们使用一个临时数组来存储已排序的数据。

接下来,我们将编写一个CUDA函数,它将启动上述核函数来对输入数据进行归并排序:
void merge_sort(float *data, int n) {
    float *d_data, *d_temp;
    cudaMalloc(&d_data, n * sizeof(float));
    cudaMemcpy(d_data, data, n * sizeof(float), cudaMemcpyHostToDevice);
    cudaMalloc(&d_temp, n * sizeof(float));

    for (int width = 1; width < n; width *= 2) {
        int block_size = 256;
        int grid_size = (n + block_size - 1) / block_size;
        merge_sort_kernel<<<grid_size, block_size>>>(d_data, d_temp, width, n);
    }

    cudaMemcpy(data, d_data, n * sizeof(float), cudaMemcpyDeviceToHost);

    cudaFree(d_data);
    cudaFree(d_temp);
}
在上述代码中,我们使用循环来迭代地应用归并排序。在每次迭代中,我们将数据分成较小的子数组,并使用核函数对这些子数组进行排序。然后,我们合并已排序的子数组,以便在下一次迭代中进一步排序。
 楼主| 发表于 2023-2-19 19:38:27 | 显示全部楼层
继续,有更高效的排序算法应用于大规模数据吗?
 楼主| 发表于 2023-2-19 19:38:38 | 显示全部楼层
对于大规模数据的排序,最常用的算法是快速排序和归并排序。两种算法都具有较好的时间复杂度,且在实际应用中都被证明是高效的。

快速排序是一种分治算法,通过不断地选择一个元素作为枢纽,将数据分成两个子集,并对每个子集进行递归排序。具体来说,我们首先选择一个枢纽元素,然后将小于枢纽元素的元素放在左侧,大于枢纽元素的元素放在右侧,最后再对左侧和右侧的元素进行递归排序。快速排序的时间复杂度为O(nlogn),但在最坏情况下(枢纽元素选择不当),时间复杂度可能会退化为O(n^2)。

归并排序也是一种分治算法,它将数据分成两个子集,并对每个子集进行递归排序。然后,将排序后的子集合并成一个已排序的集合。与快速排序不同的是,归并排序的时间复杂度始终为O(nlogn)。但是,在实现上,归并排序需要额外的空间来存储已排序的子集,因此在处理大规模数据时,需要考虑空间限制。

除此之外,还有一些其他的排序算法,比如堆排序、计数排序、基数排序等,这些算法的时间复杂度也可以达到O(nlogn)或O(n)。但是,它们通常需要更多的内存或者只适用于特定类型的数据。在选择排序算法时,需要综合考虑算法的时间复杂度、空间复杂度、稳定性等因素,并根据具体情况进行选择。
 楼主| 发表于 2023-2-19 19:45:43 | 显示全部楼层
继续,编写归并排序算法
 楼主| 发表于 2023-2-19 19:45:55 | 显示全部楼层
归并排序是一种经典的分治排序算法,其主要思想是将待排序数组分成两个部分,分别对其进行排序,然后将排序后的两个部分合并成一个有序数组。

下面是一个基于递归实现的归并排序算法的代码示例:

c++
Copy code
#include <iostream>
#include <vector>

using namespace std;

void merge(vector<int>& nums, int left, int mid, int right) {
    int n1 = mid - left + 1;
    int n2 = right - mid;
    vector<int> L(n1);
    vector<int> R(n2);
    for (int i = 0; i < n1; ++i) {
        L[i] = nums[left + i];
    }
    for (int i = 0; i < n2; ++i) {
        R[i] = nums[mid + 1 + i];
    }
    int i = 0, j = 0, k = left;
    while (i < n1 && j < n2) {
        if (L[i] <= R[j]) {
            nums[k++] = L[i++];
        } else {
            nums[k++] = R[j++];
        }
    }
    while (i < n1) {
        nums[k++] = L[i++];
    }
    while (j < n2) {
        nums[k++] = R[j++];
    }
}

void mergeSort(vector<int>& nums, int left, int right) {
    if (left >= right) {
        return;
    }
    int mid = left + (right - left) / 2;
    mergeSort(nums, left, mid);
    mergeSort(nums, mid + 1, right);
    merge(nums, left, mid, right);
}

int main() {
    vector<int> nums = {5, 4, 3, 2, 1};
    mergeSort(nums, 0, nums.size() - 1);
    for (auto num : nums) {
        cout << num << " ";
    }
    return 0;
}
在上述代码中,merge函数实现了合并两个有序数组的过程,mergeSort函数实现了归并排序的递归过程。在主函数中,我们定义了一个长度为5的整数数组,调用mergeSort函数对其进行排序,然后输出排序结果。

归并排序的时间复杂度为O(nlogn),且由于其不需要额外的空间,因此在处理大规模数据时非常高效。
 楼主| 发表于 2023-2-19 19:46:06 | 显示全部楼层
继续,请用gpu编写
 楼主| 发表于 2023-2-19 19:46:27 | 显示全部楼层
归并排序可以通过GPU并行计算来提高其运算速度。在GPU上,我们可以采用并行分治的策略,将待排序数组分成多个块,每个块单独排序,然后将排好序的块合并成一个有序数组。下面是一个基于CUDA并行计算的归并排序算法的示例代码:

c++
Copy code
#include <iostream>
#include <vector>

#include <cuda_runtime.h>

using namespace std;

__global__ void merge(int* nums, int left, int mid, int right) {
    int n1 = mid - left + 1;
    int n2 = right - mid;
    int* L = nums + left;
    int* R = nums + mid + 1;
    int* tmp = new int[n1 + n2];
    int i = 0, j = 0, k = 0;
    while (i < n1 && j < n2) {
        if (L[i] <= R[j]) {
            tmp[k++] = L[i++];
        } else {
            tmp[k++] = R[j++];
        }
    }
    while (i < n1) {
        tmp[k++] = L[i++];
    }
    while (j < n2) {
        tmp[k++] = R[j++];
    }
    for (int p = 0; p < k; ++p) {
        nums[left + p] = tmp[p];
    }
    delete[] tmp;
}

__global__ void mergeSort(int* nums, int left, int right) {
    if (left >= right) {
        return;
    }
    int mid = left + (right - left) / 2;
    mergeSort<<<1, 1>>>(nums, left, mid);
    mergeSort<<<1, 1>>>(nums, mid + 1, right);
    cudaDeviceSynchronize();
    merge<<<1, 1>>>(nums, left, mid, right);
    cudaDeviceSynchronize();
}

int main() {
    vector<int> v = {5, 4, 3, 2, 1};
    int* nums = nullptr;
    cudaMalloc(&nums, sizeof(int) * v.size());
    cudaMemcpy(nums, v.data(), sizeof(int) * v.size(), cudaMemcpyHostToDevice);
    mergeSort<<<1, 1>>>(nums, 0, v.size() - 1);
    cudaDeviceSynchronize();
    cudaMemcpy(v.data(), nums, sizeof(int) * v.size(), cudaMemcpyDeviceToHost);
    cudaFree(nums);
    for (auto num : v) {
        cout << num << " ";
    }
    return 0;
}
在上述代码中,merge函数和mergeSort函数的实现与之前的代码类似,但是它们都被定义为了GPU函数。在主函数中,我们首先将待排序的数组v复制到GPU设备上的数组nums中,然后调用mergeSort函数对nums进行排序,最后将排好序的结果从nums复制回v中并输出排序结果。

需要注意的是,由于CUDA中的并行计算需要通过kernel函数来实现,并且kernel函数的调用是异步的,因此在主函数中需要使用cudaDeviceSynchronize函数来同步等待kernel函数的执行完成,以保证排序结果的正确性。此外,由于GPU内存的大小通常比CPU内存小,因此在实际的应用中,可能需要将待排序的数据分成更小的块来进行排序。同时,为了充分利用GPU的计算能力,也可以将每个块的排序任务分给多个GPU线程来并行计算,以提高排序的效率。

此外,对于更大规模的数据,我们也可以采用更加高效的排序算法,比如快速排序、堆排序、基数排序等,以进一步提高排序的效率。这些算法也可以通过GPU并行计算来加速。值得一提的是,对于大规模的数据,如超过数百万个元素的排序任务,通常需要考虑一些高级优化技巧,如内存映射、数据分布等,以保证排序任务的高效完成
 楼主| 发表于 2023-2-19 19:49:12 | 显示全部楼层
继续,使用内存映射和数据分布进行优化,保证更高效的排序
您需要登录后才可以回帖 登录 | 注册

本版积分规则

QQ|Archiver|小黑屋|几何尺寸与公差论坛

GMT+8, 2024-5-12 13:10 , Processed in 0.040589 second(s), 18 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表