分享到:

面向CPU+MIC异构平台多流机制研究

异构系统存在三个突出问题:第一数据传输开销太大;第二系统资源利用不均衡;第三无法达到系统峰值性能。针对这些问题异构编程模型引入多流机制,多流机制融合流水线技术以及空间共享思想,有效隐藏数据传输开销,并提升了系统资源利用率。目前关于多流机制研究主要集中于CPU+GPU异构平台,而多流机制在MIC平台性能表现如何,相关问题尚未可知。另外基于MIC平台的多流机制为程序员提供了资源控制接口(而GPU平台对程序员是透明的),用户可以直接控制资源分割,而这种资源分割对程序性能影响如何,程序员如何选择资源分割粒度最优取值,这些问题尚未得到解决。另外存在许多应用并不适合使用多流机制,那么如何提前判断应用是否值得流化,以及如何对应用进行流化,也是遗留的问题。本文我们首先基于CPU+MIC平台对多流机制进行性能量化评估,评估工作主要从微基准测试程序和实际应用程序两个层面进行,通过评估系统了解MIC平台上多流编程性能提升效果,并系统分析了多流编程性能  (本文共66页) 本文目录 | 阅读全文>>

哈尔滨工业大学
哈尔滨工业大学

基于FVM在异构平台下的声发射信号软件设计实现

随着我国科技的腾飞,轨道探伤成为了保障高速列车行驶安全的重要技术。一方面,声发射AE(Acoustic Emission)检测技术因具备无损检测的特点和动态监测伤损缺陷的优势被广泛应用,弹性动力波的数值仿真是声发射检测技术的重要组成部分。另一方面,其计算效率问题也是研究的关键,异构计算的高速发展使大规模运算可以获得更高效的收益。本课题所关注的主要问题是声发射源产生的弹性动力波的仿真实现和仿真效率。本文通过研究FVM有限体积法的离散网格数值模拟过程,利用常应变三角形网格、平行四边形网格、常应变四面体网格、平行六面体网格以及平面和空间混合离散网格,实现了弹性波的多类型数值计算仿真并通过观测点输出了声发射检测所需的多种特征信号。在有限体积法串行计算数值仿真的基础上,采用CPU-GPU异构计算的高速处理模式,完成了有限体积法的异构算法软件设计实现,其主要方式是结合CPU的高效逻辑能力和GPU的高速运算能力,完成弹性波的数值分析过程。本文...  (本文共83页) 本文目录 | 阅读全文>>

湖南大学
湖南大学

基于异构平台的暗通道实时去雾算法研究

随着科技的迅速发展,图像处理及媒体展示收到了极大的关注。市场对于高清晰度的多媒体内容,尤其是在实时高清视频领域的图像生成与处理需求日益增多。人工智能、机器识别、无人驾驶、视频监测均需实时高清视频作为输入源,特别是在恶劣环境下获得高质量的输入源由为重要。然而,现有的单CPU无法处理多媒体内容中包含的大量高清晰数据,亟需更高性能的计算能力进行分析与处理。随着GPU性能的不断提高,GPU强大的并行计算能力有效的提高了计算机的大规模处理能力。本文详细介绍了异构计算环境下高清实时视频去雾算法的研究与优化工作及其工程化应用,具体如下:1)当前,算法复杂度与图像在雾天的去雾效果是算法的研究重心,但在利用异构平台进行算法并行化提高处理效率方面的研究非常有限。由于视频质量不同,其所包含的数据量也有较大的差异。由于不同清晰度的视频其分辨率相差较大,因此实时处理高清视频难度较大。我们在本文中提出基于暗通道先验理论的并行去雾算法。为了实现效果对比,我们...  (本文共71页) 本文目录 | 阅读全文>>

哈尔滨工业大学
哈尔滨工业大学

CPU-GPU异构平台结构非线性分析软件模块化设计与应用

有限元方法在结构分析领域有着广泛地应用。传统有限元软件的开发基于面向过程的思想并采用Fortran语言,存在着可扩展性差、代码重用性低、可维护性差等缺陷,很大程度上限制了有限元软件的发展。同时,近年来科学研究和工程技术迅速发展,具有庞大的自由度的大型或者超大型的复杂结构的数量增加,利用有限元法基于CPU串行平台对这些结构分析时,分析过程耗时较长,计算效率低,无法满足设计及施工进度的要求。为了克服基于面向过程设计的有限元软件的不足,提高计算效率,针对实际工程和科学研究的需要,开展本文的研究工作。本文采用模块化设计方法完成结构非线性分析软件的架构搭建。根据非线性有限元理论分析充分了解材料非线性问题的特性和非线性方程组的基本数值解法,明确非线性有限元问题基本分析步骤,从而确定软件系统的结构,进行模块划分,明确每个模块的功能、接口以及模块间的调用关系。采用面向对象思想,用程序设计语言设计每个模块的细节,将结构非线性有限元分析问题及其数值...  (本文共75页) 本文目录 | 阅读全文>>

国防科学技术大学
国防科学技术大学

面向CPU/FPGA异构平台的分组处理架构及优化技术

随着互联网规模的不断扩大和新兴网络技术的应用,快速增长的网络流量和不断出现的网络协议对网络设备的处理性能和灵活性提出了严峻的挑战。专用ASIC芯片虽然能够提供很高的网络处理性能,但是灵活性不强。基于多核CPU的软件编程能够提供非常高的灵活性,但在性能和时延等方面存在不足。为满足网络处理在性能和灵活性两方面的需求,基于CPU/FPGA的异构网络处理平台得到了广泛研究。然而当前异构网络处理平台上CPU/FPGA协同处理难度大以及CPU/FPGA通信开销较大的问题影响了分组处理功能的灵活扩展。针对这些问题本文展开研究,主要工作和创新点包括:1.提出了一种异构并行协同处理架构HPCP(Heterogeneous Parallel Cooperative Processing)。HPCP将传统单一的处理平面分为快速转发子平面和深度处理子平面,将网络处理功能合理的映射到软硬件中。基于HPCP架构设计了一种分层的软件开发框架,通过平台无关AP...  (本文共66页) 本文目录 | 阅读全文>>

大连理工大学
大连理工大学

基于异构平台的定位与三维建图方法及研究

近年来,伴随着服务机器人、仓储机器人、无人机、无人驾驶、AR以及增强现实的兴起,SLAM(同时定位与建图)作为其中的核心技术的一种,正变得越来越重要。基于激光和GPS的传感器由于昂贵或者由其局限性而难以广泛应用,基于视觉传感器进行同时定位与稠密建图已经成为主流的方向。借助双目相机进行稠密的深度恢复,需要计算整张图片的视差,计算量非常之大,因此无法进行实时稠密建图,同时特征点法由于匹配误差而导致估计的位姿误差较大。本文包括恢复图像深度和求解运动轨迹。在深度恢复部分,采用GPU来加速视差算法来获得深度信息;轨迹与定位部分,经过对光流法和特征点法进行分析对比,针对光流法无法用于室外的缺点,本文采用基于ORB特征的特征点法,并采用PnPRANSAC方法来得到运动轨迹。为了能提高系统的稳定性,本文设计了局部特征地图来实现特征点的特征匹配。接着采用基于最小二乘法的图优化框架进行整体优化。最后通过GPU加速得到的深度信息以及跟踪模块得到的位姿...  (本文共63页) 本文目录 | 阅读全文>>