分享到:

基于集群技术的作业管理系统的研究与实现

计算机和网络通信技术的迅猛发展、Internet技术的兴起和广泛应用,有力地促进了网络环境下计算机技术在金融业和其它科技领域应用的研究,并迅速朝着高性能、多样性、多功能发展。许多大规模科学计算或者企业的计算不仅仅需要一台工作站或者PC机,更迫切需要的是由多种机器组成、多个系统合作、多个科学仪器设备相连的网络虚拟超级计算机。这些应用要求将地理上分布、系统上异构的多种计算资源通过高速网络连接起来,共同完成计算问题;另一方面,各个企业或公司拥有的大量PC机及个人工作站却由各个使用者独占。由于每个使用者有自己的特点,就必然会造成某些时间段内,一些人因计算任务大使资源过载,而另一些人则因为任务少使一些资源闲置。这就是所谓的“资源饥饿”问题。基于集群技术的作业管理系统就是为了解决这些问题而提出来的。它的目标在于将地理上分布、异构、自治的各种工作站、PC机和专用设备通过网络连接起来,建立有效的分布资源管理模式,形成一种高吞吐量和高性能的分布式  (本文共137页) 本文目录 | 阅读全文>>

西北工业大学
西北工业大学

基于集群技术的作业管理系统通讯机制的研究与实现

作业管理系统(JMS)是建立在操作系统之上的一类中间件软件。它的主要用途是强化操作系统的作业管理功能,形成有效的分布资源管理模式,建立大吞吐量和高性能的分布式计算环境。本文详细分析和论述了基于集群技术的作业管理系统的体系结构和实现方法。作业管理系统具有典型的客户/服务器模型结构,由客户、通讯代理Agent、服务器三层体系结构实现。客户端提供完全的GUI用户界面,完成用户对作业流的管理及对系统的管理功能;通讯代理采用TCP/IP网络通信协议以及与平台无关的数据通讯协议来实现客户与服务器之间的完全通讯;服务器端提供对作业流的全面支持,上层由作业流定义子系统和作业流引擎负责完成对作业流的定义与执行,底层使用网络队列系统(NQS)来实现对作业的调度与执行,使用户能够最大限度地利用计算机网络系统中的各种资源,以提高执行效率、降低作业成本。通讯代理方案使得通讯的效率得到大幅度的提高,同时此方案具有更好的专用性。改进了通讯代理对多码制客户端的...  (本文共71页) 本文目录 | 阅读全文>>

西北工业大学
西北工业大学

集群作业管理系统的研究与实现

高性能的微处理器和高速计算机网络的出现,使得把由大量CPU组成的计算系统通过高速网络连接在一起不仅成为可能,而且变得十分容易。网络作业管理系统就是一种建立于操作系统之上,对连接在一个群集中的工作站或PC进行管理的中间软件。作者于2003年9月进入西北工业大学软件工程中心,参与了一个国际间的合作项目——作业管理系统服务器端系统软件的设计与开发,在一年多的实践基础上,作者对作业管理系统的框架体系结构和实现方法有了一个比较深入的理解和认识。主要的研究工作及成果有:●对作业管理系统的体系结构进行了全面分析,对结构的各个框架构成部分进行了详细的功能描述。并且从作业流的观点,提出了作业管理系统服务器的三层体系模型。●介绍了作业管理系统的设计及实现的关键技术,并重点对性能评测环境的实现和作业管理系统的性能改进做了深入研究。作者提出了一种利用运行应用系统实际代码对其进行性能评测的方法,并介绍了以其为指导的作业管理系统性能评测环境的设计与实现。通...  (本文共89页) 本文目录 | 阅读全文>>

西北工业大学
西北工业大学

作业管理系统增强特性研究与实现

自1986年网络队列系统NQS面世以来,作业管理系统取得了长足的发展。国外一些大型的研究机构和公司都将作业管理系统作为提高生产效率和资源利用率的一项重要技术保证,并面向实际需求进行了大量的研究和开发工作。但国内在该领域的研究还没有取得重大的突破和进展。针对这种现状,作者对作业管理系统进行了较为详细的研究。通过分析和阐述以网络队列系统NQS为基础的作业管理系统的层次结构和功能特点,将作业网络、高可用性和安全性作为作业管理系统的增强特性加以重点研究。作业网络是对作业概念的扩展,通过跨平台作业网络描述语言将单独的作业根据依赖关系构成一个作业网络向系统进行投交和控制。根据作业网络,提出了一个基于作业网络DAG模型的静态调度算法,该算法是对动态负载平衡算法的扩展,用于作业网络的静态负载平衡。作业管理系统的可用性是一个十分重要的评价指标。作者在分析当前集群技术的基础上,提出了高可用性作业管理系统的实现模型。根据该模型,作业管理系统作为虚拟服...  (本文共74页) 本文目录 | 阅读全文>>

湖南大学
湖南大学

基于集群环境的作业管理中间件的研究与实现

随着计算机集群技术的飞速发展,集群作业管理系统已成为高性能计算领域的研究热点之一。然而,作业管理系统一般通过命令行方式进行配置和管理,对用户的知识结构和实际操作技能水平要求比较高,存在配置使用复杂、入门较难、容易出错等不足。如何更加方便有效地使用高性能计算资源成为用户和资源提供者共同关心的问题。本文结合“天河一号”超算平台建设中的实际应用课题,着力于研究基于集群环境的作业管理中间件的设计和实现问题,目标是降低用户使用高性能计算资源的门槛,提高资源利用率。本文主要工作有:(1)本文首先研究了集群技术的定义、体系结构和分类,重点分析了“天河一号”超级计算机的硬件和软件系统结构,然后对集群作业管理系统进行了研究,重点研究了SLURM作业调度器的体系结构、优先级计算策略和工作原理。(2)围绕超算平台的运营需求,本文提出了一种基于用户价值的作业优先级调度策略。本文首先介绍了该策略的提出背景,并对用于多准则决策的层次分析方法(AHP)进行了...  (本文共73页) 本文目录 | 阅读全文>>

西北工业大学
西北工业大学

基于集群技术的作业管理系统研究与应用

摘 要集群技术与作业管理技术的有机结合,产生了基于集群技术的作业管理系统,它将物理上分散、异构、自治的计算机通过网络连接成集群,并通过软件实施有效的分布资源管理,形成了一种高性能高吞吐量的分布式计算环境。这种新型作业管理系统既保留了传统作业管理系统的优势,又引入了集群技术所带来的高可靠性和高可用性,大大提高了系统的利用率。本文针对一个具体的集群作业管理系统CJMS(Cluster Job Management System)的体系结构、基本原理、功能强化展开了深入的研究与实践,主要内容为:1.概括了作业管理系统的发展历史和发展趋势,总结了现代作业管理系统的基本功能和主要特点。2.对作业管理系统的体系架构进行研究与分析,提炼出集群作业管理系统的详细分层实现模型。3.研究并分析了集群作业管理系统的作业调度策略,运用分层的思想给出了CJMS系统的作业分级调度模型,并根据基本的调度算法,讨论并确定出调度模型采用的宏观和微观调度算法。4...  (本文共66页) 本文目录 | 阅读全文>>