分享到:

基于强化学习的路径规划研究

科学技术日新月异,人类在航空航天领域和无人驾驶方面探索的步伐从未停止。无人机和无人车等智能体的应用范围逐渐扩大,这无形中对其智能化算法提出了更高的要求。智能体在动态障碍物的环境中完成路径规划任务,会存在一定的规划困难,需要对传统的算法进行更深层次的改进。另外,未来的智能体不能仅依赖于手动的编程,按部就班的完成任务,应该通过与环境交互自主完成障碍物的躲避、路径规划与导航等常规任务和使命。而强化学习算法为实现智能体自主化完成任务开辟了一条可行的技术道路。因此,本文研究并改进了传统的路径规划算法,提出基于采样的迭代式快速搜索随机树算法,同时结合前沿领域提出了基于强化学习的路径规划算法。本文主要的内容包括:(1)分析了传统的路径规划算法,并实现简单的实验案例。接着,对比和实现基于采样的快速搜索随机树算法。然后,为了解决其算法的随机性以及遇到动态障碍物的问题,引入迭代的思想,同时添加随机概率因子,使得随机树向外扩展时能够以一定概率偏向终点  (本文共79页) 本文目录 | 阅读全文>>

长沙理工大学
长沙理工大学

基于改善强化学习的移动机器人路径规划

机器人技术作为未来的高新核心科技之一,其研究和发展水平已然成为衡量一个国家综合实力和科技创新的重要指标,所以机器人产业的发展受到越来越多国家的重视,使得机器人这项高技术的研究与应用得到了空前的支持。移动机器人作为第三代机器人,智能机器人的一类,那么路径规划必定是机器人技术中的一项重点研究内容,所以论文开展了移动机器人路径规划的相关研究。论文首先通过查阅文献资料充分了解目前国内外关于路径规划的研究现状,然后简单介绍了几种典型的局部路径规划方法,并总结出其优劣性。随后,为了使机器人路径规划在面对未知环境时能够具有自适应能力和自主学习能力,引入强化学习中的Q-学习作为路径规划方法。针对Q-学习算法结合传统行动策略ε-greedy时存在的探索与利用平衡问题,对行动策略进行了改进,使探索系数ε能根据自身学习状况进行自适应调整,并同时使“坏”动作在学习过程中被选择的概率减少。这样,Q-学习算法与改进后的行动策略结合形成了一种基于学习状况的Q...  (本文共64页) 本文目录 | 阅读全文>>

内蒙古工业大学
内蒙古工业大学

基于DDPG强化学习的移动机器人路径规划

移动机器人在未知环境下的路径规划是机器人导航的核心问题,也是当前众多学者研究的热点。强化学习作为基于奖惩机制的非监督算法,不依赖任何先验知识即可通过与环境交互选择最优动作,对于未知环境下的机器人路径规划具有较强的实用价值。路径规划任务需要输出连续的动作空间,而基于Actor-Critic框架的深度确定策略梯度算法(Deep Deterministic Policy Gradient,DDPG)由于经过策略直接输出动作,有效解决了连续动作空间问题。本文使用DDPG强化学习算法研究未知环境下移动机器人的路径规划。论文分析了路径规划以及强化学习的国内外研究现状,探究了强化学习算法的分类以及发展历程,并通过对已有多种强化学习算法的分析比较,最终选用结合神经网络的DDPG强化学习算法用于移动机器人的路径规划。对深度神经网络以及DDPG算法涉及到的经验池回放等相关背景知识进行了详细描述,为后续DDPG算法改良奠定了理论基础。为搭建DDPG算...  (本文共71页) 本文目录 | 阅读全文>>

山东大学
山东大学

基于强化学习的迁移工作流路径规划研究

随着计算机和网络的发展,工作流管理系统中的迁移工作流研究受到人们越来越多的关注。在迁移工作流模型中,迁移实例作为工作流任务的执行主体,它可以在某个工作位置上利用本地资源执行一项或者多项任务。当迁移实例发现当前工作位置不能满足其执行任务的要求时,便携带任务说明书和当前执行的结果迁移到另一个能满足其要求的工作位置上继续执行,下一个工作位置的选择取决于过程目标及当前任务的要求。因此,如何找到一条最佳的工作路径成为迁移工作流研究的热点问题之一,也是本文所要研究的重点。根据迁移工作流的思想,迁移工作流的执行可以理解为工作流状态的变换过程,即从给定的初始状态开始,迁移实例不断在提供服务的工作位置间迁移,产生下一个状态,直到新的状态满足目标要求。所以工作流路径规划亦是工作流状态转移策略的选择。强化学习又称再励学习,是一种面向目标的学习,是学习者通过与环境动态交互不断尝试不同的行为策略并加以改进,它包括状态、动作、奖赏函数和环境模型四个要素。将...  (本文共64页) 本文目录 | 阅读全文>>

《计算机工程》2021年10期
计算机工程

基于强化学习的路径规划技术综述

路径规划作为移动机器人自主导航的关键技术,主要是使目标对象在规定范围内找到一条从起点到终点的无碰撞安全路径。阐述基于常规方法和强化学习方法的路径规划技术,将强化学习方法主要分为基于...  (本文共10页) 阅读全文>>

国防科技大学
国防科技大学

动态环境下基于强化学习的多自由度CGF路径规划方法研究

分类号 TP391.9 学号 17050056 UDC 621.3 密级 公 开 工学硕士学位论文 动态环境下基于强化学习的多自由度 CGF路径规划方法研究 硕  (本文共78页) 本文目录 | 阅读全文>>