日B视频 亚洲,啪啪啪网站一区二区,91色情精品久久,日日噜狠狠色综合久,超碰人妻少妇97在线,999青青视频,亚洲一区二卡,让本一区二区视频,日韩网站推荐

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于帶約束強化學(xué)習(xí)的 BPP-1 求解

新機器視覺 ? 來源:機器之心 ? 作者:機器之心 ? 2021-01-27 11:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

國防科技大學(xué)、克萊姆森大學(xué)和視比特機器人的研究人員合作使用深度強化學(xué)習(xí)求解在線裝箱問題,該方法的性能表現(xiàn)優(yōu)于現(xiàn)有的啟發(fā)式算法。用戶研究顯示,該算法達到甚至超越了人類的在線碼垛水平。作者團隊還將訓(xùn)練模型部署到了工業(yè)機器人上,實現(xiàn)了業(yè)界首個高效能(連續(xù)碼放 50 個以上隨機尺寸箱子,空間利用率大于 70%)無序混合碼垛機器人。

在物流倉儲場景中,無序混合紙箱碼垛機器人有著大量的應(yīng)用需求。對于亂序到來的、多種尺寸規(guī)格的箱子,如何用機器人實現(xiàn)自動、高效的碼垛,節(jié)省人力的同時提升物流周轉(zhuǎn)效率,是物流倉儲自動化的一個難點問題。其核心是求解裝箱問題(Bin Packing Problem,BPP)這一經(jīng)典的 NP 難題,即為每一個紙箱規(guī)劃在容器中的擺放位置,以最大化容器的空間利用率。求解 BPP 問題的傳統(tǒng)方法大多是基于啟發(fā)式規(guī)則的搜索。

在實際應(yīng)用場景中,機器人往往無法預(yù)先看到傳送帶上即將到來的所有箱子,因而無法對整個箱子序列進行全局最優(yōu)規(guī)劃。因而現(xiàn)有的 BPP 方法無法被直接用于真實物流場景。

事實上,人可以根據(jù)即將到來的幾個箱子的形狀尺寸,很快地做出決策,并不需要、也無法做到對整個箱子序列的全局規(guī)劃。這種僅僅看到部分箱子序列的裝箱問題,稱為在線裝箱問題(Online BPP)。物流輸送線邊上的箱子碼垛任務(wù)一般都可以描述為 Online BPP 問題。因此,該問題的求解對于開發(fā)真正實用的智能碼垛機器人有重要意義。

在 Online BPP 問題中,機器人僅能觀察到即將到來的 k 個箱子的尺寸信息(即前瞻 k 個箱子),我們稱其為 BPP-k 問題。對按序到來的箱子,機器人必須立即完成規(guī)劃和擺放,不允許對已經(jīng)擺放的箱子進行調(diào)整,同時要滿足箱子避障和放置穩(wěn)定性的要求,最終目標(biāo)是最大化容器的空間利用率。Online BPP 問題的復(fù)雜度由箱子規(guī)格、容器大小、箱子序列的分布情況、前瞻數(shù)量等因素共同決定。由于僅知道部分箱子序列的有限信息,以往的組合優(yōu)化方法難以勝任。

近日,國防科技大學(xué)、克萊姆森大學(xué)和視比特機器人的研究人員合作提出了使用深度強化學(xué)習(xí)求解這一問題。該算法性能優(yōu)異,實現(xiàn)簡單,可適用于任意多個前瞻箱子的情形,擺放空間利用率達到甚至超過人類水平。同時,該團隊結(jié)合 3D 視覺技術(shù),實現(xiàn)了業(yè)界首個高效能無序混合碼垛機器人。論文已被人工智能頂會 AAAI 2021 大會接收。

d4594124-6042-11eb-8b86-12bb97331649.png

論文鏈接:https://arxiv.org/abs/2006.14978

方法介紹

作者使用帶約束的深度強化學(xué)習(xí)求解 BPP-1 問題,即只能前瞻一個箱子的情形。然后基于蒙特卡洛樹搜索實現(xiàn)了從 BPP-1 到 BPP-k 的拓展。下圖 1 給出了 BPP-1 和 BPP-k 問題的場景示意。

d4a2ceca-6042-11eb-8b86-12bb97331649.gif

圖 1(上):BPP-1的場景示意,綠色箱子為前瞻箱子。

db47d09a-6042-11eb-8b86-12bb97331649.gif

圖1(下):BPP-k 問題的場景示意,綠色箱子為前瞻箱子。

基于帶約束強化學(xué)習(xí)的 BPP-1 求解

強化學(xué)習(xí)是一種通過自我演繹并從經(jīng)驗中學(xué)習(xí)執(zhí)行策略的算法,很適合求解 Online BPP 這種基于動態(tài)變化觀察的序列決策問題。同時,堆箱子過程的模擬仿真非?!噶畠r」,因而強化學(xué)習(xí)算法可以在模擬環(huán)境中大量執(zhí)行,并從經(jīng)驗中學(xué)習(xí)碼垛策略。然而,將強化學(xué)習(xí)算法應(yīng)用到 Online BPP 上面臨幾個方面的挑戰(zhàn):首先,如果將水平放置面劃分成均勻網(wǎng)格,BPP 的動作空間會非常大,而樣本效率低下的強化學(xué)習(xí)算法并不擅長應(yīng)對大動作空間的問題;此外,如何讓強化學(xué)習(xí)算法更加魯棒、高效地學(xué)習(xí)箱子放置過程中的物理約束(如碰撞避免、穩(wěn)定支持等),也是需要專門設(shè)計的。

為了提升算法的學(xué)習(xí)效率,同時保證碼放的物理可行性和穩(wěn)定性,作者在 Actor-Critic 框架基礎(chǔ)上引入了一種「預(yù)測 - 投影」的動作監(jiān)督機制(圖 2)。該方法在學(xué)習(xí) Actor 的策略網(wǎng)絡(luò)和 Critic 的 Q 值(未來獎勵的期望)網(wǎng)絡(luò)之外,還讓智能體「預(yù)測」當(dāng)前狀態(tài)下的可行動作空間(可行掩碼,feasibility mask)。在訓(xùn)練過程中,依據(jù)預(yù)測得到的可行掩碼將探索動作「投影」到可行動作空間內(nèi),再進行動作采樣。這樣的有監(jiān)督可行性預(yù)測方法,一方面可以讓強化學(xué)習(xí)算法快速學(xué)習(xí)到物理約束,另一方面也盡可能避免了訓(xùn)練中箱子放置到不可行位置而提前終止序列,從而顯著提升訓(xùn)練效率。

e1821d30-6042-11eb-8b86-12bb97331649.png

圖 2:基于「預(yù)測 - 投影」的動作監(jiān)督機制實現(xiàn)帶約束的深度強化學(xué)習(xí)。

基于蒙特卡洛樹搜索的 BPP-k 擴展

e4c8e8de-6042-11eb-8b86-12bb97331649.gif

圖 3:本文算法的空間利用率與前瞻箱子個數(shù)正相關(guān)。

如果算法能夠在碼放當(dāng)前箱子的同時考慮之后到來的箱子尺寸,可能會得到更好的碼放效果(如圖 3 所示)。對于前瞻 k(k》1)個箱子的情況,一種方法是直接學(xué)習(xí)前瞻多個箱子的碼放策略。但是,這種策略往往難以在任意前瞻箱子數(shù)目上很好地泛化。針對不同的 k 單獨訓(xùn)練一種策略顯然是不夠聰明的做法。

對此,本文的處理方法是基于 BPP-1 這一基礎(chǔ)策略,通過排序樹搜索的方法拓展到 BPP-k 的情況。事實上,前瞻多個箱子的基本思想,就是在擺放當(dāng)前箱子時,為后續(xù)箱子「預(yù)留」合適的空間,以使得這些箱子的整體擺放空間利用率更高?!割A(yù)留」暗含了對于 k 個前瞻箱子的不同排序。因此,我們只需要搜索 k 個前瞻箱子的不同排序(圖 4),找出一種空間利用率最高的排序,該序列所對應(yīng)的當(dāng)前箱子的擺放位置,即為當(dāng)前箱子的最佳擺放位置。這樣的處理方式,等同于在當(dāng)前箱子的擺放過程中考慮了后來的箱子。不過,需要注意的是,在這些虛擬的擺放序列中,實際順序中先到的箱子不能擺在后到的上面。

e94a88c2-6042-11eb-8b86-12bb97331649.png

圖 4:箱子的真實順序(左上)和虛擬重排順序(左下,實際順序靠前的箱子不能放在實際順序靠后箱子的上面),右邊展示了不同序列的排序樹。

顯然,考慮所有的排序可能很快帶來組合爆炸問題。為此,作者使用蒙特卡洛樹搜索(MCTS)來減小搜索空間。作者基于 critic 網(wǎng)絡(luò)輸出的 Q 值,對從當(dāng)前狀態(tài)之后可能得到的獎勵進行估計。在排序樹搜索過程中,優(yōu)先選擇可能得到更高獎勵的節(jié)點進行展開。這樣可將搜索復(fù)雜度控制在線性級別。

此外,作者還介紹了處理箱子水平旋轉(zhuǎn)和多容器碼放的擴展情況。如果碼放過程中允許箱子水平旋轉(zhuǎn),則只需將 BPP-1 模型中的動作空間和可行掩碼同時復(fù)制,分別處理兩種朝向。針對多容器碼放,算法需要對箱子放入每個容器所帶來的 Q 值變化進行量化:作者使用 critic 網(wǎng)絡(luò)對箱子碼放到某個容器前后的 Q 值進行評估,每次都將箱子放入 Q 值下降最小的容器內(nèi)。

實驗結(jié)果

在 BPP-1 上,作者將本文方法和其他啟發(fā)式算法進行了對比(圖 5)。在三種不同數(shù)據(jù)集上,基于深度強化學(xué)習(xí)算法的性能顯著優(yōu)于人為設(shè)計啟發(fā)式規(guī)則(尤其是面向 Online BPP 的)。

ec7f716a-6042-11eb-8b86-12bb97331649.png

圖 5:深度強化學(xué)習(xí)算法和啟發(fā)式算法在 BPP-1 問題上的性能(擺放箱子數(shù)目和空間利用率)對比。

同樣在 BPP-1 問題上,作者針對不同的約束項進行了消融實驗(圖 6):MP - 可行掩碼預(yù)測;MC - 可行掩碼投影;FE - 動作熵(多樣性)最大化。實驗結(jié)果表明,在訓(xùn)練過程中加入可行動作約束對訓(xùn)練效果有顯著提升。

effa7574-6042-11eb-8b86-12bb97331649.png

圖 6:本文算法在 BPP-1 問題上的消融實驗

作者在 BPP-k 上驗證了排序樹搜索可以使空間利用率隨著前瞻數(shù)量 k 的提升而提升(圖 7b),而使用蒙特卡洛樹搜索可以在不明顯影響性能的前提下,顯著降低排序樹搜索的時間開銷(圖 7a)。此外,作者針對 BPP-1 進行了用戶研究,比較本文 BPP-1 算法和人擺放的空間利用率。如圖 7c 所示,本文方法超越了人類擺放的性能:在總共 1851 個高難度隨機箱子序列中,人類獲勝的次數(shù)是 406 次,平均性能表現(xiàn)是 52.1%,而強化學(xué)習(xí)獲勝的次數(shù)是 1339 次,平均性能表現(xiàn)是 68.9%。

f35e2ea4-6042-11eb-8b86-12bb97331649.png

圖 7 (a):窮舉排序數(shù)搜索和 MCTS 算法的時間開銷對比;(b):窮舉排序數(shù)搜索和 MCTS 算法的時間開銷對比;(c):本文算法、啟發(fā)式算法 BPH 和人類用戶的碼放性能對比。

對于不同的前瞻箱子數(shù),本文方法和啟發(fā)式算法 BPH 的性能對比情況如圖 8 所示。盡管 BPH 算法允許對前瞻箱子的順序進行任意調(diào)整而本文方法不允許,但本文方法仍然能取得更好的性能。

f5084c4e-6042-11eb-8b86-12bb97331649.png

圖 8:在三個數(shù)據(jù)集上的 BPP-k 任務(wù)中,深度強化學(xué)習(xí)算法與啟發(fā)式算法的性能對比。

為驗證本文算法的有效性,作者團隊將模型部署到工業(yè)機器人上,實現(xiàn)了一個智能碼垛機器人(圖 9,查看完整視頻)。將仿真環(huán)境訓(xùn)練的策略應(yīng)用到真實環(huán)境,涉及從虛擬到真實環(huán)境的策略遷移(Sim2Real)問題。為此,作者基于「Real2Sim」的思路,采用 3D 視覺算法,實時檢測容器上箱子的真實擺放情況,并轉(zhuǎn)換為與虛擬世界對應(yīng)的理想 box 表示,作為強化學(xué)習(xí)模型的輸入。對于亂序到來的隨機尺寸箱子,該機器人能夠連續(xù)、穩(wěn)定、快速碼放數(shù)十個箱子,容器空間利用率達到 70% 以上,性能遠超現(xiàn)有同類型機器人。

圖9: 基于深度強化學(xué)習(xí)的高效能無序混合碼垛機器人。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    31510

    瀏覽量

    223890
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4810

    瀏覽量

    98619
  • 強化學(xué)習(xí)
    +關(guān)注

    關(guān)注

    4

    文章

    274

    瀏覽量

    12002

原文標(biāo)題:強化學(xué)習(xí)與3D視覺結(jié)合新突破:高效能在線碼垛機器人

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Momenta R7強化學(xué)習(xí)世界模型實現(xiàn)量產(chǎn)首發(fā)

    等話題展開深度對話,正式宣布Momenta R7強化學(xué)習(xí)世界模型實現(xiàn)量產(chǎn)首發(fā),標(biāo)志著智能駕駛從“看見世界”到“理解世界”的全新跨越,物理AI正式從技術(shù)理念走向規(guī)?;慨a(chǎn)落地。
    的頭像 發(fā)表于 04-29 15:44 ?728次閱讀

    Momenta R7強化學(xué)習(xí)世界模型助力上汽大眾ID. ERA 9X正式上市

    2026年4月25日,上汽大眾全新旗艦SUV ID. ERA 9X于2026北京國際汽車展覽會期間正式上市,并將全球首發(fā)搭載Momenta R7強化學(xué)習(xí)世界模型。這意味著Momenta R7率先在全球強化學(xué)習(xí)+世界模型方向上取得量產(chǎn)突破——標(biāo)志著物理AI上車。
    的頭像 發(fā)表于 04-29 15:42 ?670次閱讀

    上汽奧迪E5 Sportback車型升級搭載全新Momenta強化學(xué)習(xí)大模型

    近日,上汽奧迪宣布旗下 E5 Sportback 車型升級搭載 全新Momenta 強化學(xué)習(xí)大模型。
    的頭像 發(fā)表于 04-09 09:33 ?256次閱讀

    上汽大眾ID. ERA 9X全球首發(fā)搭載Momenta R7強化學(xué)習(xí)世界模型

    3月30日,Momenta R7強化學(xué)習(xí)世界模型全球首發(fā)搭載車型——上汽大眾ID. ERA 9X正式開啟預(yù)售。
    的頭像 發(fā)表于 03-31 13:48 ?432次閱讀

    Momenta R6強化學(xué)習(xí)大模型上車東風(fēng)日產(chǎn)NX8

    3月20日,東風(fēng)日產(chǎn)NX8技術(shù)暨預(yù)售發(fā)布會在廣州舉辦,官宣Momenta R6強化學(xué)習(xí)大模型正式上車東風(fēng)日產(chǎn)新能源SUV——NX8。以全球頂級大廠合力,融合先鋒科技力量,打造更適配全家出行的智能SUV,開啟合資品牌智能化全新賽道。
    的頭像 發(fā)表于 03-24 09:08 ?899次閱讀

    Momenta強化學(xué)習(xí)大模型助力別克至境世家純電版正式上市

    3月17日,別克至境世家純電版正式上市,這是別克與Momenta強化學(xué)習(xí)大模型的又一次深度聯(lián)手。融合別克在MPV市場深耕27年的技術(shù)積淀,以更從容的智慧駕控,重新定義豪華與自在的出行體驗。
    的頭像 發(fā)表于 03-18 15:48 ?350次閱讀

    Momenta R7強化學(xué)習(xí)世界模型即將推出

    3月16日,上汽大眾舉辦以“人本科技”為主題的ID. ERA技術(shù)發(fā)布會,首次揭曉了ID. ERA 系列包括智能輔助駕駛在內(nèi)的諸多核心技術(shù)亮點。會上,Momenta CEO曹旭東正式宣布:Momenta R7強化學(xué)習(xí)世界模型即將推出,并將全球首發(fā)搭載于上汽大眾全新旗艦SUV ID. ERA 9X。
    的頭像 發(fā)表于 03-17 13:57 ?1259次閱讀

    自動駕駛中常提的離線強化學(xué)習(xí)是什么?

    [首發(fā)于智駕最前沿微信公眾號]在之前談及自動駕駛模型學(xué)習(xí)時,詳細聊過強化學(xué)習(xí)的作用,由于強化學(xué)習(xí)能讓大模型通過交互學(xué)到策略,不需要固定的規(guī)則,從而給自動駕駛的落地創(chuàng)造了更多可能。 強化學(xué)習(xí)
    的頭像 發(fā)表于 02-07 09:21 ?380次閱讀
    自動駕駛中常提的離線<b class='flag-5'>強化學(xué)習(xí)</b>是什么?

    強化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓(xùn)練時,有的技術(shù)方案會采用模仿學(xué)習(xí),而有些會采用強化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強化學(xué)習(xí)有何不同?又有什么特點呢? 什么是強化學(xué)習(xí)
    的頭像 發(fā)表于 01-31 09:34 ?860次閱讀
    <b class='flag-5'>強化學(xué)習(xí)</b>會讓自動駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    多智能體強化學(xué)習(xí)(MARL)核心概念與算法概覽

    訓(xùn)練單個RL智能體的過程非常簡單,那么我們現(xiàn)在換一個場景,同時訓(xùn)練五個智能體,而且每個都有自己的目標(biāo)、只能看到部分信息,還能互相幫忙。這就是多智能體強化學(xué)習(xí)
    的頭像 發(fā)表于 01-21 16:21 ?355次閱讀
    多智能體<b class='flag-5'>強化學(xué)習(xí)</b>(MARL)核心概念與算法概覽

    上汽別克至境E7首發(fā)搭載Momenta R6強化學(xué)習(xí)大模型

    別克至境家族迎來新成員——大五座智能SUV別克至境E7首發(fā)。新車將搭載Momenta R6強化學(xué)習(xí)大模型,帶來全場景的智能出行體驗。
    的頭像 發(fā)表于 01-12 16:23 ?534次閱讀

    如何訓(xùn)練好自動駕駛端到端模型?

    [首發(fā)于智駕最前沿微信公眾號]最近有位小伙伴在后臺留言提問:端到端算法是怎樣訓(xùn)練的?是模仿學(xué)習(xí)、強化學(xué)習(xí)和離線強化學(xué)習(xí)這三類嗎?其實端到端(end-to-end)算法在自動駕駛、智能體決策系統(tǒng)里
    的頭像 發(fā)表于 12-08 16:31 ?1631次閱讀
    如何訓(xùn)練好自動駕駛端到端模型?

    今日看點:智元推出真機強化學(xué)習(xí);美國軟件公司SAS退出中國市場

    智元推出真機強化學(xué)習(xí),機器人訓(xùn)練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機器人宣布其研發(fā)的真機強化學(xué)習(xí)技術(shù),已在與龍旗科技合作的驗證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機強化學(xué)習(xí)方案,機器人
    發(fā)表于 11-05 09:44 ?1174次閱讀

    自動駕駛中常提的“強化學(xué)習(xí)”是個啥?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛時,有些方案中會提到“強化學(xué)習(xí)(Reinforcement Learning,簡稱RL)”,強化學(xué)習(xí)是一類讓機器通過試錯來學(xué)會做決策的技術(shù)。簡單理解
    的頭像 發(fā)表于 10-23 09:00 ?936次閱讀
    自動駕駛中常提的“<b class='flag-5'>強化學(xué)習(xí)</b>”是個啥?

    NVIDIA Isaac Lab可用環(huán)境與強化學(xué)習(xí)腳本使用指南

    Lab 是一個適用于機器人學(xué)習(xí)的開源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時支持模仿學(xué)習(xí)(模仿人類)和強化學(xué)習(xí)(在嘗試和錯誤中進行學(xué)習(xí)),為所有機器
    的頭像 發(fā)表于 07-14 15:29 ?2681次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強化學(xué)習(xí)</b>腳本使用指南
    乡宁县| 正蓝旗| 红河县| 稷山县| 晋州市| 南和县| 新丰县| 洱源县| 南江县| 文昌市| 镇雄县| 清新县| 东兴市| 夏邑县| 定陶县| 冷水江市| 理塘县| 河东区| 武清区| 鲁甸县| 泰安市| 班戈县| 张掖市| 龙胜| 余姚市| 铅山县| 万山特区| 馆陶县| 布尔津县| 泉州市| 拉孜县| 吴川市| 石景山区| 阿荣旗| 正镶白旗| 民乐县| 泗水县| 修文县| 山阳县| 龙海市| 邛崃市|