查找相關(guān)新聞報(bào)道,了解坤達(dá)的最新動(dòng)向。
文章聚焦于多模態(tài)大模型(MLMs)時(shí)代下具身人工智能(Embodied AI)領(lǐng)域。探討了Embodied AI在實(shí)現(xiàn)人工通用智能(AGI)中的重要性和作為連接網(wǎng)絡(luò)空間與物理世界的基礎(chǔ)技術(shù)的角色。特別地,隨著多模態(tài)大模型和世界模型(WMs)的出現(xiàn),這些架構(gòu)因其出色的感知、交互和推理能力而被視作具身代理的“大腦”。首先回顧了具身機(jī)器人和模擬器的代表工作,分析了其研究重點(diǎn)和局限性;隨后,詳細(xì)討論了四個(gè)主要研究領(lǐng)域:具身感知、具身交互、具身代理以及模擬到現(xiàn)實(shí)的適應(yīng)。
此外,文中還探索了多模態(tài)大模型在虛擬和實(shí)體具身代理中的應(yīng)用,并強(qiáng)調(diào)了它們對(duì)于實(shí)現(xiàn)在動(dòng)態(tài)數(shù)字和物理環(huán)境中的交互的重要性。最后,文章總結(jié)了具身AI所面臨的挑戰(zhàn)和局限,并指出了未來(lái)的發(fā)展方向。這項(xiàng)研究為具身AI領(lǐng)域的學(xué)者提供了重要的參考,并鼓勵(lì)更多的創(chuàng)新。
1 具身機(jī)器人
具身機(jī)器人僅體現(xiàn)在多模態(tài)大模型(MLMs)和世界模型(WMs)的應(yīng)用上,還涉及到了視覺(jué)語(yǔ)言導(dǎo)航、物體抓取等多種復(fù)雜的交互任務(wù)。例如,英偉達(dá)開(kāi)發(fā)的NvidiaVIMA系統(tǒng)能夠在視覺(jué)和文本提示的指導(dǎo)下執(zhí)行復(fù)雜任務(wù),甚至模擬物理現(xiàn)象。特斯拉的人形機(jī)器人Optimus也在不斷迭代,馬斯克預(yù)測(cè)它將成為特斯拉未來(lái)的長(zhǎng)期價(jià)值來(lái)源之一。此外,斯坦福大學(xué)李飛飛團(tuán)隊(duì)發(fā)布的成果表明,機(jī)器人可以通過(guò)接入大模型直接理解人類(lèi)的自然語(yǔ)言指令,并將其轉(zhuǎn)化為具體的行動(dòng)。這些進(jìn)展標(biāo)志著具身機(jī)器人正朝著更加自主和智能的方向發(fā)展,有望在未來(lái)實(shí)現(xiàn)更廣泛的應(yīng)用場(chǎng)景。
2 具身研究四大領(lǐng)域
(1)具身感知
具身感知的主要任務(wù)是:估測(cè),識(shí)別和操作。
估測(cè):依據(jù)觸覺(jué)信息推斷出物體的特性,如硬度、形狀等。
識(shí)別:根據(jù)觸覺(jué)反饋?zhàn)R別物體的種類(lèi)。
操作:利用觸覺(jué)信息指導(dǎo)對(duì)物體的操作過(guò)程。
對(duì)于非視覺(jué)感知的觸覺(jué),觸覺(jué)傳感器的設(shè)計(jì)原理類(lèi)似于人類(lèi)皮膚的觸覺(jué)機(jī)制,即當(dāng)物體接觸皮膚時(shí),皮膚發(fā)生形變并通過(guò)豐富的神經(jīng)細(xì)胞發(fā)送電信號(hào)。根據(jù)設(shè)計(jì)原理的不同,觸覺(jué)傳感器可以分為非視覺(jué)基、視覺(jué)基和多模態(tài)三種類(lèi)型。而非視覺(jué)基觸覺(jué)傳感器是主要依賴(lài)于電學(xué)或力學(xué)原理,記錄力、壓力、振動(dòng)和溫度等基本低維感官信息。
(2)具身交互
具身交互中基于視覺(jué)語(yǔ)言導(dǎo)航(VLN)的任務(wù)主要有:
MiC:需要大型語(yǔ)言模型(LLM)直接預(yù)測(cè)目標(biāo)位置,并通過(guò)描述場(chǎng)景感知提供導(dǎo)航指令。這種方法要求LLM充分運(yùn)用其“想象”能力來(lái)構(gòu)建想象中的場(chǎng)景。
MCR-Agent:設(shè)計(jì)了一個(gè)三層行動(dòng)策略,需要模型預(yù)測(cè)目標(biāo)位置、預(yù)測(cè)目標(biāo)交互所需的像素級(jí)掩碼,并從前一次導(dǎo)航?jīng)Q策中學(xué)習(xí)。
OVLM:要求LLM預(yù)測(cè)指令對(duì)應(yīng)的行動(dòng)序列和地標(biāo)序列。在導(dǎo)航過(guò)程中,視覺(jué)語(yǔ)言地圖會(huì)不斷更新和維護(hù),并且行動(dòng)會(huì)與地圖上的地標(biāo)相鏈接。
(3)具身智能體
具身智能體中基于視覺(jué)語(yǔ)言動(dòng)作(VLA)模型有:
MiC:需要LLM直接預(yù)測(cè)目標(biāo)位置,并提供導(dǎo)航指令。
MCR-Agent:采用了三層行動(dòng)策略,包括目標(biāo)預(yù)測(cè)、目標(biāo)交互像素級(jí)掩碼預(yù)測(cè)和從歷史導(dǎo)航?jīng)Q策中學(xué)習(xí)。
OVLM:要求LLM預(yù)測(cè)操作和地標(biāo)序列,在導(dǎo)航過(guò)程中持續(xù)更新視覺(jué)語(yǔ)言地圖。
(4)具身世界模型
具身世界模型是在模擬中創(chuàng)建與真實(shí)環(huán)境相似的世界模型,幫助算法在轉(zhuǎn)移到現(xiàn)實(shí)世界時(shí)更好地泛化。其需要通過(guò)收集物理世界的數(shù)據(jù)來(lái)訓(xùn)練模型。并且利用具身控制算法,來(lái)開(kāi)發(fā)能夠適應(yīng)不同環(huán)境變化的控制策略。隨后實(shí)現(xiàn)模擬到現(xiàn)實(shí)(Sim-to-Real)適應(yīng),將模擬環(huán)境中學(xué)習(xí)的能力或行為轉(zhuǎn)移到現(xiàn)實(shí)世界的過(guò)程。這包括驗(yàn)證算法、模型和控制策略的有效性,確保它們能在物理環(huán)境中穩(wěn)健可靠地運(yùn)行。
具身世界模型與VLA模型的區(qū)別: VLA模型首先在大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)上進(jìn)行訓(xùn)練以獲得高級(jí)能力,然后與真實(shí)世界機(jī)器人數(shù)據(jù)共同微調(diào)。而世界模型則從零開(kāi)始在物理世界數(shù)據(jù)上訓(xùn)練,逐漸發(fā)展出高級(jí)能力。
具身世界模型適用場(chǎng)景: 適用于輸入輸出相對(duì)結(jié)構(gòu)化的任務(wù),如自動(dòng)駕駛和物體分類(lèi)等,但不太適合處理高度未結(jié)構(gòu)化的復(fù)雜任務(wù)。
3 多模態(tài)大模型應(yīng)用
多模態(tài)大模型(MLMs)在具身人工智能(Embodied AI)領(lǐng)域的應(yīng)用十分廣泛且深入。這類(lèi)模型通過(guò)整合多種感官信息,如視覺(jué)和語(yǔ)言,使得具身智能體能夠在復(fù)雜的環(huán)境中進(jìn)行高效導(dǎo)航和交互。例如,通過(guò)增強(qiáng)跨模態(tài)匹配方法,代理可以更好地理解指令,并利用其歷史決策進(jìn)行自我監(jiān)督學(xué)習(xí)。同時(shí),利用大型語(yǔ)言模型(LLMs)和視覺(jué)編碼器的融合,可以提升代理對(duì)歷史記憶的理解,并基于此執(zhí)行更復(fù)雜的任務(wù)。此外,圖譜學(xué)習(xí)技術(shù)也被用來(lái)預(yù)測(cè)連續(xù)環(huán)境中可移動(dòng)路徑點(diǎn),幫助代理將復(fù)雜導(dǎo)航轉(zhuǎn)化為節(jié)點(diǎn)間的簡(jiǎn)單導(dǎo)航,從而縮小了從離散到連續(xù)環(huán)境性能差距。這些進(jìn)步共同推動(dòng)了具身代理在理解和應(yīng)對(duì)動(dòng)態(tài)物理環(huán)境方面的顯著提升。
4 結(jié)語(yǔ)
文章對(duì)多模態(tài)大模型時(shí)代具身人工智能領(lǐng)域的全面綜述,涵蓋了具身機(jī)器人的最新進(jìn)展、模擬器、感知、交互、具身代理及從模擬到現(xiàn)實(shí)世界的適應(yīng)等關(guān)鍵研究方向。
轉(zhuǎn)載:具身人工智能的最新進(jìn)展--綜述
論文題目:Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI
論文鏈接:https://arxiv.org/abs/2407.06886
(版權(quán)屬于原作者,如有侵權(quán),請(qǐng)聯(lián)系刪除)
您還未登錄,請(qǐng)登錄后再進(jìn)行相關(guān)操作!