“走到客廳,把餐桌上的蘋果拿給我”——大模型機器人可以實現這一場景了!
機器人導航技術可使機器人在環境中自主地確定位置、規劃路徑并移動到目的地。然而,現有的機器人導航方法主要依靠純視覺信息,如圖像或視頻來理解周圍環境。在復雜多變的環境中,機器人導航能力往往不足。為了克服純視覺導航存在的局限性,香港科技大學李昊昂教授團隊研究視覺-語言導航技術。研究成果可拓展機器人的應用場景、提高機器人工作效率以及確保機器人工作的安全性。
據介紹,該技術可幫助機器人整合視覺信息及語言指令,從而實現高效的人機交互。例如,在服務機器人的應用中,機器人可理解人類語言指令“走到客廳,把餐桌上的蘋果拿給我”,并通過視覺數據識別“客廳”、“餐桌”、“蘋果”等關鍵信息,進而據此完成任務。研究成果取得了行業領先的性能,可為機器人提供更加自然、智能、高效的導航與交互能力。
在信息保障方面,受制于有限的數據質量和訓練場景,現有的視覺-語言大模型存在對照片拍攝視角敏感、難以理解模糊語言指令等問題。針對該問題,李昊昂教授團隊提出面向視覺-語言導航應用的大模型調優策略。在機器人室內外導航數據上進行視覺數據抽取和語言指令標注,然后將模型在該數據上擬合。機器人可以根據提取的環境視覺特征和人類語言指令來決定其導航路徑。
此外,在數據基礎方面,現有的導航訓練數據主要由人工在真實世界下獲取,存在數據量不足、多樣性低以及標注成本高等問題。李昊昂教授團隊通過仿真數據合成的方式解決該問題。團隊設計了新穎的生成式擴散模型,可合成大量、多樣化、高質量的視覺數據和相關的語言描述。模型通過接收不同的環境控制條件,可以生成各種天氣、光照條件下的場景。同時,模型可以在場景中添加或移除物體,從而有效增加訓練數據的多樣性。實驗證明合成的數據可有效增強訓練數據集,從而提高模型在處理復雜、未見場景時的魯棒性。
免責聲明:該文章系本站轉載,旨在為讀者提供更多信息資訊。所涉內容不構成投資、消費建議,僅供讀者參考。
2023-06-24
2023-06-24
2023-06-20
2023-06-20
2023-06-20