“眼里有活”的斯坦福機(jī)器人！數(shù)十種家務(wù)全包：成本僅約3萬美元

來源：財(cái)聯(lián)社編輯：非小米時(shí)間：2024-01-05 17:42人閱讀

大秀了一把廚藝后，斯坦福華人團(tuán)隊(duì)開發(fā)的機(jī)器人又在北京時(shí)間今日凌晨發(fā)布了新視頻《Mobile ALOHA的一天》，展示了澆花、打掃房間、煮咖啡、給主人刮胡子、洗碗、逗貓、扔垃圾、洗衣服、換被套、收納衣物等數(shù)十種家務(wù)技能，堪稱“全能家政員”。

網(wǎng)友熱評，“最難得的是眼里有活?！?/p>

長期以來，人們深受“莫拉維克悖論”（Moravec's paradox）的困擾，這是一種和人們直覺相悖的現(xiàn)象，即“人類覺得容易的任務(wù)對人工智能來說卻極其困難，反之亦然”。

換言之，一個(gè)會做家務(wù)的機(jī)器人，非常難得。

但別高興得太早，Mobile ALOHA雖然“眼里有活”了，但它的動作依然由人操控（見下圖），并非完全智能的自主操作。

團(tuán)隊(duì)負(fù)責(zé)人之一對此表示，人類操控是暫時(shí)的，他們已經(jīng)在研究如何彌合人為控制和機(jī)器人自控之間的差距。團(tuán)隊(duì)的另一位負(fù)責(zé)人Tony Z. Zhao樂觀表示，“2024年將是機(jī)器人年，這（家政機(jī)器人）僅僅是開始！”

Mobile ALOHA更大的意義在于，其運(yùn)動控制能力比成本高出5-10倍的同類系統(tǒng)更強(qiáng)大，展示了通用機(jī)器人的可行性，一個(gè)便宜、好用的家用機(jī)器人或許很快將會到來。

ALOHA即A Low-cost Open-source Hardware System for Bimanual Teleoperation，是一個(gè)低成本的開源雙手遙控操作硬件系統(tǒng)，即開源機(jī)械臂。

其算法Action Chunking with Transformers （ACT）采用了神經(jīng)網(wǎng)絡(luò)模型Transformers，因此具備模仿學(xué)習(xí)能力。只需要15分鐘的演示，機(jī)械臂就可以學(xué)會一個(gè)動作——直接從真實(shí)演示中執(zhí)行端到端模仿學(xué)習(xí)，并通過自定義遠(yuǎn)程操作界面收集。

據(jù)上述華人團(tuán)隊(duì)介紹，僅用50個(gè)演示，就能讓Mobile ALOHA完成各種復(fù)雜任務(wù)，其成本僅為32000美元（約22萬元），軟件和硬件全部開源。

該團(tuán)隊(duì)在論文中詳細(xì)介紹了Mobile ALOHA的硬件配置——最貴的是機(jī)械臂和移動底座，其中移動底座選擇了同類產(chǎn)品中相對便宜的一款；傳感器方面配備了2個(gè)腕部攝像頭和1個(gè)頂部攝像頭；配有機(jī)載電源和計(jì)算，即1.26千瓦時(shí)重14公斤的電池，在數(shù)據(jù)收集和推理過程中的所有計(jì)算都在一臺消費(fèi)級筆記本電腦上進(jìn)行，該筆記本電腦配有英偉達(dá)3070ti GPU （8gb VRAM）和英特爾i7-12800H。

物料單中高價(jià)值量的部件

英偉達(dá)“網(wǎng)紅研究員”、OpenAI第一個(gè)實(shí)習(xí)生Jim Fan此前樂觀預(yù)測，2024年將成為人工智能界全面崛起反擊莫拉維克悖論的元年，“我們不會立即獲勝，但我們將走上獲勝之路”。

這并非一時(shí)“口嗨”，如今產(chǎn)業(yè)面的各種進(jìn)展層出不窮，Jim列舉了2023年關(guān)于未來機(jī)器人的基礎(chǔ)模型和平臺的發(fā)展：

1、以機(jī)械臂作為物理輸入/輸出設(shè)備的多模態(tài)大模型：VIMA、PerAct、RvT（英偉達(dá)）、RT-1、RT-2、PaLM-E（谷歌）、RoboCat（DeepMind）、Octo（伯克利、斯坦福、CMU）等；

2、彌合 System 1（負(fù)責(zé)低級控制）和 System 2（負(fù)責(zé)高級推理）之間差距的算法（使得系統(tǒng)能夠利用高級推理進(jìn)行決策和理解，并將這些決策轉(zhuǎn)化為實(shí)際的操作和控制）：Eureka（英偉達(dá)）、Code as Policies（谷歌）等；

3、在強(qiáng)大硬件方面取得的驚人進(jìn)展：特斯拉擎天柱、Figure、1X、Apptronik、Sanctuary、Agility+Amazon、Unitree等；

4、數(shù)據(jù)一直是機(jī)器人技術(shù)的致命弱點(diǎn)，研究界正在共同策劃下一個(gè) ImageNet（人工智能深度學(xué)習(xí)取得突破的關(guān)鍵項(xiàng)目），如開放Open X-Embodiment (RT-X)數(shù)據(jù)集。雖然數(shù)據(jù)集還不夠多樣化，但邁出了重要的一步；

5、模擬和合成數(shù)據(jù)將在解決機(jī)器人靈巧性乃至整個(gè)計(jì)算機(jī)視覺問題上發(fā)揮關(guān)鍵作用；

基礎(chǔ)正一步步被夯實(shí)，站在2024年的年頭，我們有理由期待更強(qiáng)大的機(jī)器人驚艷亮相。

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱：business@qudong.com