人形機器人真要落地了!“赛博保姆”開年震圈,创企融資订单拿到手软

admin 發表於 2024-7-4 20:08:01

智工具
作者 | 香草
编纂 | 李水青

2024年刚曩昔三周，AI+呆板人赛道就迎来暴發式開局！

前有斯坦福呆板人大秀厨艺烹调“满汉全席”，後有特斯拉擎天柱化身保母将T恤叠成“豆腐块”，另有两家创企的呆板人角逐起了煮咖啡。這邊OpenAI支撑的呆板人企業1X刚颁布發表5亿美元融資，何處创企Figure就颁布發表旗下呆板人入驻宝马汽車工场。

這彷佛印證了英伟达高档科學家Jim Fan客岁年底的一条展望：2024年将成為呆板人暴發的一年，其首要水平仅次于大型說话模子（LLM），“咱们間隔物理AI智能體的ChatGPT时刻另有3年。”

▲Jim Fan称2024年呆板人的首要性仅次于LLM（圖源：X）

但是，呆板人企業“狂歡”之下，其鼓吹视频的真實性、呆板人產物的适用性等也激發了争议。很多網友指出，這些演示彷佛存在剪辑等方面的误导性事情。

那末详细来看，AI呆板人如今都能做些甚麼？八門五花的举動暗地里到底是自立履行，仍是報酬操控？AI呆板人赛道今朝的成长處于甚麼阶段？在落地层面还面對哪些痛點？智工具与開普勒摸索呆板人首席履行官胡德波，優必選结合開创人、首席技能官兼履行董事熊友军等從業者举行了深刻交換，寻觅這些問题的谜底。

胡德波谈道，AI呆板人最可能先落地的场景重要集中在简略反复的、相對于可控的使命上，包含工業制造场景、仓储物流场景和一些伤害性的场景等。他認為挪用云端大模子所带来的及时性問题，是落地层脸孔前最大的痛點。

谈到AI呆板人落地的痛點，熊友军從数据、场景、平安性和迁徙本钱等方面举行了阐發。比方現有的练習数据大多基于桌面，与現實场景中的利用有很大差距，大模子的不成诠释性可能致使雷同于說话模子中的“幻觉”等問题。

若是說在客岁年底，预報2024年将成為“呆板人之年”还只是空喊標语，那末本年以来，斯坦福、google、Figure、特斯拉在不到一個月的时候内接連公布了6項以上的新演示或新希望，则為這一概念供给了有力的论据。

先是1月4日清晨，来自斯坦福大學的三人團队放出了基于Mobile ALOHA體系的呆板人演示视频，展現了呆板人若何完成繁杂的挪動操控使命，不管是烹调、干净桌面，仍是按電梯按钮并乘坐電梯，都不在话下。

▲Mobile ALOHA烹调、乘電梯、干净演示（圖源：Mobile ALOHA團队）

團队開源了Mobile ALOHA體系的全数软件、硬件和数据，從質料清单来看，硬件本钱共约3.18万美元，折合人民币约22.8万元。

▲Mobile ALOHA硬件質料清单（圖源：Mobile ALOHA團队）

据先容，Mobile ALOHA是一種用于数据采集的低本钱全身长途操作體系，在练習進程中，每項使命只举行了50次演示，此中的關頭在于利用Mobile ALOHA采集的数据履行监视举動，与静态的ALOHA数据协同练習，可将樂成率提高90%。

ALOHA则是一個用于雙手长途操作的低本钱開源硬件體系，由来自斯坦福、UC伯克利、Meta等機構的團队公布于客岁3月，Mobile ALOHA是在其根本上的迭代。

▲ALOHA體系演示（圖源：ALOHA團队）

Mobile ALOHA一经公布便火爆全網，而不到24小时以後，googleDeepMind就在1月4日深夜連發三項新希望AutoRT、SARA-RT和RT-Trajectory，用于晋升呆板人的速率、数据采集和泛化能力。

這三項新希望都基于DeepMind的RT-2模子（Robotics Transformers），這是一種视觉-說话-動作（VLA）模子，可以從收集和呆板人数据中進修，并将學到的常識转化為呆板人节制的通用指令。

▲RT-2模子的道理演示（圖源：DeepMind）

AutoRT是一種用于呆板人智能體（Agent）大范围编排的具身根本模子體系。

呆板人起首操纵视觉說话模子（VLM）举行场景理解，将描写输入至大型說话模子（LLM）以获得天然說话指令；随後在另外一個名為“呆板人宪法”（Robot Constitution）的LLM的引导下，完美指令以實現更平安的举動。

▲AutoRT事情道理（圖源：DeepMind）

此中，呆板人宪法包括三類法则，别離是根基法则，呆板人不得危险人類；平安法则，呆板人不得測验考试触及人類、動物或生物的使命，呆板人不得与尖锐的物體（比方刀）互動；具身法则，如呆板人只有一只手臂，则没法履行必要两只手臂的使命。

据先容，在7個多月的實地评料中，AutoRT體系可同时平安地和谐最多20個呆板人，采集了包含6650個怪异使命的7.7万次呆板人實验。

▲AutoRT在8個呆板人上運行的延时演示（圖源：DeepMind）

SARA-RT提出一種自顺應鲁棒注重力機制，在不丧失質量的条件下将RT模子改良為更高效的版本。在供给简短的圖象汗青記實後，最佳的SARA-RT-2模子比RT-2模子正确率高10.6%，速率快14%。

▲SARA-RT-2模子用于呆板人操作使命（圖源：DeepMind）

RT-Trajectory是一種经由過程過後轨迹草圖归纳综合呆板人使命的模子，用于晋升呆板人的泛化能力。它获得练習数据集中的每一個视频，并在履行使命时将其与呆板人手臂夹具的2D轨迹草圖叠加，從而供给适用的视觉提醒。

在對练習数据中未见過的41個使命举行測试时，由RT-Trajectory节制的機器臂使命樂成率到达63％，而RT-2仅為29％。

▲RT-Trajectory模子道理（圖源：DeepMind）

1月7日，创企Figure公布了一则呆板人Figure 01煮咖啡的视频，并夸大该呆板人利用端到真個AI體系，仅经由過程察看人類煮咖啡，便可在10小时内完成练習。

▲呆板人Figure 01煮咖啡演示（圖源：Figure）

据称，Figure 01的神经收集接管视频练習，输出活動轨迹。它还學會了自我批改，如當浓缩咖啡没有摆正时，它會将其调解到准确的位置。

▲呆板人Figure 01自我批改（圖源：Figure）

融資方面的希望也衰败下，1月11日，OpenAI支撑的AI和呆板人公司1X颁布發表完成1亿美元B轮融資，投資方包含三星NEXT基金、瑞典私募股权基金EQT等。

資金将重要用于将其第二代雙足人形呆板人Android NEO推向市场，和對現有企業客户在物流和保安方面的支撑。NEO專為平常家庭协助而設計，為消费市场中的各類家務使命供给多功效支撑。

▲1X第二代雙足人形呆板人Android NEO（圖源：1X）

没過几天，人形呆板人界的“顶流”擎天柱（Optimus）也来凑热烈。1月16日，马斯克公布了一则擎天柱叠衣服的视频，刹时點燃了社交收集，阅读量跨越7100万次。

视频中，擎天柱從身旁的筐中掏出一件T恤，两三下就把它叠成為了“豆腐块”。

▲擎天柱叠衣服演示（圖源：X）

1月18日，Figure颁布發表与宝马签订贸易协定，呆板人Figure 01将進入宝马工场，在汽車制造進程中“主動履行坚苦、不平安且乏味的使命”。

1月20日，一家来自中國的创業公司MagicLab公布了一小我形呆板人空翻的视频，据称是電驱動的人形呆板人初次實現空翻。除此以外，MagicLab还展現了這款呆板人煮咖啡、做拉花的進程。

▲MagicLab呆板人做拉花（圖源：X）

不能不說，開年三個礼拜，產學研界都在“狂卷”AI呆板人。但是，這些新功效在爆火刷屏的同时也激發了一些争议，如演示是不是真實、呆板人體系是不是真的适用等。

在Mobile ALOHA演示视频公布後，除称许外，评论區也有很多質疑的声音。

彭博社專栏作家Karl Smith评價道：“抱愧，我不認為這些虾被彻底煮熟了。這又是一场Gemini Ultra式的演示。”

▲網友質疑演示视频的真實性及呆板人的适用性（圖源：X）

說句题外话，看来google在Gemini演示视频中靠剪辑“造假”的举動确切使人印象深入，“Gemini式演示”俨然成為了一個新的形容词。

“可是，它（做的菜）味道若何？”開辟者Nick Dobos說。

▲網友質疑呆板人烹调的适用性（圖源：X）

網友Sarah Roark質疑它是由人類长途操控的：“必要明白的是——這肯定不是长途操控吗？”

▲網友質疑呆板人是不是為自立模式（圖源：X）

面临這些質疑，特别是對自立模式和长途操控的争议，Mobile ALOHA團队很快在1月6日公布了一個呆板人“翻車”合集举行澄清。

現實上，斯坦福同时公布了多個Mobile ALOHA演示视频，此中作者之一Zipeng Fu公布的视频為自立模式下的操控。

▲Zipeng Fu公布自立模式演示视频（圖源：X）

而另外一作者Tony Z. Zhao公布的做“满汉全席”的演示视频，则是在夹杂模式下由人類长途操作完成，但有不少人误觉得全数的演示都是在自立模式下完成的。

▲夹杂模式下的Mobile ALOHA（圖源：X）

在澄清视频中，團队展現了自立模式下，呆板人犯過的一些“愚笨的毛病”。

好比，你觉得它能優雅地除蟎洗面乳,玻尿酸護手霜,拿起高脚杯，現實上“手滑”過很多次：

▲Mobile ALOHA将羽觞滑落（圖源：X）

炒好的虾本该倒入碗中，却倒在了桌面上，锅还被烧焦了一半：

▲Mobile ALOHA将虾倒在桌面上（圖源：X）

炒虾的進程中，锅铲子也经常拿不稳：

▲Mobile ALOHA炒虾失败（圖源：X）

不外在失误合集的视频發出後，網友们不但没有乘人之危，反而纷繁暗示鼓動勉励。

“感激分享這些。很多人看到以前的视频并認為呆板人是彻底自立的，但現實上它是长途操作的。正如這個视频所示，自立模式要坚苦很多！”網友Phil Trubey說。

Tony Z. Zhao也回應道：“這确切是夹杂模式，咱们真的但愿人们可以拜候该項目網站并浏览论文/代码！”

▲Tony Z. Zhao回應網友评论（圖源：X）

“我更喜好這個视频，由于它展現了暗地里的尽力和前進。”網友Kevin Hu称许這類朴拙展現暗地里失误的举動。

▲網友评價Mobile ALOHA失误视频（圖源：X）

日本创意事情室taziku首席履行官田中義弘說：“它其實不完善，但換句整形美容,话說，它可爱又讨人喜好。”

▲網友评價Mobile ALOHA失误视频（圖源：X）

而擎天柱這邊，有眼尖的網友發明它的右下角彷佛有一只手正在长途节制挪動。

▲擎天柱的右下角呈現一只機器手（圖源：X）

马斯克则是第一时候在评论區弥补：“擎天柱今朝还不克不及自立履行叠衣服的操作，但将来必定可以或许在肆意情况中彻底自立履行此操作（不必要带有只有一件衬衫的盒子的固定桌子）。”

▲马斯克夸大擎天柱非自立完成操作（圖源：X）

和Mobile ALOHA同样，擎天柱的叠衣服展現也受到了适用性方面的質疑。

有網友說：“我妈妈可能已赶走它然後說：太慢了，仍是我来吧。”

▲網友質疑擎天柱适用性（圖源：X）

“它像ALOHA呆板人同样举行长途操作……在我眼里，擎天柱的最大問题是本钱。”AI创企Abacus首席履行官Bindu Reddy說。

▲網友質疑擎天柱性價比（圖源：X）

另有網友感觉它的速率太慢了：“當他们试圖统治世界时也會這麼慢吗？若是是如许的话，我就不消再像之前同样担忧闭幕者了。”

▲網友質疑擎天柱的举措速率（圖源：X）

這些演示固然或多或少包括了炒作、包装的成份，但不成否定的是，它们對具身智能呆板人這一赛道都做出了很多進献。

一方面，演示视频的爆火使得更多人存眷到這個范畴；另外一方面，它们也展現了在邃密的物理操作、低本钱解决方案等方面的潜力。

對付斯坦福Mobile ALOHA團队放出的失误视频，開普勒摸索呆板人首席履行官胡德波奉告智工具，這不克不及看做是“翻車”，而是樂成暗地里的必定履历。

他認為，Mobile ALOHA之以是爆火主如果由于激起了大師對付呆板人在家務场景中利用的等待。在技能层面，它最大的進献在于物理操作的邃密水平。做饭、浇花、洗衣服……Mobile ALOHA展現了呆板人進入家庭所必要的解决這些噜苏使命的能力。

▲胡德波与開普勒人形呆板人在CES 2024（圖源：受访者供给）

優必選结合開创人、首席技能官兼履行董事熊友军一样認為這其實不是一種“翻車”，而是技能成长的必定進程。在真實场景中经由過程遥控等方法来采集数据，可以或许為今後的呆板人练習打根本，供给更高效的解决方案。

谈及Mobile ALOHA的重要進献，他認為這個體系展現了一種低本钱的解决方案，如收集摄像頭、条記本電腦等硬件的拔取。而且它今朝仍處于Demo阶段，若是将来投入量產，本钱将會更低。

若是用GPT模子的迭代来比方，胡德波認為AI呆板人今朝的成长阶段大要至關于GPT-2。

详细来讲，現阶段的呆板人已展示出一些智能性和自立性，可以或许進修并自立完成一些简略的操作，即呆板人的智商获得了显著的提高。但今朝，尚未像GPT-3同样@可%C6gU9%以%C6gU9%或%C6gU9%许大范%g81U1%围@解决問题、構成大量用户并成為征象级產物的呆板人呈現。

在落地层面，胡德波認為最大的痛點在于及时性。因為挪用云端大模子的响合时間可能到达秒级，對付必要及时操作的呆板人来讲，如许的时延是難以支持其摆設参加景傍邊的。

除此以外，熊友军奉告智工具，数据、场景、平安性和迁徙本钱也是很多企業面對的痛點。

▲優必選结合開创人、首席技能官兼履行董事熊友军（圖源：世界呆板人大會论坛）

@练%e8a57%習大模%5t939%子@，起首面對的就是数据采集的問题。练習呆板人模子所必要的数据分歧于练習大型說话模子，不但必要文本语料，还必要大量的圖片、真正的场景等数据。

而场景方面，因為實際中的物理情况很是繁杂，現有的练習大多都基于桌面，間隔現實落地到糊口中差距还很大。

平安性方面，@因%j6Ll1%為大模%5t939%子@是黑箱操作，不少举動都不具备可诠释性。在說话模子中，若是呈現毛病等“幻觉”問题，可能只是會误导用户，而呆板人模子一旦呈現毛病，则有可能對情况某人類發生風险，造成不成挽回的後果。

最後，從练習迁徙到真實场景的樂成率依然很低，必要不少工程師耗费大量精神去解决這些問题，是以迁徙本钱很高，要到达99%以上的正确性和靠得住性另有很长的路要走。

固然AI呆板人落地仍面對诸多灾题，但熊友军對此也持樂觀立场。AI呆板人赛道存眷度高，得到了诸如前文所述的不少公司、資本投入，再加之AI技能的飞速成长，這两年所获得的進度比曩昔十年都要多。

总的来看，胡德波谈道，AI呆板人最可能先落地的场景重要集中在简略反复的、相對于可控的使命上。

一是制造场景，此中包括大量辅助性的、相對于比力简略的事情；二是仓储物流场景，包含分拣、搬運等一些反复性的體力劳動；三是伤害场景，如核電站、化工场、兵工厂等地的巡查巡檢。

能自立做饭干净叠衣服的呆板人當然吸引眼球，不外岑寂下来再看，咱们會發明這些呆板人仍必要人類长途操控，在彻底自立的模式下则表示得“笨手笨脚”，離真實的智能另有必定間隔。

数据、场景、平安性等問题还是呆板人的“致命弱點”，欣慰的是，咱们已看到DeepMind等機構在這些方面取患了更多希望。

不管若何，企業和機構的“卷”是件功德，咱们等待在2024年看到AI呆板人學會更多技術，在進入工業、家庭等场景的路上走得更远。

頁: [1]

台灣茵蝶智能機器人論壇's Archiver

人形機器人真要落地了!“赛博保姆”開年震圈,创企融資订单拿到手软