只用13 天,OpenAI 做出了能听、能說、能自主决策的機器人大模型

admin 發表於 2024-7-4 19:50:06

北京时候 3 月 13 日深夜，一段人形呆板人的视频起頭在 X 上热傳。

以前從未展現過呆板人標的目的能力的 OpenAI，在与投資公司的人形呆板人的互助暖宮貼,中，第一次展現了本身的呆板人智能能力。

Figure，OpenAI 投資的呆板人公司，上傳了這段视频。在视频中，Figure 的人形呆板人，可以彻底与人類流利對话，理解人類的用意，同时还能理解人的天然說话指令举行抓取和安排，并诠释本身為甚麼這麼做。

而其暗地里，就是 OpenAI 為其設置装备摆設的智能大腦。

在曩昔一年的具身智能希望中，也许你曾看過雷同的呆板人自立决议计划、拿取物品的展現，但在這段视频中，Figure 人形呆板人的對话流利度、展示出的智能感，靠近人類操作速率的動作流利性，绝對都美白產品推薦,是最高级的。

Figure 还特地夸大，整段视频没有任何加快，也没有任何剪辑，是一镜到底拍摄的。同时，呆板人是在彻底自立的环境下举行的举動，没有任何长途把持——彷佛在悄悄嘲讽前段时候爆火的展示了酷炫機器能力，可是没有太多智能水平的斯坦福炒菜呆板人。

比起呆板人的智能表示，更可怖的是，這只是 OpenAI 小试牛刀的成果——從 OpenAI 颁布發表与 Figure 配合互助推動人形呆板人范畴的前沿，到這個视频的公布，只有短短的十三天。

而那时，google的呆板人模子，还只能按照對话来做一些抓取，其實不能与人類對话，也不克不及向人類诠释本身為甚麼會這麼做。而google本身，從 Everyday Robotics 起頭，已有了五年以上的呆板人钻研履历。

而 Figure 自己，建立于 2022 年。從OpenAI 颁布發表参与与之互助防鏽漆種類,，到今天它们配合推出一個可以或许自立對话和决议计划的呆板人，只有 13 天。

呆板人智能的成长，明显正在加快。

Figure 的開创人 Brett Ad壯陽藥,cock 和 AI 團队的賣力人 Corey Lynch 在 X 上诠释了這次视频公布暗地里的道理。

這次的冲破，由 OpenAI 与 Figure 配合做出。OpenAI 供给賣力供给视觉推理和說话理解，而氣墊霜, Figure 的神经收集供给快速、低程度、工致的呆板人動作。

呆板人所做出的所有举動都是出于已進修過，内化了的能力，而不是来自不是长途操作。

钻研职员将呆板人摄像頭中的圖象输入，和機载话筒捕捉的语音中的文本转录到由 OpenAI 练習的，可以理解圖象和文本的多模态模子（VLM）中，由该模子處置對话的全部汗青記實，得出說话相應，然後经由過程文本到语音的方法将其复兴给人類。

一样的模子，也賣力决议在呆板人上運行哪些進修的闭环举動来完成给定的号令，将特定的神经收集权重加载到 GPU 上并履行计谋。

這也是為甚麼這個呆板人，属于「端到端」的呆板人节制。從說话输入起頭，模子接收了一切處置，直接输出說话和举動成果，而不是必要中心输出一些成果，再加载其他的环节處置這些成果。

Figure 的機载摄像頭以 10hz 的频率拍摄圖象，然後神经收集以 200hz 输出 24 個自由度動作。

Figure 的開创人提到，這代表呆板人的速率已有显著提高，起頭靠近人類的速率。

頁: [1]

台灣茵蝶智能機器人論壇's Archiver

只用13 天,OpenAI 做出了能听、能說、能自主决策的機器人大模型