BeingBeyond發布最強世界模型,具身行業迎來「大腦時代」

當20萬個小時的人類行為影像被壓縮進一塊邊緣運算晶片,機器人是否終於有了理解真實世界的「大腦」?BeingBeyond最新推出的具身智慧世界模型Being-H0.7,正是朝這個方向邁出的關鍵一步。這不僅是業界首個可在端側部署且具備商用潛力的世界模型,更標誌著一條不同於傳統視訊生成路線的技術路徑——以人類行為為基礎,訓練機器人具備類似人類的物理直覺。在真實環境中面對動態任務時,risk 判斷、change 預測與即時決策,不再是遙不可及的目標。

過去的世界模型多依賴高算力的視訊預測技術,例如英偉達的Cosmos Policy或DreamZero,試圖透過生成未來畫面來指導動作。然而這類方法不僅對運算資源要求極高,難以在端側實時運行,且二維影像難以精確模擬三維動力學過程,導致生成動作常「看起來合理」卻無法實際執行。Being-H0.7放棄了這條路,轉而採用「隱空間推理」架構:模型內部建立一個壓縮的中繼表徵,整合當下觀察、任務目標與對未來狀態的判斷,直接輸出動作指令。這種方式更接近人類運動員打乒乓球時的反應——不是先模擬完整畫面,而是憑藉經驗做出快速、直覺的response

支撐這套直覺式決策的核心,是超過20萬小時的人類視訊預訓練資料。這些資料不僅規模龐大,更重要的是內含大量未明確標註的物理規律與任務邏輯。模型從中學習的不只是「如何做動作」,而是動作背後的條件、結果與限制。實驗結果顯示,Being-H0.7在六項國際評比中綜合排名第一,其中四項奪冠,成為目前覆蓋能力最廣的具身模型之一。更重要的是,它成功將世界模型的資訊量壓縮百倍以上,可在Orin NX(約75TOPS)等端側平台實現即時運算,突破了部署上的根本barrier

BeingBeyond的技術架構形成完整閉環:從U1靈巧手系統採集高品質人類操作數據,到Being-H系列模型訓練通用能力,再到Being-Dex實現快速任務適配。這種「人類中心學習」(human-centric learning)路徑,讓模型能跨場景、跨任務、跨機器本體遷移能力。相較於多數團隊從機器本體出發、數據封閉於特定硬體的作法,BeingBeyond選擇以人類行為為先驗,拓展了模型的泛化極限。這也解釋了為何其模型能在複雜連續操作、多步驟任務誤差控制上表現出色。

產業結構正在重組。隨著數據取得方式、模型能力與工程閉環的成熟,機器人本體與「具身大腦」開始分離。越來越多本體公司傾向外購通用智慧模組,以降低自研的高昂cost 與時間投入。BeingBeyond憑藉全棧自研能力,已與多家頭部本體廠商合作。這不僅驗證了其技術可行性,更預示一種新分工體系的到來:一類企業專注硬體與落地,另一類提供可複用的智慧基座。Being-H0.7的出現,或許不只是技術突破,更是產業範式轉移的起點。

反應 6

  • 機器語者

    端側部署才是王道,不然再強的模型也難以落地。看到能在Orin NX跑,真的有點震撼。

  • 研數據

    20萬小時的人類視頻,這data 規模太誇張了,光是標註跟清理就得多少人力?

  • 硬體癮

    75TOPS能跑世界模型?等等,這是不是代表我家掃地機器人明年就能自己煮飯了?price 先別問……

  • 觀念派

    從人類行為出發這點很妙,等於讓機器先學「人怎麼做事」,而不是「機器怎麼動」。這才是真正的範式轉移。

  • 務實派

    技術再強,最終還是要看market 接不接受。通用模型的商業模式到底長怎樣?訂閱制還是按次收費?

  • 安全控

    隱空間推理聽起來很聰明,但萬一出錯,我們能理解它為什麼做出那個decision 嗎?可解釋性不能忽略。

本文基於事實,為英語學習目的重新構成,讀者反應是多元觀點的示例。

[email protected]