榮格工業(yè)資源APP
了解工業(yè)圈,從榮格工業(yè)資源APP開始。
歡迎來(lái)到榮格工業(yè)資源網(wǎng)!
隨著“具身智能”等關(guān)鍵詞首次寫入政府工作報(bào)告,2025年被業(yè)界稱為人形機(jī)器人量產(chǎn)元年,全行業(yè)正迎來(lái)快速發(fā)展階段。一方面,它們能跑能跳,可以成為高效勞作的得力干將;另一方面,它們“反應(yīng)遲鈍”“不夠智能”,智慧猶如處在“幼兒期”。從實(shí)驗(yàn)室走向日常生活的過程中,人形機(jī)器人的“成人”之路剛起步。
8月,全球首個(gè)以人形機(jī)器人為參賽主體的綜合性賽事——“2025世界人形機(jī)器人運(yùn)動(dòng)會(huì)”在國(guó)家速滑館“冰絲帶”開幕。形形色色的“鋼鐵選手”被推到聚光燈中央。
這些擁有成人體格的“運(yùn)動(dòng)員”,看起來(lái)“不太聰明”。它們會(huì)毫無(wú)征兆地偏航、摔倒、看不懂參賽規(guī)則。網(wǎng)友不禁調(diào)侃它們“像極了我家學(xué)走路的娃”。但對(duì)行業(yè)專家而言,每一個(gè)摔倒的瞬間,都暴露出人形機(jī)器人在感知、運(yùn)控、零部件等方面的諸多缺陷。
美國(guó)加州大學(xué)伯克利分校講席教授肯·戈德堡(Ken Goldberg)做過一個(gè)有趣的對(duì)比:“人類預(yù)測(cè)兩百萬(wàn)公里之外的小行星運(yùn)動(dòng),遠(yuǎn)比預(yù)測(cè)機(jī)器人抓取物體時(shí)的運(yùn)動(dòng)要準(zhǔn)確得多。”誰(shuí)承想,比起宇宙尺度的運(yùn)算,讓機(jī)器完成“抓杯子”這樣的日常動(dòng)作,竟成了機(jī)器人發(fā)展的一道難關(guān)。
站在風(fēng)口上的人形機(jī)器人,它們當(dāng)前不過是一群剛學(xué)會(huì)站立的“幼兒”——四肢發(fā)達(dá),頭腦簡(jiǎn)單。它們?nèi)绾尾拍芸邕^“幼兒期”?
成人般的外形,幼兒般的笨拙
寧波市海曙區(qū)的浙江人形機(jī)器人創(chuàng)新中心,幾十臺(tái)機(jī)器人和平均年齡不到35歲的研發(fā)團(tuán)隊(duì)相互圍繞,充滿未來(lái)感。
實(shí)驗(yàn)室中,一臺(tái)尚處于研發(fā)階段的人形機(jī)器人正嘗試獨(dú)立行走。它的膝蓋微微發(fā)顫,關(guān)節(jié)發(fā)出機(jī)械嗡嗡聲,在科研團(tuán)隊(duì)的“使壞”干擾下,每邁出幾步都要停頓片刻,笨拙的姿態(tài)像極了剛學(xué)會(huì)走路的孩子。
“幼兒”般的笨拙,在科學(xué)層面恰與人類進(jìn)化歷程形成呼應(yīng)——百萬(wàn)年前,古猿“露西”(記者注:在現(xiàn)今的埃塞俄比亞發(fā)現(xiàn)的擁有318萬(wàn)年歷史的著名古人類,被稱為“人類祖母”)的枕骨大孔位置與現(xiàn)代人一致,股骨向內(nèi)側(cè)傾斜,足弓清晰可見,這正是人類直立行走的最早實(shí)證。
仿人形而生的機(jī)器人承載著人類的驕傲——我們堅(jiān)信自身軀體是世間最精密的“機(jī)械”,人類所有造物皆以此為藍(lán)圖;它們也寄托著人類的想象——倘若借鋼鐵之軀輔以具身智能,機(jī)器人又將如何塑造世界?
后空翻、跳舞、跑步……今天,人形機(jī)器人的動(dòng)作能力令人驚嘆。但這些精彩表演背后是高度可控的環(huán)境和反復(fù)調(diào)試的結(jié)果。
“我們最大的愿望是讓機(jī)器人干活。但現(xiàn)在,距離家里、工廠里大規(guī)模應(yīng)用,技術(shù)還差得遠(yuǎn)。”宇樹科技創(chuàng)始人王興興在接受媒體采訪時(shí)坦言。這位曾因制造春晚“扭秧歌”機(jī)器人刷屏的青年科學(xué)企業(yè)家,對(duì)技術(shù)邊界保持著清醒。
第四屆中國(guó)-中東歐國(guó)家博覽會(huì)暨國(guó)際消費(fèi)品博覽會(huì)上,浙江人形機(jī)器人創(chuàng)新中心工作人員在“數(shù)智中東歐”展區(qū)展示一款零售機(jī)器人。 來(lái)源: 新華社
在進(jìn)行機(jī)器人研發(fā)時(shí),科學(xué)家們當(dāng)然不會(huì)滿足于掃地機(jī)器人、自動(dòng)炒菜機(jī)、外賣機(jī)械狗這樣功能相對(duì)單一的產(chǎn)品。在他們的設(shè)想中,人形機(jī)器人的雙腿能像人類一樣穩(wěn)健、快速、靈活,使其能夠到達(dá)任何地點(diǎn);同時(shí)雙手也要足夠靈巧,能夠處理從家庭到工廠的各種任務(wù),具備“上廳堂、下廚房、進(jìn)工廠”的能力;更重要的是,腦袋要足夠聰明,真正向一個(gè)能夠感知、推理并與物理世界互動(dòng)的具身智能演進(jìn)。
“現(xiàn)實(shí)情況是,大多數(shù)機(jī)器人仍然依賴幾十年前的工業(yè)機(jī)器人的技術(shù),這極大限制了其發(fā)展。”杭州曠行科技創(chuàng)始人舒江鵬說(shuō)。
舒江鵬團(tuán)隊(duì)多年來(lái)專注基建領(lǐng)域巡檢機(jī)器人的研發(fā)。他介紹,當(dāng)前浙江市場(chǎng)真正在各種場(chǎng)景上應(yīng)用了巡檢機(jī)器人的,甚至不足1%。
“市場(chǎng)占有率最能說(shuō)明問題,效率低的工具自然無(wú)人問津。”他說(shuō),人形機(jī)器人在馬拉松賽場(chǎng)上的表現(xiàn)很直觀,要在無(wú)遙控狀態(tài)下自主跑一分鐘不摔跤,目前都比較困難。未來(lái)要讓機(jī)器人真正“干活”,必然不能依賴遙控。
這種笨拙在工業(yè)場(chǎng)景中被無(wú)限放大。輪式機(jī)器人不用考慮平衡,重心低,碰到臺(tái)階繞著走就行。人形機(jī)器人要直立行走,地面稍有不平就容易失穩(wěn)——摔一次,身上的傳感器等精密部件可能就會(huì)損壞需要更換,維修成本比請(qǐng)幾個(gè)工人還高。
但這或許正是技術(shù)最迷人的地方。
就像幼兒從只能匍匐前行到獨(dú)立行走需要18個(gè)月,從跌跌撞撞到健步如飛需要數(shù)年,人形機(jī)器人,其發(fā)展仍面臨諸多亟待解決的困難。
變“聰明” 需要學(xué)會(huì)用“腦”
如果把機(jī)器人的身體比作一個(gè)人,那么藏在關(guān)節(jié)里的運(yùn)動(dòng)控制系統(tǒng)就像人類的小腦,負(fù)責(zé)將指令轉(zhuǎn)化為具體動(dòng)作。搭載的深度學(xué)習(xí)算法則是大腦,承擔(dān)著感知、決策與認(rèn)知的重任。
然而,這對(duì)“大小腦”組合的發(fā)育速度,遠(yuǎn)未達(dá)到科學(xué)家的期待。舒江鵬表示,如果說(shuō)“大腦”還停留在“剛學(xué)會(huì)說(shuō)話的孩童”階段,那么“小腦”成熟度也僅僅是“小學(xué)一年級(jí)新生水平”。
“和璇”機(jī)器人樂隊(duì)在演奏。 受訪者供圖
在杭州海創(chuàng)人形機(jī)器人創(chuàng)新中心展廳,由三臺(tái)人形機(jī)器人組成的“和璇”樂隊(duì)通過機(jī)械手和機(jī)械臂演奏鋼琴、揚(yáng)琴、架子鼓,流暢彈奏著《青花瓷》《滄海一聲笑》《孤勇者》等歌曲。
演奏的“秘訣”,在于靈巧手、機(jī)械臂與算法的協(xié)同。浙江省機(jī)器人產(chǎn)業(yè)發(fā)展協(xié)會(huì)秘書長(zhǎng)、杭州海創(chuàng)人形機(jī)器人創(chuàng)新中心副主任宋偉介紹,程序會(huì)先解析曲譜,確定每個(gè)音符對(duì)應(yīng)的“手指”與時(shí)機(jī),再通過驅(qū)動(dòng)器件將算法決策轉(zhuǎn)化為動(dòng)作。團(tuán)隊(duì)當(dāng)前研發(fā)出來(lái)的機(jī)器人樂隊(duì)在該領(lǐng)域已具備國(guó)際領(lǐng)先水平。
然而,這種模式似乎只是在執(zhí)行預(yù)設(shè)程序,就像一個(gè)記憶力驚人卻缺乏思考能力的孩子。“真正的挑戰(zhàn)在于,當(dāng)樂譜突然出現(xiàn)變奏,它能不能像人類演奏家那樣,靠觸覺、聽覺等多種感知即時(shí)調(diào)整力度與節(jié)奏?”杭州海創(chuàng)人形機(jī)器人創(chuàng)新中心總工程師謝安桓說(shuō)。
問題的核心之一,在于機(jī)器人的“大腦”太“年輕”。
與人一樣,機(jī)器人的運(yùn)行方式是持續(xù)循環(huán)的過程——感知、思考,然后運(yùn)動(dòng)。感知、運(yùn)動(dòng)可以在傳感器、關(guān)節(jié)等硬件上下功夫,比如宋偉團(tuán)隊(duì)將“和璇”的機(jī)械臂從12千克的重量減輕到6千克,機(jī)械臂越輕巧就越容易控制。但教會(huì)機(jī)器人思考,甚至協(xié)同,可比讓它更好感知、運(yùn)動(dòng)難得多。
宋偉表示,人類的大腦能同時(shí)處理視覺、聽覺、觸覺等多模態(tài)信息,還能調(diào)用記憶、經(jīng)驗(yàn)甚至直覺,可現(xiàn)在的人形機(jī)器人“大腦”,遇到需要綜合判斷的場(chǎng)景就容易卡殼。
通俗地講,以神經(jīng)網(wǎng)絡(luò)訓(xùn)練為代表的人工智能大模型讓機(jī)器人變聰明了,但距離真正融入人類世界還遠(yuǎn)遠(yuǎn)不夠。
當(dāng)前,如果要實(shí)現(xiàn)人形機(jī)器人的即興演奏,需突破三大核心層面。在“大腦”層面,目前依托成熟的人工智能作曲大模型,已可實(shí)現(xiàn)即興的旋律生成與變化設(shè)計(jì);在“小腦”層面,若運(yùn)動(dòng)控制算法無(wú)法快速精準(zhǔn)求解,便會(huì)出現(xiàn)“指令落地失效”的斷層問題;在硬件性能上,對(duì)電機(jī)的響應(yīng)速度、扭矩精度等核心指標(biāo)提出了更高要求。
“我們的核心目標(biāo),是推動(dòng)人形機(jī)器人與人實(shí)現(xiàn)協(xié)同創(chuàng)作及演奏,如同人類藝術(shù)家間的即興互動(dòng)。當(dāng)人類演奏者完成一段旋律后,機(jī)器人能即時(shí)捕捉并快速回應(yīng),以即興演奏形成互動(dòng)。”宋偉說(shuō)。
舒江鵬的團(tuán)隊(duì)核心由土木建筑與人工智能交叉領(lǐng)域人才組成。舒江鵬深有感觸:“現(xiàn)在開發(fā)機(jī)器人的多是計(jì)算機(jī)、自動(dòng)化專業(yè)人員,可若想讓機(jī)器人干基建工程領(lǐng)域的活,它得先懂專業(yè)知識(shí)——這是計(jì)算機(jī)工程師教不了的。”培養(yǎng)一個(gè)工程師通常需要4年本科的專業(yè)學(xué)習(xí),機(jī)器人也需要“行業(yè)老師”的教導(dǎo)。
可目前,既懂專業(yè)知識(shí)又懂人工智能的復(fù)合型人才寥寥無(wú)幾。“讓寫代碼的人教機(jī)器人寫代碼沒問題,但教它學(xué)修橋梁、檢隧道,跨專業(yè)難度很大。”他說(shuō)。
“摔”得多 就能“長(zhǎng)”得快嗎
就像孩子學(xué)走路,人形機(jī)器人今天“摔”得多,“成長(zhǎng)”也許就會(huì)更快。
今年4月,“天工Ultra”參加人形機(jī)器人半程馬拉松時(shí),還需依賴領(lǐng)跑員發(fā)射無(wú)線信號(hào)跟隨,采用半自主奔跑模式。在4個(gè)月后的世界人形機(jī)器人運(yùn)動(dòng)會(huì)上,它已實(shí)現(xiàn)全自主奔跑,更在百米“飛人大戰(zhàn)”中以21.50秒奪冠。
“今年人形機(jī)器人火爆。從長(zhǎng)遠(yuǎn)來(lái)看,沒準(zhǔn)這只是一個(gè)小火苗,就像當(dāng)初互聯(lián)網(wǎng)的誕生一樣。”接受媒體采訪時(shí),王興興表示。
人形機(jī)器人的走紅,實(shí)則與一個(gè)誕生已久的概念緊密相連——具身智能。早在1950年,計(jì)算機(jī)科學(xué)之父艾倫·圖靈就在經(jīng)典論文《計(jì)算器與智能》中首次提出“智能體需要與物理世界互動(dòng)”的設(shè)想。
作為具身智能最受關(guān)注的關(guān)鍵載體,人形機(jī)器人正從實(shí)驗(yàn)室快步走向大眾視野,成為科技行業(yè)的焦點(diǎn)。那么,機(jī)器人進(jìn)化的終點(diǎn),真的非“人形”不可嗎?
前不久在北京開張的全球首個(gè)具身智能機(jī)器人4S店里,有超100家機(jī)器人產(chǎn)業(yè)鏈上下游企業(yè)明確表達(dá)了入駐意向。其中的大多數(shù)企業(yè)專注領(lǐng)域是非人形機(jī)器人。
業(yè)內(nèi)普遍認(rèn)為,相較具身智能的外在形態(tài),機(jī)器的內(nèi)核更需關(guān)注。畢竟,無(wú)論是四足機(jī)器人、輪式機(jī)器人,還是人形機(jī)器人,歸根結(jié)底還是要切實(shí)解決實(shí)際問題、提升生產(chǎn)生活效率。
那么,距離機(jī)器人真正“敲門”進(jìn)入人們的生活還需要多久呢?
在人形機(jī)器人的未來(lái)發(fā)展路徑上,行業(yè)正上演著多種思路的激烈角力。
比如,有學(xué)者堅(jiān)信“數(shù)據(jù)萬(wàn)能論”,試圖通過給機(jī)器人提供足夠多的訓(xùn)練場(chǎng)景,讓它在虛擬世界里“摔”上億次,在真實(shí)環(huán)境中“試”上萬(wàn)回,終有一天,機(jī)器人能通過海量數(shù)據(jù)學(xué)會(huì)運(yùn)動(dòng)控制的精髓。還有的專家更強(qiáng)調(diào)“工程智慧”,認(rèn)為機(jī)器人的運(yùn)動(dòng)控制本質(zhì)是對(duì)物理規(guī)律的數(shù)學(xué)建模,需要回到基礎(chǔ)力學(xué)、控制理論的底層邏輯,用工程師的巧思,而非單純的數(shù)據(jù)堆砌來(lái)突破限制。
不過,從純技術(shù)的角度來(lái)看,解決現(xiàn)存的難點(diǎn)問題或許指日可待。
目前,為整合不同形態(tài)與平臺(tái)的機(jī)器人數(shù)據(jù),業(yè)界已推出迄今為止全球最大的開源真實(shí)機(jī)器人數(shù)據(jù)集。由于機(jī)器人領(lǐng)域的數(shù)據(jù)集普遍存在規(guī)模偏小、多樣性不足的問題,如何將人類動(dòng)作捕捉數(shù)據(jù)轉(zhuǎn)化為機(jī)器人可利用的動(dòng)作空間,至今仍是該領(lǐng)域的前沿研究課題。
宋偉大膽預(yù)測(cè),未來(lái)五到十年,全球至少有一家企業(yè)可以把比較通用的機(jī)器人大模型開發(fā)出來(lái)。這個(gè)基礎(chǔ)大模型就像是一個(gè)完整的積木,大語(yǔ)言模型只是其中一塊,其他組成部分還包括視覺感知、力覺感知、決策和交互等。
行業(yè)的突圍正在悄然展開。輸電塔的檢修現(xiàn)場(chǎng),杭州曠行科技研發(fā)的機(jī)器人沿著鋼架攀爬檢修;警務(wù)人員的執(zhí)法現(xiàn)場(chǎng),杭州邏騰科技的球形機(jī)器人可以完成巡邏、偵測(cè)、救援等任務(wù)……
“我們更希望讓機(jī)器人去干人類不想干的活,而不是搶人類的飯碗——礦山井下、電力高塔、隧道深處這些惡劣環(huán)境下的工作。”舒江鵬說(shuō),施工現(xiàn)場(chǎng)哪怕一道簡(jiǎn)單工序,都需要機(jī)器人“看懂文字、聽懂指令、識(shí)別三維環(huán)境”。他們正在嘗試通過大模型訓(xùn)練,讓機(jī)器人掌握3到5個(gè)固定工序,從“會(huì)干活”開始,再追求“干好活”。
這些鋼鐵“幼兒”的跨越,也需要技術(shù)的沉淀、場(chǎng)景的打磨,以及對(duì)“成長(zhǎng)周期”的耐心。當(dāng)它們真正擺脫“幼兒期”的那天,會(huì)帶著更聰明的大腦、更靈活的雙手,成為我們身邊不可或缺的伙伴。(本文作者:何冬?。?nbsp;
專家觀點(diǎn):人類與機(jī)器的關(guān)系將發(fā)生顛覆性變革
具身智能(Embodied Intelligence),當(dāng)今科技界最熱門的話題之一。它不僅是技術(shù)概念的飛躍,更預(yù)示著我們與機(jī)器的關(guān)系將發(fā)生顛覆性變革。
人形機(jī)器人在重慶舉行的2025世界智能產(chǎn)業(yè)博覽會(huì)上與觀眾互動(dòng)。 來(lái)源:新華社
簡(jiǎn)單來(lái)說(shuō),具身智能就是賦予AI一個(gè)物理“身體”。它不再僅僅是處理數(shù)字信息的程序,而是能夠像人類一樣,通過感知、決策和行動(dòng),與真實(shí)世界進(jìn)行深度互動(dòng)的一種智能實(shí)體。
這背后是多項(xiàng)前沿技術(shù)的集成:如生物傳感(Biosensing),指通過可穿戴設(shè)備等載體,實(shí)時(shí)捕捉和感知人體的生理信號(hào),例如眼動(dòng)、心率等,從而理解個(gè)體的認(rèn)知狀態(tài);空間計(jì)算(Spatial Computing),指利用同步定位與建圖(SLAM)等技術(shù),讓機(jī)器能夠像人一樣感知和理解三維物理空間中的環(huán)境、物體和結(jié)構(gòu);生成式人工智能(GAI),指大模型不再只停留在生成文本或圖像,而是能夠根據(jù)環(huán)境變化和任務(wù)需求,實(shí)時(shí)生成多模態(tài)的學(xué)習(xí)資源或行動(dòng)方案。
具身智能賦予了智能體“身體在場(chǎng)”的能力。它能將抽象的概念轉(zhuǎn)化為可感知、可操作的學(xué)習(xí)內(nèi)容,增強(qiáng)知識(shí)與實(shí)踐的深度連接,并能夠根據(jù)環(huán)境和任務(wù)的變化實(shí)時(shí)調(diào)整決策。正如圖靈獎(jiǎng)得主楊立昆所預(yù)言,未來(lái)的趨勢(shì)將是從大語(yǔ)言模型轉(zhuǎn)向由具身智能驅(qū)動(dòng)的“世界模型”,因?yàn)楹笳卟拍苷嬲斫舛嘧儚?fù)雜的物理世界。
在所有具身智能的物理載體中,人形機(jī)器人無(wú)疑最受矚目。這是因?yàn)槿诵螜C(jī)器人的設(shè)計(jì)初衷,就是模仿人類的形態(tài),從而更好地融入人類為自己設(shè)計(jì)的社會(huì)環(huán)境。無(wú)論是操作工具、打開房門,還是在復(fù)雜的環(huán)境中行走,人形機(jī)器人的類人形態(tài)使其能夠適應(yīng)現(xiàn)有的基礎(chǔ)設(shè)施,無(wú)需對(duì)環(huán)境進(jìn)行大規(guī)模改造。
具身智能的飛速發(fā)展,正在讓人形機(jī)器人真正成為能夠自主思考、決策和行動(dòng)的“智能體”。它將大模型的理解能力、常識(shí)推理能力與機(jī)器人的物理執(zhí)行能力相結(jié)合,使得機(jī)器人能夠根據(jù)語(yǔ)言指令理解任務(wù)意圖,并在開放、非結(jié)構(gòu)化的環(huán)境中完成復(fù)雜任務(wù)。
具身智能驅(qū)動(dòng)下的人形機(jī)器人,正在加速?gòu)目苹米呦颥F(xiàn)實(shí),其未來(lái)的作用將滲透到社會(huì)生產(chǎn)與生活的方方面面。
如,工業(yè)與制造業(yè)的“新勞力”。過去,工業(yè)機(jī)器人主要在標(biāo)準(zhǔn)化的流水線上進(jìn)行重復(fù)性工作。而具身智能機(jī)器人則能夠勝任更多非標(biāo)準(zhǔn)化、柔性化的任務(wù),填補(bǔ)傳統(tǒng)自動(dòng)化無(wú)法覆蓋的空白領(lǐng)域。這不僅能提升效率,還能解放人類從事更具創(chuàng)造性的工作。
如,家庭與服務(wù)領(lǐng)域的“新伙伴”。當(dāng)人形機(jī)器人的成本降至消費(fèi)級(jí)別價(jià)格,并具備更強(qiáng)的認(rèn)知能力時(shí),它們將有望走進(jìn)千家萬(wàn)戶。它們可以成為我們的家庭管家、朋友和護(hù)理員。此外,它們還能在家庭安防、娛樂和教育等多個(gè)場(chǎng)景中發(fā)揮作用。
教育領(lǐng)域的“新模式”具身智能應(yīng)用也已初見端倪。利用集成生物傳感、空間計(jì)算等技術(shù)的可穿戴式教育裝備,未來(lái)的學(xué)習(xí)將不再受限于教室或書本。例如,學(xué)生可以佩戴智能眼鏡,在博物館里與虛擬的恐龍進(jìn)行實(shí)時(shí)互動(dòng),或是將化學(xué)實(shí)驗(yàn)中的虛擬分子模型疊加在現(xiàn)實(shí)世界中進(jìn)行操作。這種“身體—環(huán)境—認(rèn)知”的深度耦合,將極大增強(qiáng)學(xué)習(xí)的沉浸感和效果,真正實(shí)現(xiàn)“隨時(shí)隨地、無(wú)處不在”的泛在學(xué)習(xí)。
(本文作者翟雪松、錢春雨分別系浙江大學(xué)科學(xué)與技術(shù)教育學(xué)位點(diǎn)負(fù)責(zé)人、浙江大學(xué)科學(xué)與技術(shù)教育碩士生)
來(lái)源 | 浙江日?qǐng)?bào)、潮新聞