當大模型成為移動互聯(lián)網(wǎng)之后的下一個產(chǎn)業(yè)周期后,人形機器人也開始成為承載這一技術(shù)的典型產(chǎn)品之一。
公開數(shù)據(jù)統(tǒng)計,2023年國內(nèi)人形機器人領域共有19起融資,披露融資總額達26.7億元,同比增長65.5%。2024年上半年,國內(nèi)的人形機器人投融資事件已達13起,融資總金額超25億元。在參與投資的機構(gòu),有經(jīng)緯創(chuàng)投、峰瑞資本、紅杉中國等風險投資機構(gòu),也有聯(lián)想創(chuàng)投、上汽、小米這樣的產(chǎn)業(yè)資本,還有亦莊創(chuàng)投、浙商創(chuàng)投等政府資金入常
可以說,與上一波的自動駕駛創(chuàng)業(yè)潮類似,同樣短期內(nèi)還看不到商業(yè)化可能的人形機器人賽道上,為了搶到下一個時代的入場券,資本也開始了早期的密集押注。而不同是,相比自動駕駛而言,各地政府和國有資本進入人形機器人產(chǎn)業(yè)的程度更深、節(jié)奏也更快。
“政府層面如此深度地參與這樣一個早期行業(yè),確實是在十年前的自動駕駛創(chuàng)業(yè)潮中未曾出現(xiàn)過的現(xiàn)象。”
聯(lián)想集團副總裁、聯(lián)想創(chuàng)投合伙人王光熙對鈦媒體APP表示,至于其中原因,一方面與整個資本市場的環(huán)境變化相關。近幾年,國有資本在新興產(chǎn)生產(chǎn)力相關的一些創(chuàng)新領域,開始扮演越來越重要的角色。
另一方面,人形機器人是一個非常早期的行業(yè),也是一個跨領域的復雜系統(tǒng)工程從AI軟件到硬件,再到應用場景,整個價值鏈的鏈條非常長。這就導致單一的機構(gòu),很難像政府部門那樣,湊齊那么多的資源來支持產(chǎn)業(yè)的發(fā)展。
王光熙認為,在人形機器人這個非常早期的行業(yè)中,政府出來做一些事情還是非常有價值的。而作為本輪人形機器人的資本參與方,聯(lián)想創(chuàng)投也投資了諸如星動紀元、逐際動力等人形機器人領域的熱門公司。
“人形機器人領域的早期投資,很關鍵的一點要看創(chuàng)始人是否具有極強的跨領域研發(fā)能力。也就是AI時代原生的具身智能科學家,而不是原來做了多年的機器人控制或者視覺算法,現(xiàn)在大模型火了,出來學著做具身智能的人。”
王光熙稱,人形機器人領域的創(chuàng)業(yè)團隊,需要有對前沿技術(shù)的理解和突破能力,然后將最前沿不同領域的工具融會貫通,這樣才能做好整體的技術(shù)架構(gòu)。
在王光熙看來,現(xiàn)在市場對于人形機器人的預期,短期過于樂觀而長期則過于悲觀。短期內(nèi),有些人期待著人形機器人很快就能下場干活,進入產(chǎn)線甚至家庭生活。但目前這個行業(yè)的現(xiàn)狀是,至少需要兩到三年才能夠在部分技術(shù)領域有一些長足的進步和突破。
而從長遠來看,有觀點則認為人形機器人泛化能力的突破看不到希望,從仿真訓練到實際場景的遷徙存在巨大鴻溝。但其實人形機器人從發(fā)展到成熟的過程中,存在著大量的中間狀態(tài),在不同的可控環(huán)境和可控場景里面,人形機器人可以干各種各樣的事情。
自動駕駛在發(fā)展早期時,政府的傾向可能是先讓企業(yè)在前面跑起來,然后在后續(xù)制定相關的政策。但人形機器人這波創(chuàng)業(yè)潮中,政府層面相對更靠前進入,包括引導基金參與投資或者各地成立創(chuàng)新中心。你是怎么看待前后兩次創(chuàng)業(yè)潮中,政府相關部門的角色變化?
王光熙:你的觀察是對的。
自動駕駛本質(zhì)上還是基于百年汽車工業(yè),有一套已經(jīng)非常成體系的產(chǎn)業(yè)生態(tài),有成熟的規(guī)則,可以依托于成熟的產(chǎn)業(yè)去做增量試驗。因此,政府部門可能也沒有必要在產(chǎn)業(yè)發(fā)展特別早期的時候,就參與進來。
相對于自動駕駛而言,人形機器人是一個技術(shù)難度更高的行業(yè),未來潛在的應用場景也非常廣泛,涉及到工業(yè)、物流、服務業(yè),甚至是個人消費,牽涉社會的方方面面。而且,它還是一個跨領域、復雜的系統(tǒng)工程。從AI軟件到硬件再到應用場景,整個價值鏈的鏈條非常長。
這就導致單一的機構(gòu),很難像政府部門那樣,湊齊那么多的資源來支持產(chǎn)業(yè)的發(fā)展。這個時間點,政府出來做一些事情,還是比較合情合理的,也是非常有價值的。
此外,整個資本市場跟十年前相比也有了一些變化。國有資本在最近幾年,尤其是跟新興產(chǎn)力相關的創(chuàng)新領域,開始扮演越來越重要的角色,引領作用會越來越強,這確實在十年前是沒有的。
在各地政府部門參與人形機器人發(fā)展的過程中,你認為那些城市會有比較大的優(yōu)勢?
王光熙:根據(jù)我們有限的了解,各個地方的方式不太一樣,很難評價哪個方式更好。
以江浙滬地區(qū)為例,它本身的產(chǎn)業(yè)體系就很豐富,從AI到半導體算力再到規(guī);圃炷芰,都有比較全的供應鏈。同時,江浙滬地區(qū)的商業(yè)化比較發(fā)達,大家很會做生意。所以,他們做這件事是奔著能夠商業(yè)化的目標去的,主導權(quán)更多是在企業(yè)。
北京這邊可能不太一樣,整個制造業(yè)相對比較少,但是優(yōu)勢也很明顯,就是AI人才密度很高,還有高校和互聯(lián)網(wǎng)大廠的資源。北京的政策是屬于提綱挈領型的,通過建立框架性政策指導,構(gòu)建平臺型的產(chǎn)業(yè)技術(shù)生態(tài)。
對于人形機器人這樣一個過于早期的行業(yè),供應鏈的集聚效應,算不算是一個明顯優(yōu)勢?
王光熙: 當然是。
機器人目前很多的零部件都不是新的,對于汽車零部件的復用度非常高。新能源汽車在最近十幾年突飛猛進的發(fā)展,讓中國在電機、電控、電池的產(chǎn)業(yè)集中度非常高。同時,汽車行業(yè)的激烈競爭,也讓零部小型化、安全性和能量密度快速提升,這些零部件很大比例可以在人形機器人本體上復用。
除了本體之外,現(xiàn)在主流觀點會把人形機器人其他技術(shù)分成大腦、小腦兩個部分,這兩個領域的技術(shù)發(fā)展又是怎樣的?
王光熙:我其實并不喜歡這種分類方法,比如小腦代表的是控制,大腦代表的是感知理解,這樣會把這個事情變得很割裂。從未來的終局來看,人形機器人可能會越來越像是一個高度融合的端到端模型,這種純模型驅(qū)動的方式成功概率比較大。
其實就跟人一樣,人的行為邏輯并不是先坐在那兒,然后想做一件事情,大腦先把它全計劃完,然后把這個計劃輸出給小腦,讓小腦接收到一堆指令,最后出現(xiàn)各種動作。人類行為的本質(zhì),是高度連通的神經(jīng)網(wǎng)絡,條件反射型的自主動作,有些是直接通過小腦進行運動控制。
所以,在目前人形機器人的基本形態(tài)都還沒有完全確定的情況下,分別去研究大腦和小腦的技術(shù),其實也不太現(xiàn)實。
這有點類似于特斯拉的FSD。FSD出現(xiàn)之前,大家會認為要實現(xiàn)自動駕駛需要安裝多少個雷達,多少個傳感器。但FSD出現(xiàn)之后,就把之前的感知、推理、決策邏輯,完全推翻了。通過基于神經(jīng)網(wǎng)絡的端到端模型,F(xiàn)SD能實現(xiàn)更好的強化學習效果。
但這里面有一個問題,特斯拉FSD的成功,是基于長周期、大量的汽車訓練數(shù)據(jù)得來的。如果純靠模型驅(qū)動,人形機器人各種維度的數(shù)據(jù)應該怎么獲得?相比于特斯拉FSD所需要的數(shù)據(jù)量,人形機器人大模型的數(shù)據(jù)量是不是更大,獲得難度也更大?
王光熙:不一定。
FSD出來之前,雖然特斯拉有了十多年的數(shù)據(jù),但這些數(shù)據(jù)的對于純模型驅(qū)動的FSD而言,價值沒有那么高,此前投入大量精力做的數(shù)據(jù)標注工作可能都是白做的。你可以理解為,F(xiàn)SD不是因為特斯拉有了此前十年的數(shù)據(jù)量才能做出來,而可能是因為基于神經(jīng)網(wǎng)絡的端到端模型,基于近期更高質(zhì)量的數(shù)據(jù)和現(xiàn)有的硬件框架,才有了FSD。
對于人形機器人的數(shù)據(jù),現(xiàn)在學術(shù)圈也在探索,怎么用更高效的方式來獲取數(shù)據(jù)和融合多種類型的數(shù)據(jù)。這些數(shù)據(jù)中,有些可能是機器人在真實場景中的訓練數(shù)據(jù),有些可能是從模仿學習得來的數(shù)據(jù),有些可能是用高質(zhì)量的仿真環(huán)境訓練出來的數(shù)據(jù),不一而足。
但總的來說,想要實現(xiàn)人形機器人的通用化,這些數(shù)據(jù)的需求體量也沒有想象中的那么巨大,因為機器人運動控制的精度和靈敏度也不需要那么高。
和自動駕駛不一樣,一個成熟的自動駕駛產(chǎn)品需要做到人類司機差不多的事故率,甚至更低。但對于通用人形機器人而言,它不一樣要和人類同等水平或是超越人類水平,它可以有很多中間狀態(tài),基于不同等級的通用水平,可以在不同的場景做更多的事情。
這是不是也意味著商業(yè)化可能也沒那么難?
王光熙:我覺得對于商業(yè)化,短期內(nèi)大家都過于樂觀,但是長期又都過于悲觀。短期內(nèi),大家恨不得他明天就啥都能干。但長期來看,它能干還能干好,還便宜,這又很難且區(qū)別很大。比如,如果一個干活能力很強的機器人售價100萬,你會買嗎?可能不會,因為如果多雇傭幾個人,算上增加的成本,可能還是人更便宜。
對于端到端的這種模式,還有一個問題是如果大家都往這個方向走,也都采用類似的傳感器、關節(jié)、電機電控,那么最終決定產(chǎn)品差異的是什么?
王光熙: 雖然大的框架都差不多,但對于框架的理解差別還是挺大的。比如同樣做強化學習、仿真訓練,做得好與不好,差十倍都有可能。再比如在傳感器方面,比如力控傳感器或者觸覺傳感器,過去的行業(yè)積累都很少。所以,從傳感器到底層算法再到多模態(tài)數(shù)據(jù)懸鏈,這個過程中產(chǎn)生的差異會非常大,這也會導致機器人的泛化能力和適用場景也會差異巨大。
所以,對于人形機器人公司的投資,您最看重的是什么?
王光熙: 能否有極強的跨領域研發(fā)能力,這點是非常重要的。人形機器人行業(yè)有著大量需要拓荒的地帶,這個時候創(chuàng)始團隊需要有對前沿技術(shù)的突破能力,以及能夠?qū)⒆钋把夭煌I域的技術(shù)融會貫通,這樣才能做好整體的技術(shù)架構(gòu)。
同時,要看這個人是不是AI時代原生的具身智能科學家,而不是原來做了多年的機器人控制或者視覺算法,現(xiàn)在大模型火了,出來學著做具身智能的人。如果只是一個商業(yè)化的團隊,出來就跟你說我明年就能商業(yè)化閉環(huán),就能賣多少機器人,那都是在吹牛。目前這個行業(yè)的現(xiàn)狀是,至少需要兩到三年才能夠在部分技術(shù)領域有一些長足的進步和突破。(本文首發(fā)于鈦媒體APP,作者| 饒翔宇 編輯 | 鐘毅)