• <em id="8qdxn"><strike id="8qdxn"><u id="8qdxn"></u></strike></em>

        <dd id="8qdxn"><track id="8qdxn"><noframes id="8qdxn"></noframes></track></dd>

      1. <nav id="8qdxn"></nav>
        展會信息港展會大全

        英偉達用ChatGPT-4訓練機器人,代碼水平超過人類專家
        來源:互聯網   發布日期:2023-10-24 18:14:24   瀏覽:7120次  

        導讀:多知網10月23日消息,英偉達(NVIDIA)基于OpenAI的GPT-4打造Eureka,可自動訓練實體機器人的動作指令,例如,轉筆、開抽屜、使用剪刀等超復雜動作。具備零樣本生成、編寫代碼和語境改進等能力,可對強化學習的獎勵設計流程、代碼進行大幅度優化,達到人類專家...

        多知網10月23日消息,英偉達(NVIDIA)基于OpenAI的GPT-4打造Eureka,可自動訓練實體機器人的動作指令,例如,轉筆、開抽屜、使用剪刀等超復雜動作。具備零樣本生成、編寫代碼和語境改進等能力,可對強化學習的獎勵設計流程、代碼進行大幅度優化,達到人類專家級水平。

        英偉達AI高級研究總監兼該論文作者Anima Anandkumar表示,在過去十年,強化學習取得了空前成功,但仍面臨許多困難,例如,獎勵設計需要不斷試錯才能完成。Eureka的出現開創了一種全新的算法,將生成式AI與強化學習相結合以實現更高的執行效率。

        強化學習是機器學習的一種類型,其目標是讓一個智能體在與環境的交互中學習如何實現最優行為,以獲取最大累積獎勵。

        在強化學習中,需智能體不斷地從環境中獲取狀態,并在此基礎上選擇一個行動。環境對智能體的行動給出反饋,這個反饋稱為“獎勵”。強化學習的目標是找到一個最優的策略,關鍵元素包括智能體、環境、狀態、行動和獎勵。

        研究人員對Eureka在多樣化的實體機器人和任務中進行了全面評估,測試了其生成獎勵函數、解決新任務等能力。

        測試環境由由10個不同的機器人和29個使用IsaacGym模擬器實現的任務組成。首先,包括了來自IsaacGym(Isaac)的9個原始環境,涵蓋了從四足動物、雙足動物、四旋翼、協作機器人臂到靈巧手的多樣化機器人形態。除了對機器人形態因素的覆蓋,還通過包含雙手操作基準中的所有20個任務,確保了評估的深度。

        結果顯示,Eureka可以生成超過人類水平的獎勵函數。在29個任務中,Eureka的獎勵在83%的任務中,超過了人類專家編寫的獎勵函數,平均規范化改進為52%。尤其是在高維靈活性環境中,Eureka實現了更大的收益。

        贊助本站

        人工智能實驗室
        AiLab云推薦
        展開

        熱門欄目HotCates

        Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態 | 免責聲明 | 隱私條款 | 工作機會 | 展會港
        国产综合色产在线精品-亚洲a∨在线播无码av-亚洲精品无码久久毛片

      2. <em id="8qdxn"><strike id="8qdxn"><u id="8qdxn"></u></strike></em>

            <dd id="8qdxn"><track id="8qdxn"><noframes id="8qdxn"></noframes></track></dd>

          1. <nav id="8qdxn"></nav>