<mark id="qyzvb"><track id="qyzvb"></track></mark>
      <ins id="qyzvb"></ins>
    1. <code id="qyzvb"></code>
    2. <tr id="qyzvb"><nobr id="qyzvb"><ol id="qyzvb"></ol></nobr></tr>
      <output id="qyzvb"></output>
            展會信息港展會大全

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑
            來源:互聯網   發布日期:2023-11-05 09:01:15   瀏覽:7090次  

            導讀:豐色 克雷西 發自 凹非寺 量子位 | 公眾號 QbitAI GPT-3究竟是如何進化到GPT-4的? 字節給OpenAI所有大模型來了個 開盒操作 。 結果還真摸清了GPT-4進化路上 一些關鍵技術 的具體作用和影響。 比如: SFT是早期GPT進化的推動者 幫助GPT提升編碼能力的最大功...

            豐色 克雷西 發自 凹非寺

            量子位 | 公眾號 QbitAI

            GPT-3究竟是如何進化到GPT-4的?

            字節給OpenAI所有大模型來了個“開盒”操作。

            結果還真摸清了GPT-4進化路上一些關鍵技術的具體作用和影響。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            比如:

            SFT是早期GPT進化的推動者

            幫助GPT提升編碼能力的最大功臣是SFT和RLHF

            在預訓練中加入代碼數據則提升了后續GPT版本的各方面能力,尤其是推理……

            創業后忙得不可開交的AI大牛李沐看完,也久違地出現在公眾視野,并給這項研究點了個贊。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            網友們更是盛贊:

            這是迄今為止第一個充分開盒OpenAI所有模型的工作,respect。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            而除了一些新發現,它還坐實了一些已有猜想:

            比如GPT-4在變笨并非危言聳聽,這項評測發現GPT進化路上出現了明顯的“蹺蹺板現象”,即模型進化過程中一部分能力提升另一部分下降。

            這和網友此前的感受不謀而合。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            如作者本人表示:

            這項工作可以為GPT-3到GPT-4的演化路徑提供寶貴的見解。

            言外之意,通過它我們可以一窺GPT模型的“成功之道”,為接下來的大模型構建工作提供有效經驗。

            那么,具體它都“開”出了哪些東西,我們扒開論文來看。

            探秘GPT-3到GPT-4進化之路

            最開頭的進化圖由作者們根據公開信息總結得出。

            可以看到,它標注了每一個中間模型是經過哪些技術(如代碼微調、SFT/FeedME等)一路從最初的GPT-3進化到3.5再到如今的4。

            這些技術具體起到了多大影響,從davinci到gpt-4-0613,字節對每代GPT的數學、編碼、推理等7大能力全部測了個“底朝天”。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            1. SFT:早期GPT進化的推動者

            首先,在GPT-3系列中,最初的davinci(GPT-3)通過監督微調SFT和其變體FeedME進化為了text-davinci-001。

            這讓后者在幾乎全部任務上都獲得了性能提升:

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            更直觀的表現如下圖所示(“粉圈”為進化后的text-davinci-001)。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            接著,GPT開始進入3.5系列,在該系列早期階段,先是最基礎的code-davinci002采用同樣的技術進化成text-davinci-002。

            然而這一進化操作的效果屬實不大,GPT的各項性能只有少數幾個提升,更多是不增反減的。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            在此,作者引出他們的第一個結論,即:

            SFT只在較弱的基礎模型上管用,用在更強的模型上收效甚微。

            類似現象在開源模型身上也可見(這個評測還測了Llama1和2、PaLM2-L、Claude 2等模型):

            在初代Llama-65B之上,SFT成功提升了它在MMLU基準上的性能,但是,所有使用了SFT改進的Llama2-70B在Open LLM Leaderboard榜單上卻只表現出微小的進步。

            總結:在GPT3階段,SFT技術對模型的進化起到了關鍵作用。

            2、RLHF和SFT:編碼能力提升的功臣

            順著GPT3.5系列接著看,從text-davinci-002開始,OpenAI開始引入新技術基于PPO算法的RLHF,得到text-davinci-003。

            此時,它在大部分基準上的表現和前代模型持平或略變差,說明作用不是特別明顯(在開源模型身上也是如此)。

            但有一個除外:編碼任務,最高足足增加了近30分。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            聯想到前面code-davinci002采用SFT技進化成text-davinci-002造成整體性能下降時,編碼任務也沒受影響,反而還漲分了

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            作者決定驗證SFT和RLHF對大模型編碼能力的影響。

            在此,他們測量了幾代GPT模型的pass@1(采樣1次通過的概率)、pass@100(采樣100次通過的概率)等分數。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            結果是與基礎模型相比,使用了SFT和RLHF技術的模型在pass@1上出現了大幅提升,而在pass@100上略有下降。

            這說明啥呢?

            作者解釋:

            pass@100刻畫的是模型內在coding能力,而pass@1代表的是模型一遍過、bug-free的coding能力。

            pass@100小幅下降表明SFT和RLHF在編碼任務上和其它任務一樣,仍然有所謂的對齊稅(alignment tax)。

            不過,SFT和RLHF能夠將pass@100的能力學到pass@1上,即把內在能力(但需要很多次嘗試)轉化到一遍過、bug-free的coding能力,致使pass@1大幅提升。

            而再仔細看結果,可以發現gpt-3.5-turbo-0301通過SFT和RLHF,大幅提升了pass@1,這對于小模型的性能優化是個好消息。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            這還沒完,鑒于作者之前觀察到GPT-4在一些復雜推理任務上經過多次嘗試才能解決問題。

            他們結合上面的觀察,總結為:

            LLM仍可以通過SFT和RLHF,不斷將內在能力(但需要多次嘗試)轉化成一次性解決問題的能力,不斷逼近LLM的能力上限。

            言外之意,GPT-4還可以更強。

            3、代碼加入預訓練,對推理幫助最大

            在GPT4進化之路上,還出現了2個特別的模型:

            code-cushman-001(Codex-12B)和code-davinci-002。

            前者是OpenAI初次嘗試使用代碼數據訓練模型,盡管它的規模較小,但也取得了不錯的代碼能力。

            后者是GPT3.5的基座模型,它是在GPT3的基礎上使用RLHF+代碼訓練的結果,也就是文本和代碼混合預訓練。

            可以看到,它大幅超越GPT-3(不止是編碼能力)、在一些推理任務上(如BBH)表現甚至可以超過后面的gpt-3.5-turbo-0613。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            作者表示:

            這表明預訓練加入代碼數據可以全面提升LLM的能力,尤其是推理能力。

            4、“蹺蹺板”現象

            通過比較2023年3月和2023年6月的OpenAI API模型,我們確實可以發現這一現象:

            與gpt-3.5-turbo-0301相比,升級后的gpt-3.5-turbo-0613在HumanEval上表現出色(53.9 -> 80.0),但在MATH上卻大幅下降(32.0 -> 15.0)。

            gpt-4-0613在DROP上的表現優于gpt-4-0314(78.7 -> 87.2),但在MGSM上也出現了直線下降(82.2 -> 68.7)。

            作者認為:

            “蹺蹺板現象”可能成為LLM通往AGI之路的絆腳石,因為AGI強調“通用智能”,要在所有task上都有優異的性能,要求模型不能“偏科”。

            在此,他們也呼吁社區重視這個問題,共同推進大模型平衡發展的研究。

            幫助大模型從業者找到方向

            以上這些發現,全部基于GPT-Fathom

            字節最新提出的一個大模型評測工具。

            想必大家肯定疑問:

            大模型排行榜和評測工具已經有很多了,為什么還要提出一個新的方法?

            作者介紹,相比已有的測評方式,GPT-Fathom尺度更加統一,結果具有可重現性。

            大模型從業者可以借助它來明確自己與領先模型的差距到底在什么地方,從而有的放矢地完善自己的產品。

            具體來看,GPT-Fathom主要是解決了其他大模型評測方法的三個不足:

            setting標準不一致:是否使用思維鏈(CoT)、樣本數量等設置,以及答案評價方法沒有統一標準

            模型和任務收集不完整:測試關注的能力不全面,缺乏對早期模型的關注

            缺乏對模型敏感性的研究

            為了更直觀體現GPT-Fatham的特點,作者對比了一些具體的現有榜單,可以總結成下面這個表格:

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            其中,對敏感性的評測就發現了此前的測試標準沒能找出的問題。

            相比于GPT,其他模型對提示詞的敏感度很高,稍有變化就會導致輸出截然不同,提示其他模型的魯棒性和GPT之前還存在很大差距。

            比如在TriviaQA數據集上,提示詞的細微改變就讓Llama 2-70B的得分下降四分之一,而GPT系列模型則沒有明顯變化。

            字節“開盒”OpenAI所有大模型,揭秘GPT-3到GPT-4進化路徑

            此外諸如CoT、樣本數量以及采樣方差等因素也都被包括進了敏感性測試當中。

            未來,作者計劃從能力種類、測試數據集和模型三個維度繼續擴展GPT-Fathom,將支持多輪對話、多模態等能力的測評,以及增加對多個數據集和模型的測試。

            GPT-Fatham的兩位共同一作分別是字節公司應用機器學習研究組的研究人員張馭宇(Yuyu Zhang)和實習生Shen Zheng。

            Shen Zheng是伊利諾伊大學香檳分校(UIUC)的一名碩士生。

            此外,字節公司的Yijie Zhu等四名研究人員,以及UIUC的Kevin Chen-Chuan Chang教授也參與了這項研究。

            論文地址:

            https://arxiv.org/abs/2309.16583

            參考鏈接:

            https://github.com/GPT-Fathom/GPT-Fathom

            贊助本站

            人工智能實驗室
            AiLab云推薦
            展開

            熱門欄目HotCates

            Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態 | 免責聲明 | 隱私條款 | 工作機會 | 展會港
            台湾佬电影网_台湾佬影院_免费电影在线看
            <mark id="qyzvb"><track id="qyzvb"></track></mark>
              <ins id="qyzvb"></ins>
            1. <code id="qyzvb"></code>
            2. <tr id="qyzvb"><nobr id="qyzvb"><ol id="qyzvb"></ol></nobr></tr>
              <output id="qyzvb"></output>