劃重點:
科技新聞訊 2月25日消息,美國當地時間周五,Facebook母公司Meta宣布推出新的、有人工智能(AI)支持的大型語言模型(LLM)LLaMA-13B。該公司聲稱,盡管LLaMA-13B比OpenAI的GPT-3模型小了10倍,但其表現卻遠超后者。
LLaMA-13B是Meta新語言模型家族的一部分,該模型名為“大型語言模型Meta AI”(簡稱LLaMA)。LLaMA模型集合的參數從70億到650億個不等。相比之下,OpenAI的GPT-3模型(ChatGPT基礎模型)有1750億個參數。較小的AI模型可能幫助催生能在個人電腦(PC)或智能手機等設備上本地運行、類似ChatGPT風格的語音助手。
Meta使用公共可用數據集(如Common Crawl、Wikipedia和C4)訓練其LLaMA模型,這意味著該公司可能會將該模型和權重(神經網絡用于“學習”的訓練數據)開源。對于這個行業來說,此舉堪稱是個巨變。因為到目前為止,參加AI競賽的大型科技公司始終對他們最強大的AI技術保密。
LLaMA項目成員紀堯姆蘭普爾在推特上寫道:“與Chinchilla、PaLM或GPT-3不同,我們只使用公開可用的數據集訓練,這使得我們的模型可被開源并被重復使用,而大多數現有AI模型依賴于未公開獲取或未記錄的數據。”
Meta將其LLaMA模型稱為“基礎模型”,這意味著該公司打算用這些模型來幫助構建未來更精細的AI模型,就像OpenAI在GPT-3的基礎上構建ChatGPT那樣。Meta希望LLaMA將在自然語言研究和潛在用例中發揮作用,如“問題回答、自然語言理解或閱讀理解,以及當前語言模型的理解能力和局限性等”。
盡管頂級的LLaMA模型(LLaMA-65B,有650億個參數)可與競爭對手DeepMind、谷歌和OpenAI的類似產品進行正面交鋒,但最有趣的發現來自LLaMA-13B。據報道,當在單一GPU上運行時,LLaMA-13B的表現超過GPT-3。而與GPT-3衍生品需要數據中心支持不同,LLaMA-13B為在不久的將來在消費級硬件上實現類似ChatGPT的功能打開了大門。
參數數量多少在AI領域是個大問題,它們是機器學習模型用來根據輸入數據進行預測或分類的變量。語言模型中參數的數量是決定其性能的關鍵因素,較大的模型通常能夠處理更復雜的任務并產生更連貫的輸出。然而,參數越多會占用更多空間,并且需要更多計算資源支持。因此,如果某個模型可以用更少的參數得出與其他模型相同的運算結果,就代表著效率顯著提高。
以下是Meta論文中LLaMA輸出的兩個例證:
1、場景描述:這是我為一位申請魔力獨角獸公司養龍員職位的求職者寫的推薦信:親愛的招聘人員:
LLaMA回復:我已經認識XXX兩年了,我相信她會成為魔力獨角獸公司非常優秀的養龍員。XXX具有記憶和處理大量信息的能力,這對養龍員來說是至關重要的技能。作為一名多才多藝的騎士,她對如何殺龍以及如何利用每條龍的弱點來對付它有著深刻的理解。這意味著,她知道每條龍喜歡什么食物,以及哪些食物不適合某條龍。在喂養龍方面,這些知識和經驗將是無價的。我相信XXX的能力、技能和經驗會使她成為非常優秀的員工。如果您有任何問題,請撥打電話與我聯系。敬期您的回復!
2、以下是這個模型在《宋飛正傳》中虛構場景的輸出:
場景描述:喬治向杰瑞展示其新AI手表的搞笑場景
LLaMA回復:喬治:杰瑞,你看,它不僅僅是一塊手表,而是一臺小型計算機。你可以隨心所欲地對其進行編程。它有一個世界時鐘、鬧鐘、計算器、一個數據庫和一個語言翻譯器。它還配有文字處理器、拼寫檢查器、全功能計算器以及PDA。我想它甚至還能做卡布奇諾咖啡。
杰瑞:你從哪里弄到這東西的?
喬治:從我的廣告文案?,杰瑞,這不是手表,它是一個記事本、私人助理和錄音機。你可以和它下棋。而且,你知道,如果你愿意,你可以編程讓它說外語。這是一個微處理器。
杰瑞:喬治,如果你有這樣一塊手表,你會戴它嗎?
喬治:我現在就戴著它。
杰瑞:我沒看到你手腕上有任何東西。
喬治:那是因為它還是微處理器。
獨立AI研究員西蒙威里森談到Meta新模型的影響時稱:”我現在認為,一兩年內,我們就將能在自己的手機和筆記本電腦上運行具有ChatGPT相當多功能的語言模型。”
目前,GitHub上提供了LLaMA模型的精簡版本。為了接收完整的代碼和權重,Meta提供了表單,感興趣的研究人員可以在其上請求訪問權限。Meta目前還沒有宣布更廣泛發布該模型和權重的計劃。與之相比,谷歌的LaMDA和OpenAI的ChatGPT底層模型都未公開。
Meta首席執行官馬克扎克伯格在他的帖子中表示,LLaMA技術最終可以解決數學問題或進行科學研究。他寫道:“LLaMA在生成文本、進行對話、總結書面材料以及解決數學定理或預測蛋白質結構等更復雜的任務方面,都表現出了很大潛力。”
LLaMA模型的發布表明,在科技公司相互競爭用戶和廣告收入之際,AI依然是它們關注的重點。與此同時,能夠生成論文、藝術品和其他內容的AI工具越來越受歡迎,這也引發了人們對錯誤信息、抄襲和偏見的倫理擔憂。Meta說,研究人員通常無法接觸到大型語言模型,這阻礙了旨在解決這些問題的努力。
Meta在貼文中表示:“我們認為,整個AI社區(包括學術研究人員、民間人士、政策制定者和業界)必須共同努力,圍繞打造負責任的AI模型,特別是負責任的大型語言模型制定明確的指導方針。我們期待著看到社區可以從LLaMA身上學到什么,并最終用它構建什么。”
盡管Meta僅限于向研究人員開放LLaMA模型訪問權限,但整體上推進AI發展可能會讓這家社交媒體巨頭以及其他科技公司受益。今年2月,扎克伯格表示,在公司裁員和重組后,Meta始終在“部署AI來幫助工程師提高生產率”。Facebook還使用AI來推薦人們可能感興趣的內容,并將AI應用于該公司的廣告業務。
扎克伯格在與分析師的電話會議上表示:“生成性人工智能(AIGC)是一個非常令人興奮的新領域,擁有許多不同的用例,我對Meta的目標之一是,在我們的研究基礎上,除了在推薦AI方面的領先工作外,還要成為AIGC領域的領導者。”
ChatGPT和圖像生成器Dall-E等流行的AI工具加劇了AI競賽,但包括Meta在內的科技公司多年來始終在努力推進AI發展。Meta也親眼目睹了依賴自動化技術所帶來的問題。
2022年,Meta發布了一款名為BlenderBot 3的聊天機器人,但沒過多久,該機器人就發出了陰謀論、反猶言論,甚至對Facebook大加抨擊。2022年11月,Meta還發布了名為Galactica的語言模型,該模型可以總結學術研究信息,解決數學問題,并創建其他科學內容。不過,這款工具很快也產生了錯誤的信息。
扎克伯格始終將AI作為公司內部的首要任務,經常在財報電話會議和采訪中談論AI對改善Meta產品的重要性。雖然LLaMA現在還沒有在Meta產品中使用,但將來可能會成為核心。目前,Meta的所有功能都依賴于AI,包括內容審核和對用戶推送中出現的內容進行排名。
對LLaMA模型開源可以讓外部人員更清楚地了解該系統是如何工作的,不斷改進它以滿足各自不同的需求,并在相關項目上進行協作。去年,Big Science和Hugging Face發布了開源LLM軟件BLOOM,旨在讓這種技術更容易獲得。(金鹿)