GPT-4勁敵谷歌進入高能+高產(chǎn)模式

來源：虎嗅網(wǎng) 編輯：非小米時間：2024-02-21 16:33人閱讀

在這場爭奪AIGC話語權與領導力的追逐戰(zhàn)里，谷歌與微軟爭相拼臂力秀肌肉。Gemini 1.5 Pro的橫空出世，將多模態(tài)大模型的標準提到了一個新高度。

一、極致性能背后的模型架構

當?shù)貢r間2月15日，Alphabet與Google公司首席執(zhí)行官Sundar Pichai攜首席科學家Jeff Dean等眾高管在X平臺發(fā)布了多模態(tài)模型Gemini 1.5 Pro。這是繼2月7日的Gemini 1.0 Ultra后，谷歌在多模態(tài)大模型賽道的又一力作。

圖源：X平臺Alphabet與Google公司首席科學家Jeff Dean推文

“巧合”的是，Open AI在Gemini 1.5 Pro官宣兩小時發(fā)布Sora這枚重磅炸彈，頗有“一較高下”的勁頭。只是由于當下大家的視線焦點集中在視頻領域，Sora 又是 OpenAI 首次發(fā)布文生視頻模型，所以無奈被搶了頭條。

圖源：微博評論

Gemini 1.5 Pro建立在谷歌對Transformer和MoE架構的領先研究之上。傳統(tǒng)Transformer充當一個大型神經(jīng)網(wǎng)絡，而 MoE（Mixture of Experts 混合專家模型）模型則分為更小的“專家”神經(jīng)網(wǎng)絡。在這一結構之下，通過將模型參數(shù)劃分為多個組別而實現(xiàn)的計算的稀疏化，即每次執(zhí)行推理任務時，根據(jù)對輸入類型的判斷，MoE模型會通過門控網(wǎng)絡選擇性地激活神經(jīng)網(wǎng)絡中最契合指令的專家參與計算。

這種專業(yè)化、模塊化的劃分可以在提升預訓練計算效率的同時提升大模型處理復雜任務的性能，更快地學習復雜任務的同時保證準確性。與稠密模型相比，MoE模型的預訓練速度更快；使用MoE 層代替transformer 中的前饋網(wǎng)絡（FFN）層。因而對的采用可以彌補Transformer架構運算效率的問題。

在Switch-Transformer、M4等領域，Google 一直是深度學習 MoE 技術的早期采用者。目前大部分大語言模型開源和學術工作都沒有使用 MoE 架構。有消息稱，GPT-4也采用了由 8 個專家模型組成的集成系統(tǒng)。2023年12月8日Mistral AI 發(fā)布的 Mixtral 8x7B 同樣采用了這種架構。就國內(nèi)的大模型而言，只有Minimax采用了MoE架構。

二、擴容的上下文窗口意味著什么？

雖然Gemini 1.5 Pro是 Gemini 1.5 系列的初代版本，但初代便表現(xiàn)不俗。擴大上下文窗口后的高水平性能是Gemini 1.5 Pro的一大亮點。

多模態(tài)大模型卷到今日，上下文窗口容量已然成為提升其理解能力的關鍵掣肘。此前的SOTA模型將上下文窗口容量卷到了20萬token。而谷歌的Gemini 1.5 Pro直接將上下文窗口容量提到了100萬token（極限為1000萬token），遠遠超出了 Gemini 1.0 最初的 32,000 個 token，創(chuàng)下了最長上下文窗口的紀錄。

對于文本處理，Gemini 1.5 Pro在處理高達530,000 token的文本時，能夠?qū)崿F(xiàn)100%的檢索完整性，在處理1,000,000 token的文本時達到99.7%的檢索完整性。甚至在處理高達10,000,000 token的文本時，檢索準確性仍然高達99.2%。在音頻處理方面，Gemini 1.5 Pro能夠在大約11小時的音頻資料中，100%成功檢索到各種隱藏的音頻片段。在視頻處理方面，Gemini 1.5 Pro能夠在大約3小時的視頻內(nèi)容中，100%成功檢索到各種隱藏的視覺元素。

圖源：Gemini 1.5 Pro官方測試數(shù)據(jù)

Gemini 1.5 Pro大大超過Gemini 1.0 Pro，在27項基準（共31項）上表現(xiàn)更好，特別是在數(shù)學、科學和推理（+28.9%），多語言（+22.3%），視頻理解（+11.2%）和代碼（+8.9%）等領域。即使是對比Gemini 系列的高端產(chǎn)品Gemini 1.0 Ultra， Gemini 1.5 Pro也在超過一半的基準（16/31）上表現(xiàn)更好，特別是在文本基準（10/13）和許多視覺基準（6/13）上。在 NIAH測試中，Gemini 1.5 Pro能夠在長達100萬token的文本塊中，以99%的準確率找出隱藏有特定信息的文本片段。

GPT-4勁敵谷歌進入高能+高產(chǎn)模式

圖源：Gemini 1.5 Pro官方測試數(shù)據(jù)

這個上下文長度使Gemini 1.5 Pro可以自如地處理22小時的錄音、超過十倍的完整的1440頁的書（587,287字）“戰(zhàn)爭與和平”，以及四萬多行代碼、三小時的視頻。

三、機器腦有多好使

除高效架構和強上下文處理能力之外，Gemini 1.5 Pro的優(yōu)秀品質(zhì)還在于“情境學習”技能，它可以根據(jù)長提示，從以前從未見過的信息中學習新技能，而不需要額外的微調(diào)。強學習能力、信息檢索與數(shù)據(jù)分析能力使得在知識海洋中“海底撈針”由想象映照進了現(xiàn)實。

根據(jù)官方發(fā)布的測試報告，當給定卡拉曼語（一種全球使用人數(shù)不足 200 人的語言）的語法手冊時（500頁的語言文獻，一本詞典和400個平行句子），Gemini 1.5 Pro模型可以學習將英語翻譯成卡拉曼語，其水平與學習相同內(nèi)容的人相似。

圖源：Gemini 1.5 Pro官方演示樣本

當被一個45分鐘的Buster基頓電影“小神探夏洛克”（1924年）（2674幀，1FPS，684k token）提示時，Gemini 1.5 Pro可以從其中的特定幀中檢索和提取文本信息，并提供相應的時間戳。此外還可以從一張手繪素描中識別電影中的一個場景。與側(cè)重于衡量模型檢索能力的特定事實或細節(jié)的任務不同，這些問題通常需要了解跨越大量文本的信息片段之間的關系。

圖源：Gemini 1.5 Pro官方演示樣本

Gemini 1.5 Pro在處理長達超過100,000行的代碼時，還具備極強的問題解決能力。面對龐大的代碼量，它能夠深入分析各個示例，提出實用的修改建議，還能詳細解釋代碼的條例框架。給出了整個746,152個令牌JAX代碼庫，Gemini 1.5 Pro可以識別核心自動微分方法的具體位置。開發(fā)者可以直接上傳新的代碼庫，利用這個模型快速熟悉、理解代碼結構。

圖源：Gemini 1.5 Pro官方演示樣本

正如NVIDIA高級科學家Jim Fan所言，Gemini 1.5 Pro意味著LLM能力的大幅躍升，這對于做個體戶的小公司而言可謂一騎絕塵。

在人機協(xié)同的探索過程中，單一的文本交互很難滿足多場景多樣態(tài)的內(nèi)容生產(chǎn)訴求。多模態(tài)的信息處理與生成能力顯然是技術變革的發(fā)力點。紐約大學計算機助理教授謝賽寧說，人才第一，數(shù)據(jù)第二，算力第三，其他都沒有什么是不可替代的。Gemini 1.5 Pro是谷歌與巔峰對決的又一利器，或許AGI時代正加快到來。

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱：business@qudong.com