玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片

您當(dāng)前的位置: 首頁(yè) > 新聞 > 其他

GPT-4勁敵 谷歌進(jìn)入高能+高產(chǎn)模式

來(lái)源:虎嗅網(wǎng)   編輯:非小米 時(shí)間:2024-02-21 16:33人閱讀

在這場(chǎng)爭(zhēng)奪AIGC話語(yǔ)權(quán)與領(lǐng)導(dǎo)力的追逐戰(zhàn)里,谷歌與微軟爭(zhēng)相拼臂力秀肌肉。Gemini 1.5 Pro的橫空出世,將多模態(tài)大模型的標(biāo)準(zhǔn)提到了一個(gè)新高度。  

一、極致性能背后的模型架構(gòu)

當(dāng)?shù)貢r(shí)間2月15日,Alphabet與Google公司首席執(zhí)行官Sundar Pichai攜首席科學(xué)家Jeff Dean等眾高管在X平臺(tái)發(fā)布了多模態(tài)模型Gemini 1.5 Pro。這是繼2月7日的Gemini 1.0 Ultra后,谷歌在多模態(tài)大模型賽道的又一力作。

GPT-4勁敵 谷歌進(jìn)入高能+高產(chǎn)模式

 圖源:X平臺(tái)Alphabet與Google公司首席科學(xué)家Jeff Dean推文

“巧合”的是,Open AI在Gemini 1.5 Pro官宣兩小時(shí)發(fā)布Sora這枚重磅炸彈,頗有“一較高下”的勁頭。只是由于當(dāng)下大家的視線焦點(diǎn)集中在視頻領(lǐng)域,Sora 又是 OpenAI 首次發(fā)布文生視頻模型,所以無(wú)奈被搶了頭條。

GPT-4勁敵 谷歌進(jìn)入高能+高產(chǎn)模式

 圖源:微博評(píng)論

Gemini 1.5 Pro建立在谷歌對(duì)Transformer和MoE架構(gòu)的領(lǐng)先研究之上。傳統(tǒng)Transformer充當(dāng)一個(gè)大型神經(jīng)網(wǎng)絡(luò),而 MoE(Mixture of Experts 混合專家模型)模型則分為更小的“專家”神經(jīng)網(wǎng)絡(luò)。在這一結(jié)構(gòu)之下,通過(guò)將模型參數(shù)劃分為多個(gè)組別而實(shí)現(xiàn)的計(jì)算的稀疏化,即每次執(zhí)行推理任務(wù)時(shí),根據(jù)對(duì)輸入類型的判斷,MoE模型會(huì)通過(guò)門(mén)控網(wǎng)絡(luò)選擇性地激活神經(jīng)網(wǎng)絡(luò)中最契合指令的專家參與計(jì)算。

這種專業(yè)化、模塊化的劃分可以在提升預(yù)訓(xùn)練計(jì)算效率的同時(shí)提升大模型處理復(fù)雜任務(wù)的性能,更快地學(xué)習(xí)復(fù)雜任務(wù)的同時(shí)保證準(zhǔn)確性。與稠密模型相比,MoE模型的預(yù)訓(xùn)練速度更快;使用MoE 層代替transformer 中的前饋網(wǎng)絡(luò)(FFN)層。因而對(duì)的采用可以彌補(bǔ)Transformer架構(gòu)運(yùn)算效率的問(wèn)題。

在Switch-Transformer、M4等領(lǐng)域,Google 一直是深度學(xué)習(xí) MoE 技術(shù)的早期采用者。目前大部分大語(yǔ)言模型開(kāi)源和學(xué)術(shù)工作都沒(méi)有使用 MoE 架構(gòu)。有消息稱,GPT-4也采用了由 8 個(gè)專家模型組成的集成系統(tǒng)。2023年12月8日Mistral AI 發(fā)布的 Mixtral 8x7B 同樣采用了這種架構(gòu)。就國(guó)內(nèi)的大模型而言,只有Minimax采用了MoE架構(gòu)。

二、擴(kuò)容的上下文窗口意味著什么?

雖然Gemini 1.5 Pro是 Gemini 1.5 系列的初代版本,但初代便表現(xiàn)不俗。擴(kuò)大上下文窗口后的高水平性能是Gemini 1.5 Pro的一大亮點(diǎn)。

多模態(tài)大模型卷到今日,上下文窗口容量已然成為提升其理解能力的關(guān)鍵掣肘。此前的SOTA模型將上下文窗口容量卷到了20萬(wàn)token。而谷歌的Gemini 1.5 Pro直接將上下文窗口容量提到了100萬(wàn)token(極限為1000萬(wàn)token),遠(yuǎn)遠(yuǎn)超出了 Gemini 1.0 最初的 32,000 個(gè) token,創(chuàng)下了最長(zhǎng)上下文窗口的紀(jì)錄。

對(duì)于文本處理,Gemini 1.5 Pro在處理高達(dá)530,000 token的文本時(shí),能夠?qū)崿F(xiàn)100%的檢索完整性,在處理1,000,000 token的文本時(shí)達(dá)到99.7%的檢索完整性。甚至在處理高達(dá)10,000,000 token的文本時(shí),檢索準(zhǔn)確性仍然高達(dá)99.2%。在音頻處理方面,Gemini 1.5 Pro能夠在大約11小時(shí)的音頻資料中,100%成功檢索到各種隱藏的音頻片段。在視頻處理方面,Gemini 1.5 Pro能夠在大約3小時(shí)的視頻內(nèi)容中,100%成功檢索到各種隱藏的視覺(jué)元素。

GPT-4勁敵 谷歌進(jìn)入高能+高產(chǎn)模式

圖源:Gemini 1.5 Pro官方測(cè)試數(shù)據(jù)

Gemini 1.5 Pro大大超過(guò)Gemini 1.0 Pro,在27項(xiàng)基準(zhǔn)(共31項(xiàng))上表現(xiàn)更好,特別是在數(shù)學(xué)、科學(xué)和推理(+28.9%),多語(yǔ)言(+22.3%),視頻理解(+11.2%)和代碼(+8.9%)等領(lǐng)域。即使是對(duì)比Gemini 系列的高端產(chǎn)品Gemini 1.0 Ultra, Gemini 1.5 Pro也在超過(guò)一半的基準(zhǔn)(16/31)上表現(xiàn)更好,特別是在文本基準(zhǔn)(10/13)和許多視覺(jué)基準(zhǔn)(6/13)上。在 NIAH測(cè)試中,Gemini 1.5 Pro能夠在長(zhǎng)達(dá)100萬(wàn)token的文本塊中,以99%的準(zhǔn)確率找出隱藏有特定信息的文本片段。

GPT-4勁敵 谷歌進(jìn)入高能+高產(chǎn)模式

 圖源:Gemini 1.5 Pro官方測(cè)試數(shù)據(jù)

這個(gè)上下文長(zhǎng)度使Gemini 1.5 Pro可以自如地處理22小時(shí)的錄音、超過(guò)十倍的完整的1440頁(yè)的書(shū)(587,287字)“戰(zhàn)爭(zhēng)與和平”,以及四萬(wàn)多行代碼、三小時(shí)的視頻。

三、機(jī)器腦有多好使

除高效架構(gòu)和強(qiáng)上下文處理能力之外,Gemini 1.5 Pro的優(yōu)秀品質(zhì)還在于“情境學(xué)習(xí)”技能,它可以根據(jù)長(zhǎng)提示,從以前從未見(jiàn)過(guò)的信息中學(xué)習(xí)新技能,而不需要額外的微調(diào)。強(qiáng)學(xué)習(xí)能力、信息檢索與數(shù)據(jù)分析能力使得在知識(shí)海洋中“海底撈針”由想象映照進(jìn)了現(xiàn)實(shí)。

根據(jù)官方發(fā)布的測(cè)試報(bào)告,當(dāng)給定卡拉曼語(yǔ)(一種全球使用人數(shù)不足 200 人的語(yǔ)言)的語(yǔ)法手冊(cè)時(shí)(500頁(yè)的語(yǔ)言文獻(xiàn),一本詞典和400個(gè)平行句子),Gemini 1.5 Pro模型可以學(xué)習(xí)將英語(yǔ)翻譯成卡拉曼語(yǔ),其水平與學(xué)習(xí)相同內(nèi)容的人相似。

GPT-4勁敵 谷歌進(jìn)入高能+高產(chǎn)模式

圖源:Gemini 1.5 Pro官方演示樣本

當(dāng)被一個(gè)45分鐘的Buster基頓電影“小神探夏洛克”(1924年)(2674幀,1FPS,684k token)提示時(shí),Gemini 1.5 Pro可以從其中的特定幀中檢索和提取文本信息,并提供相應(yīng)的時(shí)間戳。此外還可以從一張手繪素描中識(shí)別電影中的一個(gè)場(chǎng)景。與側(cè)重于衡量模型檢索能力的特定事實(shí)或細(xì)節(jié)的任務(wù)不同,這些問(wèn)題通常需要了解跨越大量文本的信息片段之間的關(guān)系。

GPT-4勁敵 谷歌進(jìn)入高能+高產(chǎn)模式

圖源:Gemini 1.5 Pro官方演示樣本

Gemini 1.5 Pro在處理長(zhǎng)達(dá)超過(guò)100,000行的代碼時(shí),還具備極強(qiáng)的問(wèn)題解決能力。面對(duì)龐大的代碼量,它能夠深入分析各個(gè)示例,提出實(shí)用的修改建議,還能詳細(xì)解釋代碼的條例框架。給出了整個(gè)746,152個(gè)令牌JAX代碼庫(kù),Gemini 1.5 Pro可以識(shí)別核心自動(dòng)微分方法的具體位置。開(kāi)發(fā)者可以直接上傳新的代碼庫(kù),利用這個(gè)模型快速熟悉、理解代碼結(jié)構(gòu)。

GPT-4勁敵 谷歌進(jìn)入高能+高產(chǎn)模式

 圖源:Gemini 1.5 Pro官方演示樣本

正如NVIDIA高級(jí)科學(xué)家Jim Fan所言,Gemini 1.5 Pro意味著LLM能力的大幅躍升,這對(duì)于做個(gè)體戶的小公司而言可謂一騎絕塵。

在人機(jī)協(xié)同的探索過(guò)程中,單一的文本交互很難滿足多場(chǎng)景多樣態(tài)的內(nèi)容生產(chǎn)訴求。多模態(tài)的信息處理與生成能力顯然是技術(shù)變革的發(fā)力點(diǎn)。紐約大學(xué)計(jì)算機(jī)助理教授謝賽寧說(shuō),人才第一,數(shù)據(jù)第二,算力第三,其他都沒(méi)有什么是不可替代的。Gemini 1.5 Pro是谷歌與巔峰對(duì)決的又一利器,或許AGI時(shí)代正加快到來(lái)。

本站所有文章、數(shù)據(jù)、圖片均來(lái)自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請(qǐng)來(lái)信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 谷歌 AI

相關(guān)文章