玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片

您當(dāng)前的位置: 首頁 > 新聞 > 其他

下一代Windows系統(tǒng)曝光:基于GPT-4V Agent跨應(yīng)用調(diào)度 代號UFO

來源:量子位   編輯:非小米 時間:2024-02-15 12:51人閱讀

下一代Windows操作系統(tǒng)提前曝光了??

微軟首個為Windows而設(shè)的智能體(Agent) 亮相:

基于GPT-4V,一句話就可以在多個應(yīng)用中無縫切換,完成復(fù)雜任務(wù)。整個過程無需人為干預(yù),其執(zhí)行成功率和效率是GPT-4的兩倍,GPT-3.5的四倍。

比如,刪除PPT演示文稿上的所有備注。

幾個簡單步驟就可完成。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

還有像利用多個來源文本,比如word文檔、圖像文本內(nèi)容,撰寫電子郵件。

網(wǎng)友表示:這才是Windows級別應(yīng)有的創(chuàng)新能力

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

第一個Windows Agent來了

這樣一個智能體叫做UFO,全名“UI-Focused”,是一個專為Windows OS(操作系統(tǒng))交互設(shè)計、面向用戶界面(UI)的智能體框架,可以在單個或者多個應(yīng)用程序中操作,由MSRA、微軟AI與應(yīng)用研究團隊等共同打造。

用戶就可以通過自然語言指令,來操作App的用戶界面。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

據(jù)介紹,UFO是第一個專為Windows OS環(huán)境中的任務(wù)完成量身定制的UI Agent。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

就拿刪除PPT上的所有注釋為例。傳統(tǒng)方式需要一頁一頁手動刪除注釋。如果PPT巨長無比,這個過程就會又久又無聊,讓人瞬間暴躁。

但UFO得到指令后,簡化了整個過程。

它先是提議用“刪除所有演示筆記”功能,這個功能因為按鈕位置藏得很深,經(jīng)常被用戶忽視。

而后,UFO導(dǎo)航到“File”選項,對后臺視圖進行訪問;然后,再平滑地切換到“info”菜單,單擊“檢查問題”按鈕,并選擇“檢查文檔”,開始檢查文檔中所有包含的注釋。

緊接著,UFO識別到菜單地步的“刪除所有演示筆記”,向下滾動定位到其位置,啟動單擊功能。

考慮到誤刪的可能性,UFO這里有一道保護功能,需要用戶再次確定是否真的要刪除所有注釋。

用戶一旦確認,所有筆記就“

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

”的一下都沒有了~

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

如PowerPoint這般,文章中對其它幾個場景進行了圖文并茂的展示。

比如讀一篇PDF:

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

設(shè)計PPT格式:

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

下載Docker拓展:

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

發(fā)條推文:

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

搜索總結(jié):

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

讀篇paper:

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

以及怎么利用UFO在Word文檔里提取文本、描述圖像、撰寫然后發(fā)送電子郵件等。

研究團隊在9個常用的Windows應(yīng)用程序上對UFO進行了測試,包括Outlook、Photos、PPT、Word等,涵蓋了Windows用戶的高頻使用場景,能夠測試工作、交流、編碼、閱讀、網(wǎng)頁瀏覽等目的。

對于每個應(yīng)用程序,團隊設(shè)計了5個不同的請求,共45個;另外還設(shè)計了5個設(shè)計跨多個交互應(yīng)用程序的請求。

也就是說,共產(chǎn)生了50個請求,每個應(yīng)用程序至少有一個請求鏈接到另一個后續(xù)請求,提供全面評估UFO的互動模式。

在評估指標(biāo)方面,則從成功度、步驟、完成率和保障率這幾個角度來評估UFO。

為了全面評估UFO的性能,團隊開發(fā)了名為WindowsBench的測試基準(zhǔn)。

考慮到?jīng)]有現(xiàn)成的Windows Agent,團隊選擇GPT-3.5和GPT-4作為基座模型,并且指示它們提供一步一步的指導(dǎo)來完成用戶請求。

值得注意的是,UFO在WindowsBench上成功率達到了86%,成倍超過了GPT-4——因此UFO可以被定位為一個高效的Agent。

而UFO的完成率也是最好的,這表明它有能力采取更精確的動作;此外,UFO完成任務(wù)的步驟也是最少的,安全度也是最高的。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

最后,9個場景從4個角度在WindowsBench的詳細得分如下:

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

三個模塊組成

既然如此,這樣一個操作系統(tǒng)級別的Agent,究竟是如何實現(xiàn)的呢?

首先,它理解用戶的自然語言要求,然后將其分解為一系列子任務(wù)。然后觀察用戶界面,并對其控制元素進行操作,以實現(xiàn)總體目標(biāo)。

既然如此,又是如何實現(xiàn)的呢?

架構(gòu)上看,UFO是個雙Agent框架,主要有三個模塊:

應(yīng)用智能體(AppAgent),選擇一個應(yīng)用程序滿足用戶請求。

行動智能體(ActAgent),負責(zé)在所選應(yīng)用中反復(fù)執(zhí)行任務(wù)。

交互控制,無需人工干預(yù),全自動執(zhí)行。

在收到用戶請求后,AppAgent會對需求進行分析。除此之外,還有這些信息作為輸入:桌面截圖、App信息、記憶以及示例。

其中,UFO為AppAgent提供了完整的桌面截圖和可用應(yīng)用程序列表以供參考。

然后從當(dāng)前激活的應(yīng)用程序中選擇一個合適的應(yīng)用程序,并制定一個全局實現(xiàn)計劃,將其傳遞給ActAgent。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

一旦找到合適的應(yīng)用程序,App就會出現(xiàn)在桌面上。隨后ActAgent啟動操作。

在每個操作選擇之前,UFO都會捕獲當(dāng)前應(yīng)用程序用戶界面窗口的屏幕截圖,并標(biāo)注所有可用控件。此外,UFO還記錄了每個控件的相關(guān)信息,供 ActAgent觀察。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

ActAgent的任務(wù)是選擇要操作的控件,然后通過控件交互模塊選擇要在所選控件上執(zhí)行的特定操作。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

這一決定是基于 ActAgent 的觀察結(jié)果、先前計劃和操作記憶做出的。

這個遞歸過程一直持續(xù)到用戶請求在所選應(yīng)用程序中成功完成為止。至此,用戶請求的一個階段結(jié)束。

如果需要跨越多個應(yīng)用程序,那么在ActAgent 完成當(dāng)前任務(wù)之后,ActAgent 將把任務(wù)委托給 AppAgent,以便切換到不同的應(yīng)用程序,從而啟動請求的第二階段。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

用戶可以選擇提出新的請求,促使 UFO 通過重復(fù)上述過程來處理新任務(wù)。

研究團隊依據(jù)日常鼠標(biāo)操作,還開發(fā)了自定義操作,比如單擊、選擇文本、滾動等,以此來完成對于控件的操作。

主要有這些控制類型。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

微軟全球資深副總裁、MSRA副院長領(lǐng)銜

最后介紹一下UFO的研究團隊,其中大多數(shù)都為華人。

通訊作者Chaoyun Zhang,是微軟DKI(Data、Knowledge、Intelligence,數(shù)據(jù)/知識/情報)*小組的高級研究員。

他于2020年,在愛丁堡大學(xué)獲得碩士和博士學(xué)位,研究興趣包括時間序列建模、時空數(shù)據(jù)挖掘、因果推理以及云服務(wù)和 AIOps的可解釋機器學(xué)習(xí)。

Chaoyun Zhang還是華中科技大學(xué)校友,出國前在華中科技大學(xué)電子信息與通信學(xué)院取得學(xué)士學(xué)位。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

作者Liqun Li,現(xiàn)為微軟DKI組首席研究員。

他先畢業(yè)于清華大學(xué)計算機科學(xué)與技術(shù)系,取得學(xué)士學(xué)位;而后又在2012年獲得中國科學(xué)院軟件研究所博士學(xué)位。期間,Liqun Li曾作為訪問學(xué)者前往密歇根州立大學(xué)。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

作者Saravan Rajmohan,Miceosoft 365的AI及應(yīng)用研究的合作伙伴總監(jiān)。

他領(lǐng)導(dǎo)應(yīng)用研究團隊與Microsoft的各個研究小組進行深入?yún)f(xié)作,將算法研究與AI/ML技術(shù)和硬件創(chuàng)新相結(jié)合

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

作者張冬梅,MSRA(微軟亞洲研究院)常務(wù)副院長,微軟杰出首席科學(xué)家。

她從2004年起加入MSRA,從事和領(lǐng)導(dǎo)DKI領(lǐng)域的研究工作,近幾年,團隊將研究擴大到商業(yè)智能領(lǐng)域。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

作者張祺,微軟全球資深副總裁。

此前,張祺曾任微軟(亞洲)互聯(lián)網(wǎng)工程院常務(wù)副院長,兼任微軟移動聯(lián)新互聯(lián)網(wǎng)服務(wù)有限公司董事長,負責(zé)微軟互聯(lián)網(wǎng)業(yè)務(wù)及人工智能平臺在亞洲的團隊。

同時,他也是微軟中國首位“全球杰出工程師”。

下一代Windows系統(tǒng)曝光:基于GPT-4V,Agent跨應(yīng)用調(diào)度,代號UFO

最后,簡單介紹一下多位作者的工作單位:MSRA的DKI組。

DKI是Data、Knowledge、Intelligence的簡寫。

該小組致力于AI、數(shù)據(jù)分析、數(shù)據(jù)交互、數(shù)據(jù)可視化的研究,探索全新的數(shù)據(jù)分析、展示、交互技術(shù),讓數(shù)據(jù)和數(shù)據(jù)中的發(fā)現(xiàn)故事被高效地理解、廣泛地傳播。

團隊與微軟產(chǎn)品如Excel,PowerPoint等深度合作,常年在各個領(lǐng)域的頂會和期刊上發(fā)表論文。

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

相關(guān)文章