玩弄放荡人妇系列av在线网站,日韩黄片,人人妻人人添人人爽,欧美一区,日本一区二区三区在线 |观看,日本免费a级毛一片

您當前的位置: 首頁 > 新聞 > 其他

用ChatGPT寫作業(yè)?新算法給AI生成文本加水印:置信度高達99.999999999994%

來源:量子位   編輯:非小米 時間:2023-02-08 07:32人閱讀

AI生成文本,又遇新對手!

憑借識別AI生成文本中的“水印”,一種新算法能夠準確判斷文本到底是誰寫的。

無需訪問模型參數(shù)、API,結(jié)果置信度高達99.999999999994%

用ChatGPT寫作業(yè)?新算法給AI生成文本加水?。褐眯哦雀哌_99.999999999994%

方法一經(jīng)發(fā)布就引來大量網(wǎng)友圍觀。這回拿ChatGPT“作弊”,怕不是要更難了?

要知道,最近一段時間,ChatGPT先是成為美國高中生的寫作業(yè)利器,后面幫專業(yè)媒體寫稿子,引發(fā)巨大恐慌。如Nature、紐約教育部等,都針對ChatGPT發(fā)布禁令。

馬里蘭大學學者們提出的這一新方法,為解決這些麻煩提出了個新思路。

不少網(wǎng)友都覺得,這個方法提出的正是時候,而且效果看著也不錯。

有學者還和美國高中生喊話,你們要做好準備了!

作者表示,方法代碼將在2月15日免費開源。

計算文本由AI生成的概率

所謂模型水印,人類無法看到,但是計算機可以。

這是一種現(xiàn)在被常用于大規(guī)模語言模型(LLM)中的方法,能讓AI生成的文本帶有“特殊標記”。即把信號嵌入到生成的文本中,讓算法能從一小段token中檢測出來。

最近,OpenAI方面也表示,考慮在ChatGPT中添加水印,以降低模型被濫用帶來的負面影響。

這篇最新論文的作者,就想驗證下這個想法到底靠不靠譜。他們通過給LLM中嵌入水印,然后再進行檢測。其中水印的嵌入不會影響文本生成質(zhì)量。

具體來說,大規(guī)模語言模型每次生成一個token,每個token將從包含大約5萬個詞匯的詞匯表中進行選擇。

在新token生成之前,該方法會從基于最近已生成的token為隨機數(shù)生成器(RNG)提供“種子”,以此來壓一個水印。

然后使用RNG,能將詞匯表分為黑名單白名單,并要求LLM接下來只能從白名單中選擇詞匯。

如果整段文本中,白名單中的詞匯越多,就意味著越有可能是AI生成的。

黑白名單的區(qū)分,基于一個原則:

人類使用詞匯的隨機性更強。

舉例來說,如果在“美麗的”后面生成詞匯,水印算法會將“花”列入白名單,將“蘭花”列入黑名單。

論文作者認為,AI更可能使用“花”這個詞匯,而不是“蘭花”。

然后,就能通過計算整段文本中白名單token出現(xiàn)的情況,來檢測水印。

如果一共有生成了N個token,所有的token都使用了白名單詞匯,那么這段文字只有2的N次方分之一概率是人類寫的。

即便這段文字只有25個詞組成,那么水印算法也能判斷出它到底是不是AI生成的。

但作者也表示,水印有時候也不一定完全靠譜。

比如模型輸出了“SpongeBob Square”,下一個單詞一定會是“Pants”吧?但是Pants會被標記到黑名單里,即認為是只有人才會寫的詞。

(注:SpongeBob SquarePants是《海綿寶寶》動畫片的英文,可理解為一個專有名詞)

這種情況會嚴重影響算法的準確性,因此作者將其定義為低熵token,因為模型幾乎不會有更好的選擇。

對應來看,也會有高熵token,比如“海綿寶寶感覺____”這個句式里,能填入的詞匯太多了。

對于這一情況,作者選擇針對高熵token制定更強的規(guī)則,同時保留低熵token,確保水印質(zhì)量更好。

與此同時,他們還添加了波束搜索(Beam search),允許LLM能夠排布一整個token序列,以避免黑名單詞匯。

這么做,他們能確保LLM使用白名單詞匯的概率在大約80%左右,而且不影響文本生成質(zhì)量。

舉例來看,對于下面這段文字,水印算法認為它有99.999999999994%的可能是由AI生成的。

因為在這段文字中,包含36個token。如果是人類寫的,那么文本中應該包含9±2.6個白名單詞匯(白名單詞匯的概率約為25%)。

但這段文字中,包含了28個白名單詞匯。

計算來看,這段文字由人類寫出的概率,僅有0.0000000000006% (6乘以10的-15次方)。

用ChatGPT寫作業(yè)?新算法給AI生成文本加水?。褐眯哦雀哌_99.999999999994%

如下標注的是文本中的黑名單token。

用ChatGPT寫作業(yè)?新算法給AI生成文本加水?。褐眯哦雀哌_99.999999999994%

需要注意的是,如果想要水印正常發(fā)揮作用,并不受到攻擊,就必須對文本進行一些標準化處理,并且需要檢測某些類型的對抗性提示。

這一方法是對外公開的,將在2月15日開源代碼。

加一個隨機秘鑰,也能變成保密模式并且托管到API上,這能保證水印不會被篡改。

論文中使用的模型是Meta開源的OPT-1.3B模型。

由于不用訪問底層模型,所以該檢測方法的速度很快,成本也不會很高。

而且可以使用標準語言模型生成帶水印的文本,不用再重新訓練。

網(wǎng)友:似乎很容易繞過?

巴特,不少網(wǎng)友覺得,這個方法的具體實踐效果可能遠不及理想,質(zhì)疑之聲迭起。

有人提出:

如果我在AI生成的文字基礎(chǔ)上,修改幾個詞,還能被查出來嗎?那在替換成近義詞后,檢測準確率會下降多少?

畢竟大家往往不會一字不改、直接用AI生成的內(nèi)容。

用ChatGPT寫作業(yè)?新算法給AI生成文本加水印:置信度高達99.999999999994%

對此,論文通訊作者、馬里蘭大學副教授Tom Goldstein回答稱:

對于一段自帶水印的文字,至少得修改40%-75%的token,才可能成功去除水印。

(如果用其他程序修改內(nèi)容話),為發(fā)生同義詞攻擊,導致生成內(nèi)容的質(zhì)量很低。

用ChatGPT寫作業(yè)?新算法給AI生成文本加水印:置信度高達99.999999999994%

簡而言之,想要通過換近義詞來消除水印,得大篇幅修改,而且若不是人親自手動修改的話,效果會很拉胯。

還有人提出:

對于專門設(shè)計過的低熵token序列,應該能檢測出水印。但是,長度和檢測率之間(存在一些矛盾),它們的優(yōu)先級應該如何權(quán)衡?

對此,Tom教授表示:

根據(jù)設(shè)定,使用波束搜索時,絕大多數(shù)(通常是90%)的token在白名單上,即使是低熵token,也會被列入白名單。

所以,至少得修改一半以上的token,才能刪除水印,而這需要一個超級強大的LLM模型才行,一般人很難接觸到。

不過,研究者們也在論文中承認,這種方法確實存在一些局限性。

比如,檢測水印的z統(tǒng)計量,只取決于白名單大小參數(shù)γ和生成白名單的哈希函數(shù),和其他不少重要的參數(shù)并沒有什么相關(guān)性。

這就讓他人可以在下游水印檢測器上做手腳,可以改變水印采樣算法,重新部署水印,最終讓原本生成的水印失效。

就連OpenAI CEO Sam Altman也表示:

創(chuàng)造完美檢測AI抄襲的工具,從根本上來說是不可能的。

(盡管他說OpenAI打算啟用水印大法)

但話說回來,人們?yōu)榱讼拗艫I生成文字的負面影響,還是煞費苦心——

之前就有人搞出了一個檢測ChatGPT的網(wǎng)站,名曰GPTZero,只需要把相應的內(nèi)容粘進去,幾秒內(nèi)就能分析出結(jié)果。

用ChatGPT寫作業(yè)?新算法給AI生成文本加水?。褐眯哦雀哌_99.999999999994%

論文地址:https://arxiv.org/abs/2301.10226

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標簽: ChatGPT 大模型

相關(guān)文章