7 月 16 日消息,近日有網(wǎng)友發(fā)現(xiàn),如果將美國最重要的法律文件美國憲法輸入一些專門用來檢測人工智能寫作的工具中,會得到一個令人驚訝的結果:美國憲法幾乎肯定是由人工智能寫的。除非詹姆斯?麥迪遜(美國第四任總統(tǒng),“美國憲法之父”)是個穿越者,否則這顯然是不可能的。那么為什么這些 AI 檢測工具會出現(xiàn)這樣的錯誤呢?外媒 Arstechnica 采訪了幾位專家,以及AI檢測工具GPTZero的開發(fā)者,來揭開其中的原因。
在教育領域,人工智能寫作引發(fā)了不少爭議。長期以來,教師們依賴于傳統(tǒng)的教學方法,將論文作為衡量學生對某一主題掌握程度的工具。很多老師試圖依靠 AI 工具來檢測 AI 生成的寫作,但迄今為止的證據(jù)表明,它們并不可靠。由于存在誤報的情況,AI 檢測工具如 GPTZero、ZeroGPT 和 OpenAI 的文本分類器都不靠譜,不能用來判斷文章是否是由大型語言模型(LLM)生成的。
當將美國憲法的一部分輸入 GPTZero 時,GPTZero 會稱這段文字“很可能完全由 AI 寫成”。在過去的六個月里,其他 AI 檢測工具顯示出類似結果的截圖多次在社交媒體上瘋傳。實際上,如果輸入《圣經(jīng)》中的一些內(nèi)容,也會出現(xiàn)同樣的情況。要解釋為什么這些工具會犯這樣明顯的錯誤,我們首先需要了解它們是如何工作的。
據(jù)IT之家了解,不同的人工智能寫作檢測器使用略有不同的檢測方法,但基本原理相似:通過一個人工智能模型,在大量文本(包括數(shù)百萬個寫作示例)和一套假定的規(guī)則(用來確定寫作是更可能由人類還是人工智能生成)上進行了訓練。
例如,GPTZero 的核心是一個神經(jīng)網(wǎng)絡,它在“一個大型、多樣化的語料庫上進行了訓練,該語料庫包括人類寫作和人工智能生成的文本,重點是英語散文”。接下來,該系統(tǒng)使用“困惑度”和“突發(fā)性”等屬性來評估文本并進行分類。
在機器學習中,困惑度是衡量一段文本與一個人工智能模型在訓練過程中所學習內(nèi)容之間偏離程度的指標。測量困惑度的思路是,當人工智能模型寫作時,它們會自然地選擇它們最熟悉的內(nèi)容,這些內(nèi)容來自于它們的訓練數(shù)據(jù)。輸出越接近訓練數(shù)據(jù),困惑度就越低。人類則是更混亂的寫作者,人類也可以用低困惑度來寫作,尤其是當模仿法律或某些類型的學術寫作中使用的正式風格時。而且,我們使用的很多短語都出奇地常見。
比如說,我們要猜測這個短語中的下一個詞:“我想要一杯_____。”大多數(shù)人會用“水”、“咖啡”或“茶”來填空。一個在大量英語文本上進行訓練的語言模型也會這樣做,因為這些短語在英語寫作中經(jīng)常出現(xiàn),這些結果中的任何一個都會有很低的困惑度。
GPTZero 測量的文本的另一個屬性是“突發(fā)性”,它是指某些單詞或短語快速連續(xù)出現(xiàn)或在文本中“突發(fā)”的現(xiàn)象。本質(zhì)上,突發(fā)性評估整個文本中句子長度和結構的可變性。人類作家經(jīng)常表現(xiàn)出動態(tài)的寫作風格,導致文本具有可變的句子長度和結構,而人工智能生成的文本往往更加一致和統(tǒng)一。然而,突發(fā)性也不是檢測人工智能生成內(nèi)容的萬無一失的指標。與“困惑度”一樣,也有例外。人類作家可能會以高度結構化、一致的風格寫作,從而導致突發(fā)性得分較低。相反,人工智能模型可以經(jīng)過訓練,在句子長度和結構上模擬更接近人類的可變性,從而提高其突發(fā)性得分。事實上,隨著人工智能語言模型的改進,研究表明它們的寫作看起來越來越像人類的寫作。