AI 大模型的語言不平等：英語最便宜，其它語言要貴得多

沃卡惠
行業(yè)資訊
2023-08-01 09:24:23
427

7月31日消息，用戶所使用的語言對于大型語言模型（LLM）的費用有很大的影響，可能造成英語使用者和其它語言使用者之間的人工智能鴻溝。最近的一項研究顯示，由于OpenAI等服務所采用的的服務器成本衡量和計費的方式，英語輸入和輸出的費用要比其他語言低得多，其中簡體中文的費用大約是英語的兩倍，西班牙語是英語的1.5倍，而緬甸的撣語則是英語的15倍。

AI 大模型的語言不平等：英語最便宜，其它語言要貴得多

IT之家注意到，推特用戶Dylan Patel（@dlan522p）分享了一張照片，展示了牛津大學進行的一項研究，該研究發(fā)現(xiàn)，讓一個LLM處理一句緬甸語句子需要198個詞元（tokens），而同樣的句子用英語寫只需要17個詞元。詞元代表了通過API（如OpenAI的ChatGPT或Anthropic的Claude2）訪問LLM所需的計算力成本，這意味著緬甸語句子使用這種服務的成本比英語句子高出11倍。

詞元化模型（即人工智能公司將用戶輸入轉(zhuǎn)換為計算成本的方式）意味著，除了英語之外的其他語言使用和訓練模型要貴得多。這是因為像中文這樣的語言有著不同、更復雜的結(jié)構(gòu)（無論是從語法還是字符數(shù)量上），導致它們需要更高的詞元化率。例如，根據(jù)OpenAI的GPT3分詞器，“你的愛意（your affection）”的詞元，在英語中只需要兩個詞元，但在簡體中文中需要八個詞元。盡管簡體中文文本只有4個字符（你的愛意），而英文有14個字符。

上一篇：保險反欺詐風控實踐

下一篇：未來之城：智能技術(shù)如何引領(lǐng)可持續(xù)革命