您的位置：首頁 >城市 >

AI 大模型的語言不平等：英語訓(xùn)練費用最便宜，漢語訓(xùn)練費用是英語的 2 倍

2023-08-02 02:59:03 來源：ZAKER科技

近日，X（原 Twitter）用戶 @Dylan Patel 展示了一份來自牛津大學(xué)的研究：通過對 GPT-4 和大多數(shù)其他常見 LLM 的語言進行研究，研究發(fā)現(xiàn) LLM（大語言模型）推理的成本差異很大。

其中英語輸入和輸出要比其他語言便宜得多，簡體中文的成本大約是英語的 2 倍，西班牙語的成本是英語的 1.5 倍，而緬甸撣語則是英語的 15 倍。

究其原理，可以追溯到今年 5 月份牛津大學(xué)在 arXiv 上刊印的一篇的論文。

(資料圖)

詞元是將自然語言文本轉(zhuǎn)換成詞元（token）序列的過程，是語言模型處理文本的第一步。在 LLM 計算力成本的核算中，詞元越多，耗費計算力的成本越高。

毫無疑問，在生成式 AI 商業(yè)化的趨勢下，計算力的耗費成本也會嫁接給用戶，當下許多 AI 服務(wù)也正是按照需要處理的詞元數(shù)量來計費。

論文顯示，研究者通過分析 17 種詞元化方法后，發(fā)現(xiàn)同一文本被轉(zhuǎn)換成不同語言詞元序列時長度差異巨大，即使是宣稱支持多語言的詞元化方法，也無法做到詞元序列長度完全公平。

例如，根據(jù) OpenAI 的 GPT3 tokenizer，倘若給「你的愛意」詞元化，英語只需兩個詞元，而在簡體中文中則需要八個詞元。即使簡體中文文本只有 4 個字符，而英文文本有 14 個字符。

從 X 用戶 @Dylan Patel 曝光的圖片也可以直觀看到，讓 LLM 處理一句英語需要 17 個詞元（tokens），而讓 LLM 處理同樣意思的一句緬語，則需要 198 個詞元（tokens）。這意味著緬語的處理成本將達到英語的 11 倍。

類似的情況也有很多，Aleksandar Petrov 的網(wǎng)站中提供了許多相關(guān)的圖標和數(shù)據(jù)，感興趣的朋友不妨點擊「https://aleksandarpetrov.github.io/tokenization-fairness/」進去查看語言之間的差異。

在 OpenAI 的官網(wǎng)上也有著類似的頁面，解釋了 API 是如何對一段文本進行詞元化，以及顯示該文本的詞元總數(shù)。官網(wǎng)也提到，一個詞元通常對應(yīng)英語文本的約 4 個字符，100 個詞元約等于 75 個單詞。

得益于英語詞元序列長度短的優(yōu)勢，在生成式人工智能預(yù)訓(xùn)練的成本效益方面，英語可謂是最大贏家，將其他語言使用者遠遠地甩在身后，間接產(chǎn)生了一種不公平的局面。

除此之外，這種詞元序列長度的差異也會導(dǎo)致處理延遲不公平（某些語言處理同樣內(nèi)容需要更多時間）和長序列依賴性建模不公平（部分語言只能處理更短的文本）。

簡單點理解，就是某些語言的用戶需要支付更高的成本，承受更大的延遲，獲得更差的性能，從而降低了他們公平地訪問語言技術(shù)的機會，也就間接導(dǎo)致了英語使用者和世界其他語言使用之間形成了 AI 鴻溝。

僅從輸出的成本來看，簡體中文的成本是英語的兩倍。伴隨著 AI 領(lǐng)域的深層次發(fā)展，總是「差一步」的簡體中文顯然并不友好。在成本等各方面疊加因素的權(quán)衡下，非英語母語的國家也紛紛嘗試開發(fā)自己的母語語言大模型。

以中國為例，作為國內(nèi)最早一批探索 AI 的巨頭，2023 年 3 月 20 日，百度正式上線生成式 AI 文心一言。

隨后阿里巴巴的通義千問大模型、華為的盤古大模型等一批批優(yōu)秀大模型也陸續(xù)涌現(xiàn)出來。

在這當中，華為盤古大模型中的 NLP 大模型更是行業(yè)內(nèi)首個千億參數(shù)中文大模型，擁有 1100 億密集參數(shù)，經(jīng)過 40TB 的海量數(shù)據(jù)訓(xùn)練而成。

正如聯(lián)合國常務(wù)副秘書長阿米娜 · 穆罕默德曾經(jīng)在聯(lián)合國大會上警告說，如果國際社會不采取果斷行動，數(shù)字鴻溝將成為「不平等的新面孔」。

同理，伴隨著生成式 AI 的狂飆突進，AI 鴻溝也很有可能成為新一輪值得關(guān)注的「不平等的新面孔」。

所幸的是，平時「慘遭嫌棄」的國內(nèi)的科技巨頭已然采取了行動。

關(guān)鍵詞：

精彩推送

熱點推薦

大家愛看 Top

m.w941.com 所刊載內(nèi)容之知識產(chǎn)權(quán)為界限網(wǎng)絡(luò)及/或相關(guān)權(quán)利人專屬所有或持有。未經(jīng)許可，禁止進行轉(zhuǎn)載、摘編、復(fù)制及建立鏡像等任何使用。

　違法和不良信息舉報聯(lián)系郵箱：43 52 26 40 @qq.com

97超碰人妻在线观看,精品尤物蜜臀av天堂yw,99热这里只有精品99一,人成午夜精品视频在线播放,亚洲欧美三级中文字幕,国产三级片在线观看视频,中文与幕中文字幕在线中二区,精品一区二区三区婷婷,欧美激情一区二区三区一在线