其中英語輸入和輸出要比其他語言便宜得多,簡體中文的成本大約是英語的 2 倍,西班牙語的成本是英語的 1.5 倍,而緬甸撣語則是英語的 15 倍。
究其原理,可以追溯到今年 5 月份牛津大學(xué)在 arXiv 上刊印的一篇的論文。
(資料圖)
毫無疑問,在生成式 AI 商業(yè)化的趨勢下,計算力的耗費成本也會嫁接給用戶,當下許多 AI 服務(wù)也正是按照需要處理的詞元數(shù)量來計費。
論文顯示,研究者通過分析 17 種詞元化方法后,發(fā)現(xiàn)同一文本被轉(zhuǎn)換成不同語言詞元序列時長度差異巨大,即使是宣稱支持多語言的詞元化方法,也無法做到詞元序列長度完全公平。
例如,根據(jù) OpenAI 的 GPT3 tokenizer,倘若給「你的愛意」詞元化,英語只需兩個詞元,而在簡體中文中則需要八個詞元。即使簡體中文文本只有 4 個字符,而英文文本有 14 個字符。
從 X 用戶 @Dylan Patel 曝光的圖片也可以直觀看到,讓 LLM 處理一句英語需要 17 個詞元(tokens),而讓 LLM 處理同樣意思的一句緬語,則需要 198 個詞元(tokens)。這意味著緬語的處理成本將達到英語的 11 倍。
類似的情況也有很多,Aleksandar Petrov 的網(wǎng)站中提供了許多相關(guān)的圖標和數(shù)據(jù),感興趣的朋友不妨點擊「https://aleksandarpetrov.github.io/tokenization-fairness/」進去查看語言之間的差異。
在 OpenAI 的官網(wǎng)上也有著類似的頁面,解釋了 API 是如何對一段文本進行詞元化,以及顯示該文本的詞元總數(shù)。官網(wǎng)也提到,一個詞元通常對應(yīng)英語文本的約 4 個字符,100 個詞元約等于 75 個單詞。
得益于英語詞元序列長度短的優(yōu)勢,在生成式人工智能預(yù)訓(xùn)練的成本效益方面,英語可謂是最大贏家,將其他語言使用者遠遠地甩在身后,間接產(chǎn)生了一種不公平的局面。除此之外,這種詞元序列長度的差異也會導(dǎo)致處理延遲不公平(某些語言處理同樣內(nèi)容需要更多時間)和長序列依賴性建模不公平(部分語言只能處理更短的文本)。
簡單點理解,就是某些語言的用戶需要支付更高的成本,承受更大的延遲,獲得更差的性能,從而降低了他們公平地訪問語言技術(shù)的機會,也就間接導(dǎo)致了英語使用者和世界其他語言使用之間形成了 AI 鴻溝。
僅從輸出的成本來看,簡體中文的成本是英語的兩倍。伴隨著 AI 領(lǐng)域的深層次發(fā)展,總是「差一步」的簡體中文顯然并不友好。在成本等各方面疊加因素的權(quán)衡下,非英語母語的國家也紛紛嘗試開發(fā)自己的母語語言大模型。
以中國為例,作為國內(nèi)最早一批探索 AI 的巨頭,2023 年 3 月 20 日,百度正式上線生成式 AI 文心一言。隨后阿里巴巴的通義千問大模型、華為的盤古大模型等一批批優(yōu)秀大模型也陸續(xù)涌現(xiàn)出來。
在這當中,華為盤古大模型中的 NLP 大模型更是行業(yè)內(nèi)首個千億參數(shù)中文大模型,擁有 1100 億密集參數(shù),經(jīng)過 40TB 的海量數(shù)據(jù)訓(xùn)練而成。
正如聯(lián)合國常務(wù)副秘書長阿米娜 · 穆罕默德曾經(jīng)在聯(lián)合國大會上警告說,如果國際社會不采取果斷行動,數(shù)字鴻溝將成為「不平等的新面孔」。
同理,伴隨著生成式 AI 的狂飆突進,AI 鴻溝也很有可能成為新一輪值得關(guān)注的「不平等的新面孔」。
所幸的是,平時「慘遭嫌棄」的國內(nèi)的科技巨頭已然采取了行動。
關(guān)鍵詞:

營業(yè)執(zhí)照公示信息