來(lái)源:澎湃新聞 | 董牧杭 時(shí)間 : 2025-02-20
分享到:
無(wú)限猴子與結(jié)構(gòu)蜘蛛
假設(shè)有一只猴子,它會(huì)一直隨機(jī)地在打字機(jī)上敲擊鍵盤(pán)。那么只要給它的足夠長(zhǎng)的時(shí)間,它就幾乎肯定可以敲出人類(lèi)任何一本已有圖書(shū)的內(nèi)容,例如莎士比亞的全集。從數(shù)學(xué)上講,在無(wú)限次嘗試中,猴子可以敲打出任何一部作品的概率都無(wú)限趨近于1。
這就是著名的無(wú)限猴子定理,它是“荒誕”的。就像如果把一杯水倒入大海中,在之后的某個(gè)時(shí)刻,我們剛剛好可以打撈出一杯一模一樣的水一般。
但是現(xiàn)在我們已經(jīng)完全不需要暢想無(wú)限猴子了。在自然語(yǔ)言處理(NLP)和文本生成領(lǐng)域,要模仿特定的風(fēng)格生成文本,如果結(jié)合大規(guī)模預(yù)訓(xùn)練模型、風(fēng)格特征提取、文本生成調(diào)優(yōu)等技術(shù)方法,就可以做到“以假亂真”。
一種關(guān)于AI的新型自指羅素悖論:由AI寫(xiě)作的一篇“我堅(jiān)決不看任何AI寫(xiě)的東西”
這就是同樣基于概率的deepseek晚近“震驚人類(lèi)”的創(chuàng)作,它生成的文本幾乎無(wú)法分辨是不是人寫(xiě)的,并能夠模擬任何風(fēng)格與作者的文本。
AI眼中的“文學(xué)風(fēng)格”是什么樣的?
如果說(shuō)類(lèi)似網(wǎng)文、公文等因其程式化、商業(yè)化的文體特征,既沒(méi)有什么獨(dú)一無(wú)二的“作者性”,也沒(méi)有什么高明的文學(xué)性,很容易找到它們“批量生成方式”的話(huà),那我們不妨直接擺上人類(lèi)整個(gè)文學(xué)史上最高段的作家之一——三島由紀(jì)夫?yàn)槔?,讓AI生成一段三島式的文段:
暴雨中的劍道場(chǎng)彌漫著鐵銹與朽木的氣息,汗水順著少年繃緊的脊梁滑落,在榻榻米上洇出深色圖騰。竹刀相擊的脆響里,他看見(jiàn)師父眼角的皺紋藏著江戶(hù)時(shí)代某場(chǎng)未竟的復(fù)仇。當(dāng)狂風(fēng)掀開(kāi)紙門(mén),攜來(lái)山茶花的殘瓣黏在汗?jié)竦男靥艜r(shí),他恍然領(lǐng)悟肉體不過(guò)是盛裝恥辱的陶器,唯有在徹底粉碎的瞬間,方能窺見(jiàn)永恒澄明的月光。
三島的文風(fēng)“汪洋恣肆,波云詭譎”,比喻驚世駭俗,往往“語(yǔ)不驚人死不休”,令人拍案叫絕,難以名狀。而Deepseek交出的答卷,即使還不能說(shuō)已經(jīng)足夠“以假亂真”,但文風(fēng)的確已經(jīng)相當(dāng)有極具辨識(shí)度的三島韻味了。那么AI是怎么做到的呢?
當(dāng)我們說(shuō)“三島由紀(jì)夫式的段落”時(shí),我們首先在表達(dá)的,是一種極度抽象、模糊的文本特征,亦即一種經(jīng)過(guò)后人總結(jié)與概括出的美學(xué)風(fēng)格。
相信很少有人可以否認(rèn),三島由紀(jì)夫的核心風(fēng)格至少是包括以下幾個(gè)方面的:
極端美學(xué):三島強(qiáng)調(diào)死亡之美、肉體之美、秩序與毀滅的共存。他的文字往往冷峻、華麗,帶有儀式感。
日本傳統(tǒng)與西方現(xiàn)代性的交融:他擅長(zhǎng)描繪日本傳統(tǒng)武士道精神、神道教意象,同時(shí)又深受西方文學(xué)影響(如尼采、波德萊爾)。
強(qiáng)烈的視覺(jué)意象:他的描寫(xiě)極富畫(huà)面感,常用光影、色彩、質(zhì)感等細(xì)節(jié)來(lái)增強(qiáng)感官刺激。
短促有力的句子與復(fù)雜華美的句群交替:他能夠在冷靜、簡(jiǎn)潔的描述和繁復(fù)的抒情段落之間切換自如。
有美與毀滅的共存、個(gè)人意志與時(shí)代洪流、武士道精神的絕對(duì)化等思想沖突:“唯有被烈焰吞噬的建筑,才能顯現(xiàn)其真正的輪廓”“他寧愿讓自己的信仰碎裂成光輝四濺的玻璃,也不愿在時(shí)代的塵埃中沉默”“肉體不過(guò)是意志的器皿,若器皿已破,則意志亦得解放”等。
不僅如此,嗜讀三島的人們也很容易就可以總結(jié)出三島有以下這些鮮明的修辭風(fēng)格,甚至可以說(shuō)風(fēng)格鮮明到了若是不如此,就根本“不像”三島作品的程度:
對(duì)自然的高度擬人化:如“秋日的陽(yáng)光像一柄銳利的匕首,斜斜地刺入庭院,那金色的光芒在枯葉上燃燒,宛如即將自焚的舞姬。”
對(duì)肉體的極端關(guān)注:如“他脫下襯衫,背肌繃緊,皮膚因寒冷而泛起淡淡的青白色,像是刀刃輕撫過(guò)的瓷器。”
華麗的比喻與象征:“在夜色中,寺廟的影子倒映在水面,仿佛一匹黑色的戰(zhàn)馬正在湖心飲水?!?/p>
而以上三島核心美學(xué)特點(diǎn)與修辭特點(diǎn)的描述正是 AI 自己的“體會(huì)”,已經(jīng)非常準(zhǔn)確與出色了,與專(zhuān)家精心編撰的文學(xué)史教材中對(duì)三島風(fēng)格的概括可以說(shuō)具有幾乎同樣準(zhǔn)確的知識(shí)深度。
上述這些在人類(lèi)看來(lái)是美學(xué)風(fēng)格的東西,在進(jìn)行過(guò)語(yǔ)料庫(kù)構(gòu)建與風(fēng)格學(xué)習(xí)的機(jī)器眼中,卻全然是另一番景象。
機(jī)器在收集足夠的三島由紀(jì)夫文本后,會(huì)首先進(jìn)行預(yù)處理。三島由紀(jì)夫的作品會(huì)被機(jī)器進(jìn)行分句、分詞,處理日語(yǔ)/中文/翻譯英文版本等,并“確保數(shù)據(jù)格式一致”。此后,機(jī)器會(huì)采用TF-IDF、BERTembeddings等方法分析三島文本的常見(jiàn)詞匯與獨(dú)特短語(yǔ),比如他偏好使用的比喻、色彩詞、身體意象等。有了上述準(zhǔn)備工作,機(jī)器就可以對(duì)文本進(jìn)行句法分析,從而識(shí)別出三島句子的結(jié)構(gòu)模式,比如:
·修飾性強(qiáng)的長(zhǎng)句(多層定語(yǔ)、隱喻、插入語(yǔ))
·簡(jiǎn)短有力的斷句(刀鋒般的短句,強(qiáng)調(diào)死亡、決絕)。
其后,機(jī)器就可以訓(xùn)練風(fēng)格分類(lèi)器(Style Classifier),用以區(qū)分三島文本與其他作家的文本,并讓模型學(xué)習(xí)他的詞匯分布、句法模式、修辭風(fēng)格,從中提取獨(dú)特的風(fēng)格特征了。
AI是怎么生成特定風(fēng)格的文本的?
當(dāng)模型根據(jù)人類(lèi)給定的條件來(lái)調(diào)整輸出,并生成特定風(fēng)格、主題或情感的文字時(shí),比如生成三島由紀(jì)夫風(fēng)格的文字,就叫做“受控文本生成”。
大模型會(huì)限制輸出自己句子的平均長(zhǎng)度、從句嵌套深度、比喻使用率等,使其符合三島的句法特點(diǎn),并優(yōu)先使用“死亡、美、毀滅、身體、宗教”等高頻詞,以保持風(fēng)格一致性。
而且如果降低溫度(Temperature),就可以控制詞匯分布、減少生成隨機(jī)性,使生成文本更符合訓(xùn)練數(shù)據(jù)風(fēng)格,并更具連貫性,不至于過(guò)于發(fā)散。
人類(lèi)也很容易訓(xùn)練一個(gè)句法轉(zhuǎn)換模型(Syntax Transfer Model)和比喻生成器(Metaphor Generator),用以將普通文本轉(zhuǎn)換成三島風(fēng)格,比如:
·普通句子:“落葉在風(fēng)中飄零”“他的手指微微顫抖”
·三島風(fēng)格:“秋風(fēng)撕裂枝頭,枯葉如燒盡的詩(shī)篇,沉默地墜落”“他的指尖如風(fēng)中殘燭,顫抖著,仿佛即將熄滅”
甚至還可以結(jié)合情感分析模型(Sentiment Analysis),調(diào)整文本的情緒參數(shù),讓生成更具三島式的“悲壯美感”或“壓抑感”。
最后是大模型的評(píng)估與優(yōu)化環(huán)節(jié),機(jī)器可以自己計(jì)算三島文本與生成文本的困惑度。(Perplexity),評(píng)估其可讀性與風(fēng)格一致性,并使用BERTScore(計(jì)算生成文本與參考文本之間單詞片段的重復(fù)率)、BLEU(衡量生成文本覆蓋了多少原文的關(guān)鍵內(nèi)容)、ROUGE(將文本轉(zhuǎn)化為上下文語(yǔ)義向量,計(jì)算生成文本與原文在深層語(yǔ)義上的相似度)等方式,衡量生成文本與三島原文的相似度。
再加上人類(lèi)“專(zhuān)家”的最后的評(píng)估與調(diào)優(yōu),機(jī)器就可以把文學(xué)、美學(xué)風(fēng)格轉(zhuǎn)化為數(shù)據(jù)、概率,并由此模擬任何人的寫(xiě)作風(fēng)格。
作者應(yīng)該是AI本身,還是“原作者”,亦或是問(wèn)問(wèn)題的用戶(hù)?
卡夫卡在臨終前給了好友布洛德一份遺囑,要求他死后銷(xiāo)毀所有未發(fā)表的手稿,其中包括《城堡》、《審判》等公認(rèn)最偉大的文學(xué)作品??ǚ蚩ù饲熬投啻伪磉_(dá)過(guò)類(lèi)似的意愿,并甚至親手銷(xiāo)毀過(guò)自己的手稿,但布洛德選擇了"背叛"他最好朋友的遺愿。他不但沒(méi)有銷(xiāo)毀這些手稿,反而傾盡畢生精力整理、編輯并出版了它們。
米蘭·昆德拉正是以這個(gè)故事展開(kāi)他的著名的文論作品《被背叛的遺囑》的,而且恐怕沒(méi)有人會(huì)對(duì)此抱有異議:布洛德救贖了文學(xué),即使他背叛了作家本人的意愿與友誼,他還是干得漂亮,他做得太對(duì)了!
然而如果我們思考昆德拉在這本書(shū)中提出的另一個(gè)有趣的問(wèn)題,答案似乎就不如此黑白鮮明了。斯特拉文斯基堅(jiān)持認(rèn)為,演奏者必須嚴(yán)格按照自己樂(lè)譜演奏,他反對(duì)任何形式的擅自改動(dòng)。即使在有些時(shí)候,經(jīng)過(guò)改動(dòng)后的樂(lè)譜演出效果更好。那么這種有悖于作曲家或藝術(shù)家原意的“更好”的改動(dòng),是可以被允許的嗎?昆德拉借題發(fā)揮道:
毫無(wú)疑問(wèn),人們完全可能把《追憶逝水年華》中的某個(gè)句子寫(xiě)得更好些。但上哪兒去找這么個(gè)愿意讀一本修改后的普魯斯特作品的瘋子呢?
即使在實(shí)質(zhì)意義上,被改動(dòng)后的文本是比原來(lái)的文本“更好”的,這種改動(dòng)也是不被允許的。這個(gè)問(wèn)題在昆德拉這里之所以是不證自明的,根本原因在于他認(rèn)為作者的作品是一個(gè)有機(jī)的整體,任何改動(dòng)都可能破壞其內(nèi)在的邏輯和意義。后人首先應(yīng)該尊重作者的創(chuàng)作意圖,并盡量理解和還原作者想要表達(dá)的思想和情感。
所以昆德拉并沒(méi)有在這個(gè)問(wèn)題上更進(jìn)一步,這個(gè)被改動(dòng)了個(gè)別詞句的,甚至已經(jīng)改變了作者原意的“文本”,他的作者,到底應(yīng)該是普魯斯特,還是應(yīng)該是普魯斯特以及改動(dòng)了這段文本的那個(gè)人兩人合著呢?
而昆德拉之所以沒(méi)有考慮這個(gè)問(wèn)題,主因或許是印刷時(shí)代的紙質(zhì)圖書(shū)生成方式,被其他人改動(dòng)了個(gè)別字句的《追憶似水年華》因?yàn)闆](méi)有人愿意看的“市場(chǎng)性”原因根本沒(méi)有被印出來(lái)的價(jià)值,而且著作權(quán)也不允許這樣的著作被印出來(lái)。
所以文本的作者是普魯斯特與一個(gè)沒(méi)有經(jīng)過(guò)普魯斯特允許的改寫(xiě)者的情況是不可能發(fā)生的。在信息的生產(chǎn)與流通并不依賴(lài)紙質(zhì)圖書(shū)的印刷、出版的數(shù)字時(shí)代,一般出現(xiàn)這種偷偷改動(dòng)原文個(gè)別字句并據(jù)為己用的情況,自然會(huì)被判定為洗稿。
但如果這段文本的創(chuàng)作者是具有生成能力的大語(yǔ)言模型呢?尤其是大語(yǔ)言模型生成的文本是在它學(xué)習(xí)了原作者的大量文本后,利用上述手段生成了在人類(lèi)可以識(shí)別的“風(fēng)格”上完全相同的新的文本。如果AI生成文本的風(fēng)格與原作還有差距,那也只是AI“還”不能出色地完成仿寫(xiě)任務(wù),而不是AI“不能”完成這個(gè)任務(wù)。
那么AI通過(guò)仿寫(xiě)生成的文本,他的“作者”到底應(yīng)該是AI本身,是原始文本數(shù)據(jù)的提供者“原作者”,還是那個(gè)通過(guò)提問(wèn)詞一步步引導(dǎo)AI生產(chǎn)出了這段文本的用戶(hù)?
很多人認(rèn)為AI生成的內(nèi)容應(yīng)視為“委托作品”,著作權(quán)歸屬于終端用戶(hù)。但另一種觀(guān)點(diǎn)認(rèn)為,AI生成的內(nèi)容缺乏人類(lèi)創(chuàng)作者的直接參與,不應(yīng)視為作品,因而不受著作權(quán)法保護(hù)。純粹由AI生成的藝術(shù)作品不應(yīng)該獲得版權(quán)保護(hù),因?yàn)锳I提示本身不足以使用戶(hù)成為作品的作者。
而AI在生成內(nèi)容時(shí),未經(jīng)授權(quán)使用他人作品進(jìn)行訓(xùn)練,已經(jīng)出現(xiàn)過(guò)實(shí)際的侵權(quán)案例。例如,Thomson Reuters在與Ross Intelligence的訴訟中,法院裁定Ross未經(jīng)授權(quán)復(fù)制其內(nèi)容用于AI訓(xùn)練,侵犯了其版權(quán)。
不過(guò)美國(guó)的版權(quán)所有者態(tài)度與法律尺度比其他國(guó)家更為嚴(yán)苛。據(jù)傳,幾乎所有的著名AI公司都曾向數(shù)字圖書(shū)館安娜的檔案提出過(guò)合作邀約,但最后美國(guó)公司都因?yàn)閷?duì)于版權(quán)問(wèn)題的擔(dān)憂(yōu)而最終放棄了合作。
隨著AI技術(shù)的不斷進(jìn)步,AI生成內(nèi)容的著作權(quán)歸屬和相關(guān)法律倫理問(wèn)題只會(huì)更加復(fù)雜。具有推理與文本生成能力的AI技術(shù)將為人類(lèi)社會(huì)的方方面面的格局都帶來(lái)無(wú)比重大的改變,版權(quán)的概念與相關(guān)的法律條文概莫能外。
湖南省作家協(xié)會(huì) | 版權(quán)所有 : 湘ICP備05001310號(hào)
Copyright ? 2005 - 2012 Frguo. All Rights Reserved