圖片

近些年來,我一直在從事數(shù)字人文平臺和數(shù)據(jù)庫的建設(shè)工作,先后建成了“學(xué)術(shù)地圖發(fā)布平臺”(http://amap.zju.edu.cn)、“智慧古籍平臺”(https://csab.zju.edu.cn)及“云四庫智能問答系統(tǒng)”(https://www.aiysk.cn)三個平臺。一方面,AI確實很智能,能夠幫助我們解決一些問題。另一方面,AI也并非如我們想象的那么智能,面對新的技術(shù),我們還需理性對待。




AI是智能的工具,虛擬的王國



人與動物的區(qū)別,就在于是否會制造和使用工具。從遠古的刀耕火種,到現(xiàn)代社會的工業(yè)文明,人類發(fā)展的歷史就是一部制造工具和使用工具的歷史。如今,人類文明已步入了智能文明時代,而作為這一階段的代表性工具,AI無疑是有史以來最智能的工具了,它應(yīng)用于人類生活的各個領(lǐng)域。譬如,醫(yī)生利用AI給人看病,軍事領(lǐng)域利用AI來制造武器等。在人文領(lǐng)域,智能的機器識別(OCR)、智能的標(biāo)點、智能的標(biāo)引及現(xiàn)在火爆的通用大語言模型如DeepSeek、通義千問等,都有極好的場景應(yīng)用。

對于AI,人文學(xué)者應(yīng)該秉持親近和擁抱的態(tài)度,而不是排斥和疏離的態(tài)度。首先,人文學(xué)者應(yīng)了解和學(xué)習(xí)各種AI工具及其功能,學(xué)著利用AI來解決問題。譬如,我們可以利用大模型來識別和標(biāo)注古籍、標(biāo)點和翻譯古籍、撰寫篇目和古籍提要等。再如,我們可以利用大模型的文生圖和文生視頻功能,來創(chuàng)作適合文化傳播的文創(chuàng)產(chǎn)品。又如,我們可以建設(shè)自己的知識庫,利用通用大模型的快速搜索和回答功能,使其與數(shù)據(jù)結(jié)合,來回答我們的專業(yè)問題。當(dāng)然,使用者要掌握基于計算機語言的AI工具,需要較長時間的學(xué)習(xí),甚至還要有一定的編程基礎(chǔ)。

對于AI,我們不能僅將其視為智能工具。實際上,包括AI在內(nèi)的基于計算機語言的各種大數(shù)據(jù)技術(shù)已為人類創(chuàng)造了一個虛擬世界。譬如,讓青少年沉迷其中的網(wǎng)游世界、讓大眾沉迷其中的短視頻世界、讓學(xué)者不得不面對的數(shù)據(jù)庫等,都是一種虛擬的存在,我們可以稱之為虛擬的數(shù)字王國或世界。這個虛擬世界與我們的現(xiàn)實世界既有普遍聯(lián)系,又有很大區(qū)別。像網(wǎng)絡(luò)游戲,游戲任務(wù)、情節(jié)是虛擬的,但網(wǎng)絡(luò)成癮這一社會問題卻是真實的。

馬克思曾說,“在這個必然王國的彼岸,作為目的本身的人類能力的發(fā)揮,真正的自由王國,就開始了。但是,這個自由王國只有建立在必然王國的基礎(chǔ)上,才能繁榮起來。工作日的縮短是根本條件”。如果我們將人文學(xué)者的知識生產(chǎn)看成一個從必然王國到自由王國的發(fā)展過程,那么,由數(shù)字構(gòu)成的虛擬世界則是我們無法繞過的。必然王國的“必然”,是指人類社會在生產(chǎn)力和生產(chǎn)關(guān)系的制約下,人們的行為和活動受到客觀規(guī)律的支配,人們?yōu)榱松姹仨氉裱匀缓蜕鐣囊?guī)律。同樣,在計算機構(gòu)建的虛擬王國中,我們要到達自由王國,也要受到計算機語言相關(guān)法則的支配,必須遵循這個虛擬王國的客觀規(guī)律來進行勞動和生產(chǎn)。




AI并沒有真正解決古文的語義交互問題



被稱為“國運”級別的語言大模型DeepSeek已在海內(nèi)外產(chǎn)生巨大的影響,得到了大范圍的應(yīng)用。但是,就個人的實踐和觀察來說,它在古文語義交互這一問題上,表現(xiàn)還有待提升。我建的“云四庫智能問答系統(tǒng)”,使用了阿里的通義千問系列(Qwen-72b、Qwq、Qwen-Plus、Qwen-Max)及杭州深度求索(DeepSeek-V3、DeepSeek-R1)等大模型作為底層基座,在此基礎(chǔ)上搭建了二次增強平臺,添加了大量標(biāo)點后的古書、研究著作及論文。通過較長時間的問答測試,這些大模型在古文翻譯、出處查找、詩詞賞析、提要撰寫等方面表現(xiàn)相當(dāng)不錯。譬如,讓機器查找“昔周室闇弱,靜帝幼沖,高祖以外戚之尊入握朝權(quán),都督諸軍,遂假黃鉞,開丞相府”這一段話的出處,機器很快給出答案:“這段文字的出處為宋濂所撰寫的《隋室興亡論》。該文見于《宋濂集》與《宋濂全集》中,主要論述了隋朝建立前后的歷史背景及關(guān)鍵事件。文中提到的‘昔周室闇弱,靜帝幼沖,高祖以外戚之尊入握朝權(quán),都督諸軍,遂假黃鉞,開丞相府’一句,是對隋高祖楊堅在北周時期逐步掌握大權(quán)、最終代周建隋這一歷史進程的概述。具體來說,此句描述的是北周靜帝宇文闡年幼即位、政權(quán)暗弱之時,隋高祖楊堅憑借外戚身份掌控朝政,并設(shè)立丞相府以總攬軍國大事的歷史情境。相關(guān)內(nèi)容亦可在《隋書》《北史》等正史中找到相應(yīng)的記載作為補充和佐證?!背藳]標(biāo)出卷數(shù)這一小遺憾外,其他內(nèi)容機器還是給出了準(zhǔn)確的回答。

在知識問答方面,DeepSeek和通義千問也能進行簡單的古文語義交互。譬如,我問:“有個朝代,北京的宦官比官吏多,女子比男子多,要飯的比商人多,這是哪本書上寫的,原文是怎樣的?”機器回答:“您提到的這段描述出自明代謝肇淛的《五雜俎》。原文如下(略)。這段文字描述了明代北京城的社會狀況,指出宦官、女子和乞丐的數(shù)量分別超過了官吏、男子、良婦和商人。同時,謝肇淛還提到北京城中各種不良風(fēng)氣和人物的聚集,認為這些現(xiàn)象使得北京成了一個‘陸?!捶比A而復(fù)雜的城市。希望這段原文對您有所幫助?!蔽乙苑g后的一段文字向機器提問,讓其回答出處,它給出了正確答案。這表明機器在白話文和古文的對應(yīng)關(guān)系上,還是能作出一些反應(yīng)的。

但是,白話文與古文的語義交互,機器也只能停留在查找出處,遠未達到如現(xiàn)代語言自由語義交互的階段。譬如,我要問宋濂的佛學(xué)思想,機器只能根據(jù)宋濂的研究論著來回答,而不能根據(jù)《宋濂全集》中宋濂寫的佛教文章來回答。再如,我讓機器回答朱元璋的反腐措施及效果,它只會根據(jù)《中國反貪史》等著作回答,而不能根據(jù)原始文獻來回答。假如機器能根據(jù)古籍等原始文獻,通過檢索和分析來回答問題,那么,我們可以說,古籍的活化利用才到達了一種理想的狀態(tài)。在DeepSeek火爆出圈的前夕,我曾聯(lián)系到杭州深度求索的CEO,表達共同開發(fā)古籍大語言模型的愿望。遺憾的是,對方告訴我,他們目前暫時還無暇顧及古籍大模型的研發(fā)。




AI時代的挑戰(zhàn)與機遇



以知識傳授和搬運為職業(yè)的教師,在強大的大語言模型和虛擬機器人的沖擊下,可能面臨需求銳減的趨勢。因此,如何應(yīng)對AI對文科相關(guān)職業(yè)產(chǎn)生的沖擊、AI時代文學(xué)教育如何進行等一系列問題都需要我們積極回應(yīng)。

古籍是中國古代文化最大的信息源,開發(fā)出真正能活化利用的古籍大模型勢必有助于中華優(yōu)秀傳統(tǒng)文化的弘揚與傳播。AI在帶來技術(shù)革命的同時,也在為有識者創(chuàng)造一些機會。譬如,數(shù)字人文里的“眾包技術(shù)”,可以解決大量文科生的就業(yè)問題。就古籍整理來說,老祖宗給我們留下了浩如煙海的文化典籍。這些古籍的影像數(shù)字化、文本數(shù)字化、標(biāo)點及標(biāo)引等工作,需要幾代人的努力才能夠完成。目前,浙江大學(xué)的“智慧古籍平臺”、中華書局的古聯(lián)公司、北京大學(xué)與字節(jié)跳動合作的“識典古籍”等都利用了“眾包技術(shù)”,參與者可以在線上校點古籍。除了古籍,還有大量的現(xiàn)代出版物也需要數(shù)字化、文本化,這是人工智能時代對數(shù)據(jù)這一新質(zhì)生產(chǎn)力的迫切需求。雖然排印本的近現(xiàn)代出版物,其OCR的準(zhǔn)確率可以達到95%—98%,但由于近現(xiàn)代出版物回溯工程的量特別巨大,仍然需要大量專業(yè)人員從事校對工作。

此外,大量結(jié)構(gòu)化的數(shù)據(jù)需要人工完成。譬如,古今人物的行跡數(shù)據(jù),就需要受過一定學(xué)術(shù)訓(xùn)練的專業(yè)人員來制作。“學(xué)術(shù)地圖發(fā)布平臺”經(jīng)過五六年的努力,也才完成了800多位人物的結(jié)構(gòu)化行跡數(shù)據(jù)。而從先秦到當(dāng)代,需要制作的人物行跡數(shù)據(jù)數(shù)以萬計。再如,哈佛大學(xué)和復(fù)旦大學(xué)史地所合作的“中國歷史地理信息系統(tǒng)”(CHGIS),目前只有省、府、縣三級。如果要對中國古代留存下來的各個省、府、縣地方志中的地名進行文本化、結(jié)構(gòu)化,必將是一個龐大的工程。已出版的大量工具書,包括圖像等,都面臨這樣的需求。

算力、算法、模型和數(shù)據(jù),是人工智能的四要素。人文社會科學(xué)優(yōu)質(zhì)數(shù)據(jù)的生產(chǎn)離不開專業(yè)人員的勞動。AI時代已經(jīng)到來,我們要抓住歷史機遇,從容應(yīng)對時代挑戰(zhàn)。


作者系浙江大學(xué)中文系教授

來源:中國社會科學(xué)報