朱自清的《荷塘月色》被某檢測系統判定AI生成內容疑似度高達62.88%,唐代詩人王勃的《滕王閣序》甚至被檢出AI率接近100%……近日,網絡上出現這些令人哭笑不得的結果,迅速引發公眾對AI檢測準確性的熱議:有人擔憂自己的論文會被AI檢測誤判,擔心按照其結果修改后反而影響論文質量;有人調侃需故意“寫笨”才能規避誤判;更有人認為目前AI檢測技術尚未成熟,不宜將其作為檢測論文的硬性標準。記者為此采訪多位學術界和業界專家,他們從技術原理、算法局限等維度剖析AI檢測的現實困境,探討完善AI檢測體系的路徑。
待破解的AI檢測理論困境
中國人民大學新聞學院副教授董晨宇告訴記者,自己將剛完成的研究秀場直播產業的論文提交至某學術論文檢測平臺,得到的結果令他哭笑不得。系統標紅的“高度疑似AI生成”段落是研究團隊耗時3年扎根基層、追蹤多個真實案例寫成的內容。對此,他感慨道,這一現象暴露出當前AI檢測技術的不成熟性,“假陽性”(誤判人類原創為AI生成)與“假陰性”(誤判AI生成內容為人類原創)的雙重問題非常突出。技術邏輯與學術規范的深層沖突,加劇了誤判的必然性?!短旖蛏鐣茖W》主編時世平認為,學術寫作追求的語言規范、邏輯嚴謹與AI生成的底層邏輯高度重合——AI正是通過學習規范性表達來生成內容。這導致檢測系統陷入悖論:越是文筆流暢、邏輯清晰的文本,越容易觸發“AI生成”警報,使得學術表達的優質特征成為被誤判的“罪證”。
AI檢測面臨難以突破的理論瓶頸。AIGClink發起人、中關村超互聯聯盟副秘書長占冰強認為,從技術本質與實踐困境來看,當前AI檢測技術尚未成熟,甚至可被視為偽命題。AI通過監督微調(SFT)等技術學習人類知識體系,其生成內容與人類創作在語言結構、邏輯范式等淺層特征上日趨相似,導致AI生成與人類寫作的邊界愈發模糊。此外,現有檢測模型普遍存在方法論局限:其一,多依賴單一指標構建檢測基準,難以適應復雜多變的文本場景。其二,為規避漏判風險,部分模型在技術底層設置過敏感閾值,易引發誤判。其三,不同檢測工具采用差異化評估標準,導致同一文本在不同平臺檢測結果呈現顯著分歧,凸顯技術普適性的缺失。
復旦大學計算與智能創新學院教授陳陽表示,AI檢測難度遠大于傳統的“論文查重”工作。究其原因,在于基于生成式AI技術構建大語言模型的過程中,無論是預訓練階段還是微調階段,都會使用人類創作的語料作為輸入,進而對人類生成文本的模式進行學習和建模。在這樣的情況下,大語言模型生成的內容和人類創作的內容客觀上存在雷同或者部分雷同的可能性。因此,在AI檢測過程中,不論是名家名篇,還是由用戶自己創作的內容,完全可能被誤判為AI生成。
給學術生態帶來多重挑戰
為驗證AI檢測技術的效能,記者選用AI檢測軟件“鑒字源”,對《荷塘月色》《滕王閣序》《狂人日記》《繁星》等經典文學作品進行檢測。結果顯示,這些名人名篇的AIGC總體疑似度均為0.0%,與網絡流傳的“AI率”結論形成鮮明反差。這一現象折射出當前AI檢測技術存在的深層問題。
占冰強從技術原理層面剖析上述矛盾,當前,不同AI檢測軟件對同一文本的檢測結果差異顯著,根源在于其檢測標準與技術路徑的異質性。由于開發者采用的檢測算法、訓練數據及評估指標各不相同,各檢測工具構建判斷模型時遵循的技術范式與判定邏輯也存在根本差異,這使得檢測結果呈現出強烈的場景依賴性。在特定學術語境或文本類型下,某種檢測標準或許具有較高的準確性,但一旦檢測對象的學科領域、文本體裁或語言風格發生變化,原有標準的有效性便會大打折扣。因此,受技術標準多元與場景適配不足的制約,當前AI檢測技術亟須建立統一的行業標準與多場景驗證機制,以提升檢測結果的可靠性與一致性。
技術標準的混亂直接影響AI檢測在學術領域的應用效果。中華醫學會雜志社新媒體部主任沈錫賓表示,生成式人工智能在學術領域的應用正呈現出雙刃劍效應。隨著大模型能力的不斷增強,一方面能夠拓展學者的思維邊界,有效彌補理論與實踐中的知識缺口,助力完善學術思維框架;另一方面,在文字處理方面展現出強大優勢,不僅能夠實現高質量的文字潤色,還可模擬高水平研究者的寫作風格,完成專業文本的撰寫、改寫與翻譯工作。然而,這種技術能力的提升也帶來一系列問題,AI代寫與潤色現象快速蔓延,其生成的內容憑借高水準的語言表達,常使編輯難以通過傳統人工審查方式辨別真偽。
南京師范大學中國法治現代化研究院研究員李謙認為,AI檢測在學術領域的應用不僅影響學術成果的創新轉化,還沖擊著學術信任體系。在創新轉化層面,為滿足AI檢測要求,部分學者會簡化語言、打散表述,刻意避免集中探討學術觀點,甚至采用添加干擾字符、改變句式結構等方式“躲避”檢測,結果往往適得其反,影響學術成果的質量與表達深度。而在學術信任方面,一旦AI檢測頻繁出現誤判,將削弱學術界對AI工具的信任度,破壞學術生態的良性發展。
從檢測結果的矛盾到技術原理的缺陷,再到學術生態的連鎖反應,AI檢測技術正面臨從標準統一到應用優化的系統性挑戰。唯有解決技術異質性與場景適配問題,平衡技術監管與學術創新的關系,才能實現AI檢測技術與學術發展的良性互動。
促使技術與學術規范共生
對于AI檢測,受訪學者主要有兩類看法:一類主張通過技術創新提升AI檢測精準度、建立復合型審核機制等增強工具對學術內容的篩查功能;另一類則認為,AI檢測意義不大,應突破單純檢測AI生成痕跡的局限,從學術評估體系重構、人機協同機制等維度應對AI帶來的挑戰。
沈錫賓認為,AI檢測工具在識別明顯AI生成文稿、遏制學術不端方面具有積極意義,但技術短板顯著。隨著檢測能力的提升,工具對文本的篩查范圍不斷擴大,致使正常的文字潤色工作也常被誤判為AI生成內容,造成編輯資源的無端消耗與出版效率的下降。與此同時,面對海量文獻,算法偏差與數據樣本不足引發的高誤判率,暴露出現有技術在理論架構、算法設計和場景適配方面的缺陷。通過強化技術創新、完善檢測標準,能夠提升AI檢測工具的可靠性,使其在學術審核中發揮更大作用。
中國社會科學院文學研究所研究員劉方喜從技術發展趨勢角度,對傳統檢測模式提出質疑。他表示,伴隨技術迭代加速,未來無論是專家經驗判斷還是軟件檢測,都難以精準區分AI生成與人類原創內容。因此,單純依賴AI檢測工具已無法滿足學術審核需求,需建立復合型審核機制,包括作者AI使用聲明制度、負面清單管理等。
時世平建議,在AI技術未完善之前,應重視作者原創聲明環節,對使用AI卻未作聲明的行為采取相應措施。期刊社必須發揮好編輯的主觀能動性,明確AI檢測的輔助而非唯一決定功用,更多地完善同行評議、專家審核機制,綜合考量研究的原創性、學術價值,而非簡單的文字規范。李謙提出,要從學術評價過程、AI檢測工具研發、AI檢測參數設置等方面打造人機融合的動態學術評價體系。從AI檢測參數設置看,我們要結合學術研究成果自身特點,分門別類設定符合相應學科特征的AI檢測相似度閾值。
占冰強認為,執著于鑒定文本是否由AI生成,在學術邏輯和實踐操作中均缺乏長效性。要構建以學術成果創新性評估為核心的檢測體系,通過對比研究問題的新穎性、方法路徑的獨特性、結論貢獻的突破性,精準識別學術創作價值,重塑學術質量評價標準。
董晨宇提出,在人工智能深度介入學術領域的背景下,應理性看待AI技術的雙重屬性。一方面,AI已成為重要的學術輔助工具,AI技術發展打破了人類對創新的壟斷。教師應積極引導學生合理運用AI學術工具,并通過公開使用過程促進學術交流。同時,學術考核機制需從結果導向轉向過程導向,將AI應用納入學術規范。另一方面,AI在學術創作中的局限性不容忽視,其雖能提升研究效率、提高學術成果的基礎水準,但學術思想建構、深度論證等仍要依賴人類智慧。因此,構建人機協同的學術研究范式,應明確人類在學術創造中的主導地位,實現技術工具性與學術自主性的有機統一。
清華大學社會科學學院教授羅家德表示,傳統的學術檢測標準與教育方式已難以適應新的學術生產形態,亟須構建以人機協同為基礎、過程監管為核心的新型評估體系,引導學生在掌握AI工具使用技能的同時,強化批判性思維與原創性研究能力,實現學術教育與技術發展的有機融合。
學術界關于AI檢測的不同觀點,折射出學術領域應對AI技術的不同策略。未來學術生態的健康發展,需要在技術精進與體系創新之間尋求平衡,推動AI檢測技術迭代升級,構建涵蓋過程監管、人機協同、價值評估的多元化學術審核體系,最終實現技術賦能與學術規范的有機統一。
來源:中國社會科學報
新媒體編輯:曾煜婷
如需交流可聯系我們
nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />
nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />