關注“在線學習”
獲取更多資訊!
刊載信息
李小濤.(2026).智能時代的教育評價悖論:AIGC應用危機與評價范式重構. 中國遠程教育(3),141-158.
智能時代的教育評價悖論:AIGC應用危機與評價范式重構
李小濤
【摘要】針對AIGC教育應用在“目標—過程—結果”上引發的評價悖論,本研究從智能技術和教育評價兩個層面分析其問題產生的根源因素,提出AIGC沖擊下教育評價倫理弱化、認知固化、目標異化、方式僵化和范式鈍化的核心問題,并基于技術哲學與教育評價的雙重邏輯視角,分析支持其范式重構的哲學、科學、技術、政策法律基礎,進而提出以“倫理先行—認知重塑—主體協同—方法創新—目標訂正—價值回歸”為核心的評價范式重構主張,以期為AIGC更好地應用于教育評價和智能時代教育評價范式轉型提供一定的理論支持。
【關鍵詞】智能時代; 教育評價; AIGC; 評價悖論; 范式重構
技術發展催生了知識內容生成模式的變革。在Web 2.0及更早時代,知識內容生成方式分別有專業生成內容(Professionally-Generated Content,PGC)(Paulussen & Ugille, 2008)、用戶生成內容(User-Generated Content,UGC)(Quinn & Quinn-Allan, 2006),以及專業用戶生成內容(Professional User-Generated Content,PUGC)(Vickery & Wunsch-Vincent, 2007, pp.51-76)等形式。自Chat GPT發布以來,人工智能內容生成(Artificial Intelligence-Generated Content,AIGC)開始受到國際廣泛關注(朱永新 & 楊帆, 2023)。AIGC是AI在知識內容生成領域的拓展,但這一拓展卻引發了學術評價困擾,造成了AIGC應用倫理缺失和評價活動異化的問題。在國內,隨著以DeepSeek為代表的人工智能大語言模型宣布免費開放,生成式人工智能技術在高校中的應用愈發普遍,來自高校的調查結果顯示,七成學生熟悉生成式人工智能(李艷 等, 2024)。AIGC技術的大范圍使用引發了前所未有的學術誠信危機與信任焦慮,迫使高校、期刊社等評價主體不得不使用相應的AIGC檢測工具開展學術誠信檢測(何潔, 2025)。在國外,黛比?科頓(Cotton, D.R.E.)等人較早討論了AIGC引發的學術誠信問題,并提出制定政策和程序、提供培訓和支持,以及使用各種方法來檢測和預防作弊(Cotton et al., 2024)的觀點。然而,由于目前AIGC檢測技術在算法邏輯和技術發展等方面的問題與缺陷,誤判危機始終未能消除。2025年以來,互聯網先后出現了《滕王閣序》AIGC檢測重復率接近100%、朱自清《荷塘月色》AIGC檢測重復率達62.88%(孫美娟, 2025)等熱點誤判案例,這些案例進一步導致由AIGC評價所產生的學術污名化矛盾被放大和激化,使被評價者對AIGC檢測工具的科學性、合理性、正確性產生質疑,進而引發了對學術評價權威性的質疑。由于學術作品評價和學習者結果性評價有著評價對象層面的相似性,AIGC對學術作品的誤判勢必引發教育領域結果性評價的深層焦慮。學術作品評價與學習者結果性評價雖具有評價對象層面的相似性,但也存在本質上的區別,具體如表1所示。
表1 基于AIGC的學術作品評價與學習者結果性評價的本質區別
![]()
如表1所示,學術作品評價與學習者結果性評價截然不同,為何針對學術作品的評價仍會深刻影響學習者結果性評價?原因在于智能技術工具在應用于教育評價過程中,評價目的(如本應利用技術促進學習者發展變成利用技術檢測通過率)、評價過程(如評價以人為主體變成技術決定論)等出現了錯位與異化。因此在智能時代,應重新審視及解決AIGC沖擊下現有評價體系的問題與不足,防止智能時代教育評價“馬拉火車”①的荒誕怪象發生。唯有破解人工智能技術進步與教育評價不適應、不協調的問題,重構基于AIGC的教育評價范式,建立一套適應智能技術發展、以倫理先行、認知重塑、主體協同、方法創新、目標訂正、價值回歸為核心的評價體系,糾正評價理念、目的和方法,AIGC誤判危機才會消除,基于AIGC的教育評價才能行穩致遠。
一、
AIGC應用于教育評價的基本悖論
AIGC檢測工具誕生的初衷,一方面是為了對抗生成式人工智能軟件,應對傳統學術不端升級,防止智能技術內容生成的直接使用;另一方面是因為AIGC檢測工具具有大幅提升檢測效率、優化標準化檢測等附加功用,以及維護學術誠信、推進檢測技術升級成為AIGC檢測工具研發的主要目標。然而,受制于當前人工智能技術缺陷以及現行AIGC評價模式在實施過程中存在評價理念、目標等的異化,AIGC應用于教育評價的悖論頻繁顯現,嚴重背離黨和國家“扭轉不科學的教育評價導向”(新華社, 2020)的基本要求。利用溯因推理(Abductive Reasoning)的邏輯方法審視AIGC誤判危機,能從結果—過程—原因上清晰找到AIGC誤判危機的根源。
(一)評價結果悖論:學術污名化與不端之風滋生
現有AIGC檢測工具(如國內的DETECT AIGC檢測、知網AIGC檢測、格子達AIGC檢測、PaperPass AIGC檢測等,國外的GPTZero、Turnitin AI、Grammarly、Originality.AI等)依據文本統計特征、概率統計、深度語義分析、模式識別等多種人工智能方法開展AIGC檢測(鄭泳智 等, 2022),受限于算法技術本身和檢測工具模型參數等因素影響,當前檢測產生了“利用智能技術手段接近事實卻更偏離事實”的悖論,進一步加深了學術評價的信任危機。一方面,AIGC檢測過程中的偽陽性(False Positive,FP)上升,人類專業性的原創作品被AIGC誤判為抄襲,導致評價中的學術污名化發生,如有知名教授自爆論文被誤判為AI抄襲(Hong, 2025);另一方面,由于對抗性寫作策略②的存在,AIGC檢測無法解決偽陰性(False Negative,FN)問題,導致AIGC生成并經對抗性寫作策略修改的內容被誤判為人類撰寫的情況發生,使抄襲者滋生出投機取巧、規避監管的僥幸心理,嚴重侵蝕學術誠信的根基,進一步加劇評價的公正性危機與倫理失序。偽陽性和偽陰性③共同導致AIGC檢測結果背離事實這一悖論,加劇了AIGC用于教育評價的可信度和權威性的消解。
(二)評價過程悖論:主體性剝奪與權威性消解
伴隨智能技術的快速發展,對技術工具應用于教育評價的過高期望,致使評價過程異化。同時,評價主體對價值理性的判斷讓渡于技術所主導的工具理性,致使評價主體性被剝奪,權威性消解。工具理性(Zweckrationalit?t)以法蘭克福學派馬克斯?韋伯(Weber, M.)的觀點為代表,主張以目的為重心考量手段或工具的適用性與有效性(馬克斯?韋伯, 1997, pp.57-65)。技術、工具的發明本以服務人類價值需求或價值實現為宗旨,但長期以來,教育評價在工具理性的主導下形成了唯結果、唯效率、唯技術的評價范式,忽略了教育評價應關注人的發展和回歸教育本體(石中英, 2020)的價值理性(Wertrationalit?t)。AIGC檢測的應用加速了這一進程,使教育評價從技術工具服務于教育評價以促進人的更好發展,異化為“工具理性凌駕于價值理性以決定評價結果”的悖論。AIGC檢測的評價模式加深了唯結果、唯技術的不利局面,放大了技術在評價目標、過程、結果上的作用。長此以往,教育評價中人的主體作用與權威性將逐漸消解,技術至上將為評價領域帶來不可預估的風險。已有學者意識到當前評價中工具理性凌駕于價值理性的問題,提出了工具理性與價值理性的匡正(檀慧玲 & 孫一帆, 2025)以及工具理性與價值理性的整合等策略(張宏, 2016)來緩解這一沖突。
(三)評價體系悖論:目標異化與價值失衡
生成式人工智能對教育產生重大影響(楊宗凱 等, 2023),包括對評價目標、過程、結果產生多方面的扭曲與變形,導致評價體系的異化。第一,AIGC評價可能導致評價目標的異化,形成評價目標從“人的發展”到“技術合規”的錯誤認知轉向。教育評價內隱促進被評價者發展的功能(劉志軍 & 徐彬, 2019),評價本身聚焦于以“人的發展”為核心。如對學生學業論文的檢測,本質目的在于考查或評價學生是否真正掌握了某一內容或研究方法(本質上還是考查學生是否得到了自我發展),而非單純追求學業論文是否符合AIGC檢測通過的合規標準這一“形式主義”。過度追求AIGC檢測的“技術合規”標準,將是否通過AIGC檢測作為核心評價依據,不僅造成評價范式的技術依賴,損害學習者自主創新,還會造成評價標準的進一步扭曲。第二,AIGC評價導致評價過程從“質性優劣的過程判斷轉向量化指標的模型匹配”,即形成評價過程從“確定指標”考核到“算法黑箱”驗證的錯誤過程轉向,導致技術使用不僅沒能提高評價質量,反而引發了新的問題:由于AIGC采用文本特征分析、語義重合度分析等量化指標,使得任一降低重合度(不考慮學術作品質量如何)的作品即可通過AIGC檢測。從質性優劣的內容判斷轉向量化指標的模型匹配,實質是對評價過程的異化。這一過程把質量判斷異化為數量匹配,將人類復雜認知生成、創新創造力、批判性思維等關鍵評價任務,武斷地簡化為“是否AIGC生成”的二元判斷,與評價本身促進發展的根本目的背道而馳。第三,AIGC評價導致評價結果異化,加速評價結果從“創新能力培養到檢測規避”的錯誤行動轉向。目前,不少高校采用AIGC檢測引發學生群體的集體焦慮,為避免AIGC檢測通不過帶來學業上的各類問題與隱患,學生群體采用各種論文撰寫手段(如改寫、寫錯別字、口語化表達等形式)以盡量適應AIGC檢測標準,學業和學位論文的完成從“追求高質量的學術創新異化為最大可能通過AIGC檢測”。甚至有學生坦言,為通過學校官方的AIGC檢測,90%的學生會自行開展AIGC檢測,有的為了降重甚至檢測3~5次,造成個體心理壓力和資源浪費。AIGC對評價結果的影響不可謂不深,需引起教育評價主體及相關政策制定者的重視。第四,AIGC評價正在對評價主體與評價體系造成權威性的消解。AIGC檢測手段迫使教師(或審稿專家)正在從評價主體變成次要參與者,學生(或投稿人)從學術主體變成技術工具和算法黑箱的驗證者,而評價工具正在從輔助工具變成決策主體。AIGC檢測通過與否正在成為論文合規與否的“金標準”。就此而言,AIGC檢測正在造成評價體系的異化,即學術評價問題正在異化為數據與技術治理問題。
二、
AIGC誤判危機的根源因素:技術缺陷與教育評價范式桎梏的雙重影響
(一)AIGC的技術缺陷
1. 大模型的既定數據與封閉特征缺陷
AIGC大模型存在歷史數據、固定數據與封閉模型訓練的天然缺陷。現有AIGC檢測預訓練模型(以下簡稱“大模型”)由大量數據(通常為千億規模)通過人工智能方法(如機器學習、深度學習等)訓練進化而來。目前,多數大模型雖然囊括了眾多數據,但始終沒能擺脫歷史數據、固定數據和封閉模型的邏輯規制,其技術限制在對固定、已知、歷史數據學習的經驗基礎之上,面對實時、動態、復雜的新數據時,容易產生誤判的情形。人無法想象出自己認知以外的東西。同樣地,大模型的大樣本訓練也不例外。針對已知、固定、歷史的數據進行的深度學習訓練,不會提取到樣本特征以外的東西,并且由于封閉模型的特性,AIGC檢測模型還存在一定的滯后性,面對實時的、新的情況時,容易產生較高的誤判率。
2. 高度的數據依賴與既定的算法偏見
AIGC通過自然語言處理(Natural Language Processing,NLP)技術[如語義密度檢測、困惑度(Perplexity)檢測、突發性(Burstiness)④檢測、特征提取等]、機器學習與深度學習算法[如監督學習、循環神經網絡(Recurrent Neural Network,RNN)、無監督學習(Unsupervised Machine-Learning,UML)等]、基于人類反饋的強化學習 (Reinforcement Learning with Human Feedback,RLHF)技術和上下文學習機制(In-Context Learning,ICL)等進行文本概率閾值的測算,把達到一定閾值的文本識別為AIGC生成,進而形成基于AIGC的檢測結果⑤。一方面,AIGC檢測高度依賴數據本身的質量,而數據本身的質量又來自于特定算法模型的查準率和召回率的數據表征,因此可以說AIGC檢測存在高度的數據依賴特性;另一方面,AIGC算法存在一定的算法偏見(劉艷紅, 2023),這一偏見由先驗偏見、技術偏見(Friedman & Nissenbaum, 1996)和突發性算法偏見組成(劉友華, 2019)。算法偏見假設人類能力天然與人工智能生成能力存在差距。該假設并非空穴來風,而是由大模型通過數千億(最低約1×1011)規模樣本進行深度學習總結歸納而來,因此具備一定的科學性,但其本質上仍是技術決定論偏見(Technological Determinism Bias)、工具崇拜主義(Instrumental Worship)、領域泛化謬誤(Domain Generalization Fallacy)以及進步主義偏見(Progressivism Bias)的表現。現實問題是——人類高質量的寫作文本(如專業領域的學術論文、小說家撰寫情節豐富連貫的小說等),具有天然的專業性、低困惑度與低突發性。由于算法偏見緣故,越高質量的人類文本越容易被誤判為抄襲。正是因為算法偏見,才有了王勃《滕王閣序》AIGC檢測抄襲率接近100%、朱自清《荷塘月色》涉嫌抄襲的荒誕謬誤。
3. 如影隨形的對抗性攻擊問題
對抗性攻擊(Adversarial Attacks)是機器學習領域的概念,指攻擊者通過細微的輸入擾動,使原模型做出錯誤判斷的過程。對抗性攻擊的核心在于利用模型對輸入數據微小變化的敏感性,生成人類主體難以察覺或發現的對抗樣本,這會使深度學習模型輸出意想不到的結果(任奎 等, 2020)。現有AIGC檢測工具主要依賴統計特征提取和模式識別等算法,通過捕捉被檢測文本中的各類敏感性特征進行AIGC檢測,這一機制難以逃脫最簡單的對抗性攻擊。利用對抗性寫作策略與技術[策略包括同義詞/近義詞替換、句式重組、語氣/語法改寫等;技術包括訓練對抗樣本(PGD攻擊)、添加無關噪聲等],能夠在概率上產生低重合度的檢測結果。換言之,即使學生學業論文的文本為AIGC生成,若使用了對抗性寫作策略,其結果也同樣能通過AIGC抄襲檢測,而這樣的AIGC檢測將毫無意義。當前,對抗性攻擊不僅有語義方面的寫作策略攻擊,還存在技術層面的對抗性攻擊,主要有白盒攻擊、黑盒攻擊等方式,攻擊手段則包括對抗樣本生成、自動化惡意攻擊等技術手段⑥,這些方式與手段都能對AIGC檢測模型產生干擾,降低AIGC檢測的準確性。
因此,在對AIGC檢測引發的誤判問題歸因時,評價者應靜心深思:考慮到對抗性攻擊與AIGC技術如影隨形,若把AIGC誤判原因歸咎于技術本身,這一問題是無法得到解決的。從技術的發展史來看,技術進步通常伴隨積極、進步的一面,同時也夾雜消極、負面的一面。正如馬克思(Marx, K.)和恩格斯(Engels, F.)所言,“科學、技術是推動社會前進的革命力量,同時技術也可能違背人們的意愿成為異己的力量”(馬克思 & 恩格斯, 1962, pp.20-38),關鍵在于變革不合理的社會關系,而非一味地否定技術本身。同樣地,針對AIGC誤判危機根源的探析,也需從當前教育評價范式本身入手,以從根本上厘清誤判危機的根源因素。
(二)當前教育評價領域的范式桎梏
1. 倫理弱化:過度重視評價而輕慢倫理道德
現階段,在基于AIGC的教育評價中看似合理、正確的邏輯,卻內隱諸多倫理侵害,這些侵害隱藏于評價活動的各個環節,本質上是由當前對教育評價所涉及的倫理認識過于弱化所致。例如AIGC雖然大規模應用于學習活動,但針對學習者學習成果是否為AIGC生成的防弊檢測,則屬于對師生信任倫理的侵害,本質上是對學習者人格與信任的“有罪推論”,不利于美好道德素養的培養。而如前所述,AIGC評價實施過程中對結果公正的侵害、對評價過程中教師評價主體地位和學生發展主體地位的剝奪,正是輕慢評價倫理的具體表現。因此,在智能技術沖擊下暴露出來的評價倫理弱化問題,實際上是一種系統性、根源性的對人性倫理價值的迷失,有必要在范式重構中先開展倫理審查,再開展教育評價活動。
2. 認知固化:過度依賴技術應用而非技術賦能
工具理性和技術理性的過度膨脹,以及教育評價目標的異化導致了當前教育評價過度依賴技術手段的亂象,其中對人工智能的技術崇拜是過度迷信AIGC的重要原因。一方面,作為事實原因,人類自身能力水平確實無法對數量龐大或內涵深刻的學術成果做出準確、快速、客觀、全面、正確的評價;另一方面,基于智能技術的評價在評價效率、評價維度、評價方法上相較于人類評價均有不錯的優勢,數據驅動、跨學科評價等方式更是提高了技術評價的說服力,因此造成了基于智能技術的評價優于人類評價這一技術崇拜論認識。同時,過度依賴技術手段還與人類認知惰性和技術發展特征等因素有一定的關系。依賴技術手段應以智能技術在文本分析中的準確無誤為前提,但當前誤判危機表明,技術的發展顯然不盡如人意。過度依賴技術手段“防弊”的“心魔”已致使部分評價主體對基本、客觀事實的漠視。由于過程階段的取證困難,學生撰寫的論文只要沒有通過AIGC檢測就被認定為抄襲、學術不端,AIGC引發的新現象——學術污名化由此開端。除學生群體外,AIGC檢測還引發了學術期刊機構對此的混亂態度,如有雜志社申明可以使用AIGC,但必須標注哪些內容是AIGC生成的;有雜志社要求不得直接使用AIGC生成的文、圖、表等;更有雜志社采取“一刀切”的方式,禁止使用AIGC生成的內容。這些使用規定反映了學術期刊機構對AIGC使用的混亂態度,也進一步反映了AIGC對教育評價的影響。
3. 方法僵化:過度依賴量化評價方式而非綜合評價
教育評價按功能、范圍、主體、內容、方法等可以分為形成性評價、定性評價、主體性評價等多種評價形式。不管評價形式、內容甚至方法是如何變化的,教育評價的終極目標卻始終沒變,即以人的發展為核心開展評價(董奇 & 趙德成, 2003)。但基于AIGC的評價卻異化了這一核心目標。工具理性追求的效率至上與泰勒主義追求的標準化、量化以及數字泰勒主義追求的數據化不謀而合,致使評價淪為可量化的數字游戲,把復雜學術成果中蘊含的經驗、技術、方式方法量化為可檢測的指標;依靠閾值高低的數字統計特征,把語言完整性、邏輯連貫性等人類高質量寫作特征誤判為AIGC生成,把合格標準建立在語義文本的重合度檢驗之上,導致了技術理性、數據概率決定質量與價值的評價弊端。過度依賴量化評價本質上是一種默許或夸大可測量性的謬誤,把學生發展過程中復雜的心理與認知過程(如學生創新能力、認知與意識提升、論文的質量與意義等)簡化為可測量的數字指標,忽視了質性評價的決定性意義。而反觀教育評價實踐,量化評價從來不是決定個體質性結果的唯一或決定性條件。
4. 目標異化:過度追求確定性的靜態評價結果而非生成性發展
教育評價過度追求確定性評價結果的導向,是人類認知閉環、評價邏輯、結果崇拜以及過程性評價實施困難共同導致的評價異化行為。凡評價必須有(看到)結果,間接催生及誤導出量化評價、結果性評價與量化數據表征的合理性、重要性。對評價必須看到結果的理解,必須打破評價結果數字化表征、量化表征、靜態結果表征的認知。因為對于個體的自我發展,其創造力、批判性思維和問題解決能力等認知與思維特質,學習動機和自我效能感等情感特質,責任心、誠信意識和公平意識等道德特質,以及文化意識和領導力等社會文化特質等眾多決定個體內部發展的質性特質無法進行量化,強行對其進行量化,一方面否定了過程性評價的動態變化及質性評價不可替代的作用,另一方面會導致唯結果的評價范式產生以偏概全的評價結果,產生數據(理論)上合理但現實不合理的評價謬誤。如對學生道德素質強行開展量化評價,答題分數高就認為其擁有良好道德水平,反之則為道德低,這樣的評價結果是荒謬的。從國家層面來看,《深化新時代教育評價改革總體方案》中提出當前評價中唯分數、唯升學、唯文憑、唯論文、唯帽子、唯名校、唯學歷等問題,實質上是對教育評價過度追求確定性評價結果的批判。分數高、文憑高、學歷高、帽子大本身代表了確定性的評價結果,“五唯”頑瘴痼疾也因過度追求確定性結果、忽視過程性評價而產生。因此,突破人類認知邏輯閉環,打破量化結果導向的評價思維,把過程發展和結果求索進行有效整合,轉變對過度追求確定性結果的評價的執著,形成教育評價從對確定性結果的追求轉為對不確定性發展過程的關注。
5. 范式鈍化:評價范式不能緊跟智能時代的教育發展
傳統教育評價存在偏重于追求結果、目標導向等問題與不足,在智能時代又引發了教師邊緣化、技術依賴、目標異化、隱私倫理等問題。從AIGC論文檢測引發的教育評價危機來看,智能時代傳統教育評價范式無法適應智能技術發展引發的新態勢。智能技術發展催生了教育評價主體、對象、過程、標準的多元變化,誘發了教育評價方式方法的多元化,而利用傳統教育評價范式衡量智能技術應用環境下的成果,勢必產生不合理、不科學的評價結果。比如:在評價主體方面,傳統單一評價主體(教師)無法對智能時代跨學科或人機協同成果做出精準評價,單一的技術評價工具又會導致對評價權威性的質疑;在評價方式層面,傳統評價追求標準化、脫離真實情境、忽視過程性,導致了評價結果的以偏概全;在評價結果的應用層面,傳統評價結果的應用偏向于選拔、分級、排名,忽視了評價促進人的全面發展的作用,進一步加劇了唯分數、唯升學、唯文憑、唯論文、唯帽子、唯名校、唯學歷的導向。因此,在智能時代,重構教育評價的范式與框架,推進教育評價理念與范式的轉型,既是時代所需,也是教育評價發展的必然趨勢。
三、
智能時代AIGC教育評價范式重構的基礎
AIGC的誤判危機揭示了一個深層矛盾:盡管智能技術在某些方面以絕對優勢超越人類自身能力,但仍無法解決倫理侵害、過程異化等難題。這些問題的破解有賴于現行評價范式的根本性重構,其中,哲學基礎、科學基礎、技術基礎和政策基礎構成支撐范式重構的核心基礎(如圖1所示)。
![]()
圖1 智能時代教育評價范式重構的理論基礎
(一)哲學基礎:確定AIGC教育評價中人與技術、技術與價值、人與價值之間的關系
哲學基礎(包含主體哲學、技術哲學和倫理學)為基于AIGC的教育評價范式重構提供了最基礎、最根本的規范保障。主體哲學確立了AIGC教育評價中以人為核心的關系基礎,即學習者(人)為主體者,并強調教育的主體性(王策三, 1994)。主體哲學解決了人機協同中主體性爭議的根本問題,規范了AIGC作為“非人行動者”在評價過程中協作者的角色。技術哲學平衡了工具理性和價值理性的關系,認為工具理性與價值理性必須實現和諧統一(張宏, 2016)。從技術哲學的視角來看,當前AIGC導致的評價過程異化,實質是工具理性吞噬價值理性所產生的現代性問題(王錕, 2005)。倫理學進一步捍衛人在評價中的價值,捍衛價值形成或實現過程中人的公平正義(如程序正義、責任倫理等)。主體哲學、技術哲學和倫理學分別解決了AIGC教育評價中“人與技術”“技術與價值”和“人與價值”在哲學層面的問題。
(二)科學基礎:為范式重構提供科學依據和指導
科學基礎(包含教與學的理論、評價理論和社會發展理論)為范式重構提供最為直接的理論與實踐指導。教與學的理論、評價理論和社會發展理論正在引發評價者對評價活動認知的重塑、主體的轉變、評價目標的訂正以及評價價值的理性回歸。建構主義學習理論、多元智能理論和人本主義學習理論有效地把教育評價引入了“聚焦于人、過程、發展”的評價范式。數十年的評價理論發展,把從目標導向的評價推進到“聚焦于過程發展、主體建構”的評價階段。在智能時代,教育評價受外部社會需求和內部范式重構的雙重影響,正在把評價推進到符合社會需求、實現教育功能需要的階段。
(三)技術基礎:為范式重構提供實踐路徑與方法
智能技術的發展為基于AIGC的教育評價提供了從理論可行到實踐可行的技術支撐。數據采集、融合、分析、應用構成了技術賦能的教育評價基本面。數據處理技術、學習分析技術、人工智能技術等的進步,促使動態化、過程性、發展性、個性化、人機協同的評價從理論層的邏輯論證轉向技術支持,并進一步重塑評價主體在評價活動中關于評價形式和方法的創新。
(四)國家政策、制度與法律基礎:為范式重構提供制度與可行性保障
教育和人工智能領域相關的國家政策、制度與法律,為AIGC應用于教育評價提供了基礎保障、方向指引和風險管控基礎。區別于技術層所提供的科學上的可實現性(行不行的問題),政策、制度和法律主要規范了AIGC應用于教育評價“能不能的問題”,其最終目的是充分利用AIGC的生成式功用,最大限度地規避風險,構建一個更加科學、公正、高效、以人為本的智能化教育評價范式。
四、
六維協同:智能時代AIGC教育評價范式重構的藍圖
在對智能時代基于AIGC的教育評價范式進行重構時,必須厘清“能不能評(政策—倫理先行)、評什么(認知重塑)、誰來評(主體協同)、如何評(方法創新)、評價標準是什么(目標訂正)、評價意義是什么(價值回歸)”的問題,如圖2所示,唯有遵從倫理、轉變認知、確定主體、創新方法、修正目標、引領價值,方能使智能時代的教育評價真正回歸到以人為核心的評價中來。
![]()
圖2 智能時代的教育評價范式重構
(一)倫理先行:從習非成是的“倫理侵害”到以人為本的“倫理遵從”
從“人—技術—價值”的三維透視來看,智能技術應用于教育評價,主要涉及技術對于學生數據隱私、算法公平和程序正義的侵犯,技術對于教師(或管理者)主體性的剝奪和權威性的侵害,教師(或管理者)對于學生的倫理侵害,以及技術對于師生帶來的價值異化等問題。因此,推動智能技術在教育中的應用,有必要考慮倫理原則問題(Emmanuel et al., 2025)。就評價本身而言,在開展基于智能技術的教育評價時,倫理合規或倫理先行成為智能時代開展技術賦能評價的首要要求。教育領域要把當前看上去理所當然、邏輯合理的倫理侵害認知轉向教育行業領域倫理先行的整體認知。由此,關于學生的學術污名化和有罪推論將不復存在,從而真正拓展德育和美育的實際育人效果。
(二)認知重塑:從技術應用到技術賦能的認知轉變
對人工智能技術的直接使用和利用人工智能技術使學習者有能力實現目標有著本質區別,但遺憾的是,教育領域多數有關技術應用的成果,都聚焦于使用人工智能技術和算法直接實現某些結果而非技術賦能。從“技術應用—結果實現”到“技術賦能—個體能力生成—結果實現”正是本研究追求的認知上的轉變。早期技術未必能賦能個體有能力去完成某項任務,但隨著技術的發展,智能技術有能力實現為個體賦能,如在大數據等技術背景下過去許多難以量化的信息都可轉化為數據進行存儲和處理(張燕南 & 趙中建, 2013),使原來無法開展或開展效果欠佳的過程性評價和形成性評價有了更優的評價作用(Wiley et al., 2017)。生成式人工智能技術和大模型為技術賦能學習者發展帶來了無限的空間,智能技術的應用也應從文字重合度概率計算和結果評判的淺顯計算轉向對學習者思維、意識、認知、創新能力的賦能。
(三)主體協同:從師/機單向主導到平等交互和人機協同的轉變
AIGC賦能教育評價主體由“權威主導”到“多元協同”、評價內容由“單一知識”到“綜合素養”、評價方式由“結果總結”到“過程伴隨”(李毅 等, 2024)。評價主體協同的基本要求是從單向、權威的主導到平等、交互的人機協同的轉變。常規教育評價中內隱兩種單向、權威主導的教育評價傾向。一種是教師主導(顧明遠, 1991),這類評價中教師成為評價主體與權威,但這類評價存在偏重結果、統一標準、主觀性、個體化差異被忽視以及評價效率低等問題;另一種則是技術主導的評價(張志華 等, 2022),這類評價雖解決了效率問題,但在評價中內隱算法偏見、數據隱私、過度量化、忽視情感、倫理缺失、技術效能不齊等問題,例如AIGC的誤判就屬于算法偏見和技術效能不齊帶來的風險。因此,無論教師主導還是技術主導的評價,單一主體主導的教育評價均存在顧此失彼的現象,無法解決復雜情境下綜合系統的教育評價問題,構建人機協同的評價主體成為解決單向主導問題的有利方法。一方面,人機協同能有效遏制教師獨裁或工具理性獨裁的蔓延,避免教師主觀評價和技術機械評價的錯誤,以去中心化和去結果導向形成客觀、民主、質性的評價結果;另一方面,人機協同評價破除了教師固化思維與技術工具化傾向的局限,讓評價真正從為評價而評價走向為了學習者發展而評價。就評價主體的變化而言,人機協同評價無疑成為解決單向、權威主導的評價問題的一劑良藥。
(四)方法創新:從靜態、單一、量化評價方法到動態、多元、混合評價方法的轉變
在基于技術的評價當中,高校教學質量評價模式不合理、方法不合理、指標不健全是評價失真的主要原因之一(劉勇, 2016)。因此,除了評價邏輯和理念的轉變以外,在評價活動具體實施當中,還應在評價方法上有所創新和轉變,即從靜態的結果評價(期末考試)轉向動態的過程考察(累積的課堂評價),從單一評價(成績)走向多元評價(德智體美勞),從量化的數據表征(分數)走向量化和質性混合的教育評價(學習者畫像)。這是因為,一方面,現階段的智能技術發展確實能為教育評價從靜態到過程、從單一到多元、從量化到混合評價提供相應的技術支持,如人工智能技術實時記錄與動態追蹤學習者學習行為,實現從靜態結果到動態數據畫像,利用多模態分析技術(對學習者認知知識、協作能力、情感計算等方面的分析)打破單一維度(成績高低)的評價,利用大數據刻畫學習者畫像,基于學習分析數據形成量化與質性相結合的評價結果;另一方面,實施客觀、全面、立體的教育評價既是破“五唯”之必需,也是經濟社會發展對人才評價模式改革的客觀要求。過程性評價、多元評價、混合評價等客觀、立體的評價方法更能在真正意義上充分滿足教育評價促進人的發展的根本目的。
(五)目標訂正:從“防弊管控”的管理思維到“發展賦能”的育人思維的重塑
AIGC技術應用于教育評價的認知重構,首先要實現評價理念的轉變。這一轉變要求評價主體正確、全面地認識AIGC的功能與作用,把使用AIGC的原因從“防弊管控”的簡單結果鑒定邏輯轉向對AIGC“發展賦能”的認識,從“是否抄襲”的二元孤立評價邏輯轉向如何利用好AIGC的獨特功能以促進學習者更好發展。這一邏輯轉向的重點在于,評價者要充分認識到AIGC的特殊作用,把基于AIGC的教育評價重點放在如何有效利用AIGC評價學生內在的核心素養上(如創造力思維、批判性思維、道德情感、協作能力等),利用AIGC技術優勢評價個體不可直接測量的目標維度,而非困頓于利用概率閾值評判文字重合度的數字計算之中。因此,基于AIGC教育評價的邏輯重構,既要有AIGC技術賦能的發展思想,使技術能有效支撐教育評價活動的開展,又要深刻認識到教育評價的教育性和發展性作用,用評價促進教育發展。唯有深刻認識到教育評價自身的功用與技術賦能的作用,基于技術的評價才不至于囿于“是否抄襲”的二元對立的簡單邏輯層面。
(六)價值回歸:從“篩選排名”的功利導向到“全人發展”的教育本質的回歸
教育評價是一種價值判斷的活動(陳玉琨 & 李如海, 2000),內隱著關于價值認識的哲學思考。從杜威“教育即生長”(劉黎明, 2013)的角度來看,教育評價的“價值”是指促進人的發展。然而,現實中教育評價往往淪為“篩選、排名、選拔”的工具,從表面看這是教育評價行為的異化,其背后則暗含對教育評價價值判斷的異化。受個體認知、經濟發展、社會文化等因素影響,教育評價的功利導向一度掩蓋了“人的發展”的教育本質,造成了對“五唯”目標的趨之若鶩。價值重構要求解決“為了什么”(For What)而開展評價的問題。從人才核心競爭力以及建設教育強國、實現中國式現代化的長遠戰略來看,今天的教育評價應主動開展價值重構,由升學、選拔等“五唯”回歸以“人的發展”為核心的教育本質。教育評價的價值重構是教育評價范式重構中最為艱難的階段,不僅考驗評價主體對價值轉向的認識,更考驗被評價對象在外部壓力下的價值主張選擇,就此而言,教育評價的價值轉向還有很長的路要走。
五、
結語
從綜合教育強國建設的要求、智能技術發展的特點和教育評價改革的行動要求來看,智能時代的教育評價確需重構與轉型。這一重構與轉型要求新的教育評價范式能夠支撐和滿足國家戰略和經濟社會發展對人才培養的要求,能夠對教育自身的改革發展起到促進作用。面對破“五唯”的國家戰略,教育評價范式的重構能有效促進整體評價取向的轉變。當然,由于個體認知、技術發展、經濟社會發展等因素的影響,盡管AIGC賦能教育評價從結果性評價走向形成性評價和增值性評價,但“唯分數、唯結果”的評價現狀仍將持續存在,這是由我國人口、社會文化和教育資源等國情決定的,其延續性源于技術變革與社會制度和文化認知之間的差異,包括制度慣性、路徑依賴和文化影響等各個層面。AIGC作為一種人工智能技術,為教育評價范式改革提供了有效的技術優勢,但其功效還遠不足以撼動教育的系統性改革,進一步來說,教育評價中根本問題的解決,從來不是由技術等外部力量決定的,而是需要從教育發展的自身邏輯上著手。
注釋:
① “馬拉火車”指晚清李鴻章主持修建了鐵路,慈禧命人用馬拉火車前行的荒誕鬧劇,在此指智能時代仍采用原來不適宜的手段開展教育評價。
② 對抗性寫作策略指利用模型的概率計算漏洞,利用同義詞/近義詞替換、句式重組、語氣/語法改寫等策略降低重合度。
③ 偽陽性(FP)和偽陰性(FN)是機器學習領域的概念。FP指AIGC把實際為負類樣本(即人類撰寫)錯誤預測為正類樣本;FN指AIGC把實際為正類樣本(即機器生成)錯誤預測為負類樣本。
④ 困惑度(Perplexity)和突發性(Burstiness)是衡量大模型生成能力的指標,由一系列復雜算法計算而來。低困惑度代表模型生成能力強,容易理解。低突發性指大模型在特定時間段內出現異常高的頻率,越低代表模型越穩定,越是低困惑度、低突發性,預示模型越智能。
⑤ 這一結果由很多算法實現。典型的AIGC檢測算法,如利用PPL(困惑度算法),通過計算文本的困惑度來評估其與訓練數據的匹配程度,從而判斷其是否為AI生成;Shingle算法將文本分割成多個N-gram(連續的字或詞序列),然后比較兩個文本的Shingle集合的交集和并集來計算相似度;Jaccard相似度根據兩個文本中共同存在的詞語來計算相似度;N-gram模型將文本分為一系列連續的N個字(或詞)的組合,通過統計這些組合的出現頻率來計算文本的相似度。AIGC抄襲檢測算法很多,但總體可認為是模型對比與概率閾值的測算。
⑥ 白盒攻擊通常指通過計算梯度生成對抗樣本(如PGD攻擊)開展攻擊。黑盒攻擊通常指對原模型未知,但利用遷移攻擊原理在替代模型上生成對抗樣本后跨模型攻擊。對抗樣本生成指利用梯度上升(如FGSM、PGD)在輸入空間中搜索最小擾動,使模型誤判。自動化惡意攻擊指利用AIGC生成批量對抗性文本/代碼,實施攻擊。
參考文獻
陳玉琨, & 李如海. (2000). 我國教育評價發展的世紀回顧與未來展望. 華東師范大學學報(教育科學版)(1), 1-12.
董奇, & 趙德成. (2003). 發展性教育評價的理論與實踐. 中國教育學刊(8), 22-25, 49.
顧明遠. (1991). 再論教師的主導作用和學生的主體作用的辯證關系. 華東師范大學學報(教育科學版)(2), 69-73.
何潔. (2025-5-15). 論文AIGC檢測引熱議. 南京日報(A07).
李艷, 許潔, 賈程媛, & 翟雪松. (2024). 大學生生成式人工智能應用現狀與思考——基于浙江大學的調查. 開放教育研究(1), 89-98.
李毅, 鄭鵬宇, & 張婷. (2024). ChatGPT賦能教育評價變革的現實前提、作用機理及實踐路徑. 現代遠距離教育(3), 9-17.
劉黎明. (2013). “本能”與“生長”:杜威的自然教育思想. 中國人民大學教育學刊(2), 108-128.
劉艷紅. (2023). 生成式人工智能的三大安全風險及法律規制——以ChatGPT為例. 東方法學(4), 29-43.
劉勇. (2016). 試論我國高校教師教學評價體系重構. 黑龍江高教研究(1), 59-61.
劉友華. (2019). 算法偏見及其規制路徑研究. 法學雜志(6), 55-66.
劉志軍, & 徐彬. (2019). 教育評價:應然性與實然性的博弈及超越. 教育研究(5), 10-17.
馬克思, & 恩格斯. (1962). 馬克思恩格斯全集(第十二卷)(中共中央馬克思恩格斯列寧斯大林著作編譯局譯). 人民出版社.
馬克斯?韋伯. (1997). 經濟與社會(上卷)(林榮遠 譯). 商務印書館.
任奎, Zheng, T. H., 秦湛, & Liu, X. (2020). 深度學習中的對抗性攻擊和防御. Engineering, 6(3), 307-339.
石中英. (2020). 回歸教育本體——當前我國教育評價體系改革芻議. 教育研究(9), 4-15.
孫美娟. (2025-6-10). 《滕王閣序》AI率接近100%?AI檢測爭議背后的理論困局. 中國社會科學報(A01).
檀慧玲, & 孫一帆. (2025). 重構教育評價新生態:工具理性與價值理性的匡正與調和. 中國考試(4), 1-10.
王策三. (1994). 教育主體哲學芻議. 北京師范大學學報(社會科學版)(4), 80-87.
王錕. (2005). 工具理性和價值理性——理解韋伯的社會學思想. 甘肅社會科學(1), 120-122.
新華社. (2020-10-13). 中共中央 國務院印發《深化新時代教育評價改革總體方案》. 中華人民共和國教育部網站. http://www.moe.gov.cn/jyb_xxgk/moe_1777/moe_1778/202010/t20201013_494381.html
楊宗凱, 王俊, 吳砥, & 陳旭. (2023). ChatGPT/生成式人工智能對教育的影響探析及應對策略. 華東師范大學學報(教育科學版)(7), 26-35.
張宏. (2016). 工具理性與價值理性的整合——教育技術發展的現實思考. 教育研究(11), 28-32, 53.
張燕南, & 趙中建. (2013). 大數據時代思維方式對教育的啟示. 教育發展研究(21), 1-5.
張志華, 王麗, & 季凱. (2022). 大數據賦能新時代教育評價轉型:技術邏輯、現實困境與實現路徑. 電化教育研究(5), 33-39.
鄭泳智, 朱定局, 吳惠粦, & 彭小榮. (2022). 知識圖譜問答領域綜述. 計算機系統應用(4), 1-13.
朱永新, & 楊帆. (2023). ChatGPT/生成式人工智能與教育創新:機遇、挑戰以及未來. 華東師范大學學報(教育科學版)(7), 1-14.
Cotton, D. R. E., Cotton, P. A., & Shipway, J. R. (2024). Chatting and cheating: Ensuring academic integrity in the era of ChatGPT. Innovations in Education and Teaching International, 61(2), 228-239.
Emmanuel, R. G., Cao, X. X., Jin, J. L., & Fang, L. F. (2025). Moving to post-compliance ethics applied to AI systems. China Standardization(5), 28.
Friedman, B., & Nissenbaum, H. (1996). Bias in computer systems. ACM Transactions on Information Systems, 14(3), 330-347.
Hong, S. (2025, June 24). My paper was probably reviewed by AI-and that’s a serious problem. Times Higher Education Website. https://www.timeshighereducation.com/opinion/my-paper-was-probably-reviewed-ai-and-thats-serious-problem
Paulussen, S., & Ugille, P. (2008). User generated content in the newsroom: Professional and organisational constraints on participatory journalism. Westminster Papers in Communication and Culture, 5(2), 24-41.
Quinn, S., & Quinn-Allan, D. (2006). User-generated content and the changing news cycle. Australian Journalism Review, 28(1), 57-70.
Vickery, G., & Wunsch-Vincent, S. (2007). Participative web and user-created content: Web 2.0, wikis and social networking. OECD.
Wiley, J., Hastings, P., Blaum, D., Jaeger, A. J., Hughes, S., Wallace, P., Griffin, T. D., & Britt, M. A. (2017). Different approaches to assessing the quality of explanations following a multiple-document inquiry activity in science. International Journal of Artificial Intelligence in Education, 27(4), 758-790.
The Educational Assessment Paradox in the Intelligent Era: AIGC Application Pitfalls and Assessment Paradigm Reconstruction
Li Xiaotao
Abstract:In response to the assessment paradox emerging at the “objective-process-outcome” levels triggered by the application of AIGC in education, this study analyzes the root causes from both the intelligent technology and educational assessment perspectives. It identifies core issues such as ethical weakening, cognitive rigidity, goal alienation, methodological inflexibility, and paradigm stagnation in educational assessment under the impact of AIGC. Grounded in the dual logical perspectives of the philosophy of technology and educational assessment, the study examines the philosophical, scientific, technological, policy, and legal foundations supporting its paradigm reconstruction. Furthermore, it proposes a framework for reconstructing the assessment paradigm centered on “ethical prioritization, cognitive reshaping, stakeholder collaboration, methodological innovation, objective recalibration, and value realignment.” This study aims to provide theoretical support for the optimal application of AIGC in educational assessment and the transformation of assessment paradigms in the intelligent era.
Keywords:intelligent era; educational assessment; AIGC; assessment paradox; paradigm reconstruction
作者簡介
李小濤,衢州學院教師教育學院講師(衢州 324000)。
責任編輯:劉莉
期刊簡介
《中國遠程教育》創刊于1981年,是教育部主管、國家開放大學主辦的綜合性教育理論學術期刊,名列中文社會科學引文索引(CSSCI) 來源期刊、全國中文核心期刊、中國人文社會科學期刊AMI綜合評價(A刊) 核心期刊、中國科學評價研究中心(RCCSE) 權威期刊、中國期刊方陣雙效期刊、人大復印報刊資料轉載率最高期刊,面向國內外公開發行。
本刊關注重大教育理論與政策,推動科技賦能教育,反映國際學術前沿,聚焦本土教育改革,注重學術研究規范,提倡教育原創研究。
地址
北京市海淀區西四環中路45號
郵編
電話
010-68182514
電郵
zzs@ouchn.edu.cn
網址
cjde.ouchn.edu.cn
![]()
本文來源|中國遠程教育微刊
聲明:轉載此文是出于傳遞更多信息之目的。若有來源標注錯誤或侵犯了您的合法權益,請作者持權屬證明與我們聯系,我們將及時更正、刪除,謝謝。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.