【作者】李春暉(天津大學法學院副教授,法學博士)
【來源】北大法寶法學期刊庫《華東政法大學學報》2025年第4期(文末附本期期刊目錄)。因篇幅較長,已略去原文注釋。
內(nèi)容提要:關于使用數(shù)據(jù)訓練人工智能(AI)是否侵犯著作權問題,存在否定著作權法可適用性的“釜底抽薪”進路和承認可能侵犯著作權但主張以合理使用為代表的權利限制的“先進后出”進路。前者有利于新技術、新業(yè)態(tài)發(fā)展。復制權系訓練用數(shù)據(jù)著作權保護問題的核心。就AI訓練本身而言:(1)其技術本質決定了訓練過程不是對作品的復制;(2)AI的倫理地位決定了其學習過程類似自然人,因而不可能是復制;(3)學習過程中的臨時復制不在復制權范圍內(nèi)則基本無疑義。就作為AI訓練前導的訓練數(shù)據(jù)準備中的復制而言,一方面,其不具有傳播目的和效果,不應被解釋為著作權法上的復制;另一方面,其實質仍為臨時復制。訓練數(shù)據(jù)復制權問題也是整個知識產(chǎn)權法中實施、使用鏈條各環(huán)節(jié)獨立權能化的表現(xiàn)之一。后者在歷史上具有合理性,但隨著科技與市場環(huán)境的變化,弊端愈來愈明顯,知識產(chǎn)權法邏輯應考慮回歸民法規(guī)則和民事侵權理論?;谝陨侠碛桑鳈喾ú粦m用于AI訓練對數(shù)據(jù)的使用,后者應否規(guī)制、如何規(guī)制,應重新進行利益衡量和價值取舍。這可在著作權法框架下進行,亦可在數(shù)據(jù)立法框架下解決。
關鍵詞:人工智能訓練;數(shù)據(jù);著作權;復制權;數(shù)據(jù)權益
目次 一、復制權是人工智能訓練用數(shù)據(jù)著作權問題的核心 二、人工智能訓練之技術、倫理本質與復制 三、訓練數(shù)據(jù)準備中的復制 四、更寬廣的視野:知識產(chǎn)權權能碎片化之合理性審視 五、結論與展望:置之死地而后生
巴黎人工智能行動峰會上,美國拒絕在聯(lián)合聲明上簽字,稱歐盟對人工智能(AI)的監(jiān)管過于嚴格。話音甫落,湯森路透案的法官就給美國政府上了一課,認為被告Ross Intelligence之行為不符合合理使用標準。所幸,該案不涉及生成式AI,但后者也感受到了寒意。與此同時,杭州互聯(lián)網(wǎng)法院的奧特曼“第二案”也判決平臺侵權,二審維持原判。相似的是,其涉及的是調(diào)用第三方模型的服務平臺和用戶投喂的定向訓練,不涉及生成式AI開發(fā)者本身的訓練。這兩案讓國內(nèi)外業(yè)者無不膽戰(zhàn)心驚,尤其是湯森路透案,提示我們有關訓練數(shù)據(jù)著作權問題的爭論遠未塵埃落定。
與AI有關的著作權問題有訓練和應用兩個階段,本文聚焦于前者,但現(xiàn)有論述在某些側面也會將其與應用階段相聯(lián)系,如湯森路透案,本文亦做相應評述。在訓練用數(shù)據(jù)侵權風險方面,當前立法及學術研究似以一面倒的思路占優(yōu):在權利基礎問題上有意無意采用“利益延伸論”,將著作權保護無條件適用于AI訓練用數(shù)據(jù),在此基礎上尋求包括合理使用和法定許可在內(nèi)的權利限制,以寬容對待AI技術發(fā)展(而湯森路透案甚至否定了合理使用)。這可稱為“先進后出”路徑。如歐盟《人工智能法》(Artificial Intelligence Act)序言第105段規(guī)定,使用文本和數(shù)據(jù)挖掘(TDM)技術檢索、分析訓練數(shù)據(jù)時,應獲得權利人授權,除非適用相關版權例外和限制條款。亦有少數(shù)學者釜底抽薪,從根本上質疑著作權法的可適用性,但未成氣候。立法上完全未有此路徑的支持者。
本文擬強化“釜底抽薪”進路的論述,以平衡視聽。筆者首先說明采用這一進路對AI技術發(fā)展的意義,然后闡明AI訓練用作品著作權“保護”最可行的權能基礎是復制權,并總結有關訓練用作品復制權的現(xiàn)有論述及存在的問題。隨后,筆者從三個方面否定作品復制權對AI訓練的可適用性:一是關于訓練過程本身,從技術和倫理兩個角度質疑AI訓練過程涉及對訓練數(shù)據(jù)的復制;二是關于訓練數(shù)據(jù)準備,對于不可避免的數(shù)據(jù)“物理”復制,本文的研究從復制權的解釋,以及訓練數(shù)據(jù)預處理的“臨時復制”定性入手;三是將復制權問題放在更寬廣的知識產(chǎn)權和民法視野下,討論知識產(chǎn)權實施/使用鏈條中各環(huán)節(jié)獨立權能化的合理性與不合理性。最終得出結論:AI訓練用數(shù)據(jù)在著作權保護之外,若要加以規(guī)制,須重新進行利益衡量和價值取舍。
二
復制權是人工智能訓練用數(shù)據(jù)著作權問題的核心
(一)“釜底抽薪”抑或“先進后出”?
1.人工智能訓練用數(shù)據(jù)著作權問題研究的不同進路
AI訓練用數(shù)據(jù)著作權問題的“釜底抽薪”進路主張將AI訓練對數(shù)據(jù)的使用界定為“非作品使用行為”,從根本上否定著作權法對訓練用數(shù)據(jù)的可適用性?!跋冗M后出”進路則承認著作權法的可適用性,但主張以合理使用、法定許可等制度對著作權加以限制,或建立避風港制度、綜合治理機制等,以適應AI發(fā)展的需求。
合理使用說認為,為促進智能產(chǎn)業(yè)發(fā)展,應視TDM為合理使用。為此,學者提出了各種重塑合理使用制度的方案,包括引入美國轉換性使用、非表達性使用、非展示性使用(non-display use)、技術性合理使用、機器閱讀(與人類閱讀相對)等理論,或將合理使用判定由單項行為考察轉為整體結果考察,或建議增加合理使用的一般規(guī)則。實定法方面,日本著作權法規(guī)定了不以享受思想、情感為目的的例外,并列舉了基于大規(guī)模作品或數(shù)據(jù)的數(shù)據(jù)分析,以及不涉及人類感知的作品表達的計算機處理。2019年《歐盟數(shù)字單一市場版權指令》則增設了TDM合理使用。美國圖書館版權聯(lián)盟《著作權與AI基本原則》認為使用作品創(chuàng)建數(shù)據(jù)訓練集合、訓練大模型構成合理使用。英國版權法第29A條規(guī)定了文本和數(shù)據(jù)分析目的的復制的例外,但限于非商業(yè)性研究。司法實踐方面,在一些案件中,我國法院逐漸引入了美國四要素法、轉換性使用理論等。雖然在很多情形下出于限制既有合理使用條款的目的,但也有判決認為合理使用不限于《著作權法》列舉的具體例外。
法定許可說認為,機器學習對作品的使用具有一定正當性,但在為技術發(fā)展提供良好發(fā)展環(huán)境的同時,應兼顧權利保護,故將機器學習納入法定許可范疇是更優(yōu)選項。作為權利限制的一種,法定許可將其視為對合理使用的折中,二者呈互補和過渡的關系。也有學者認為法定許可不可行,原因如集體管理組織運行成本高、確定及定期調(diào)整法定許可費很復雜、可能過度剝奪對投資開發(fā)生成式AI的激勵等。
也有親著作權人的觀點認為,不僅應將著作權法適用于AI訓練用數(shù)據(jù),而且不應將其納入合理使用范疇。這一派觀點“只進不出”,顯然不利于AI產(chǎn)業(yè)發(fā)展。對此類觀點,需在本文結論的基礎之上,進一步基于利益衡量和價值取舍來確定究竟是否在新設權利的基礎上提供保護,本文暫且不論。而且,與本文主張的“釜底抽薪”進路相比,其與“先進后出”進路實為一類。
2.“釜底抽薪”進路的研究意義
本文基于支持AI訓練自由無償使用數(shù)據(jù)的立場,證明AI訓練對作品的使用不在其著作權范圍內(nèi),尤其不在復制權范圍內(nèi)。因此,合理使用問題并非關鍵:反對AI訓練對素材自由無償?shù)氖褂?,反對者需首先證明引入新的知識產(chǎn)權權能的正當性,而不是假定訓練素材上存在理所當然的權利而由支持者證明不構成侵權或合理使用的正當性。
質疑者可能認為,有關合理使用(及任何權利限制)的論證與著作權法不適用于訓練用數(shù)據(jù)的論證,在很大程度上可相互支持,因此“釜底抽薪”抑或“先進后出”并無實質區(qū)別。但筆者并不同意。
第一,二者有本質的不同:前者涉及權利正當性和范圍,涉及“利益延伸原則”與“利益適度原則”的選擇;后者涉及對既有權利的限制,要權衡“剝奪已有正當性的權利”的正當性。
第二,從根本上否認權利基礎,與證明合理使用相比,主客易位,證明責任、證明難度,以及對AI產(chǎn)業(yè)的意義殊有不同,前者更有利于AI產(chǎn)業(yè)發(fā)展。2023年公布施行的《生成式人工智能服務管理暫行辦法》簡單地強調(diào)“尊重知識產(chǎn)權”(第4條)、“使用具有合法來源的數(shù)據(jù)和基礎模型”和“涉及知識產(chǎn)權的,不得侵害他人依法享有的知識產(chǎn)權”(第7條),雖有解釋空間,但在“利益延伸原則”慣性思維下,易認定一切數(shù)據(jù)皆自然而然地在法律保護之下,從而對AI產(chǎn)業(yè)高懸達摩克利斯之劍。合理使用、法定許可等權利限制制度不足以緩解其威懾,且有待AI產(chǎn)業(yè)一方推動論證其合理性。反之,則需由著作權人或數(shù)據(jù)“所有”者一方從頭論證新設權之合理性,AI產(chǎn)業(yè)可有很大的緩沖空間。
第三,合理使用路徑遠未形成共識。有人認為,生成式AI采用的深度學習技術賦予大模型泛化與記憶能力,難以適用機器學習時代的TDM合理使用例外。另有學者認為,使用音樂作品訓練AI無助于著作權制度促進獨創(chuàng)性表達的目標,不能將其納入合理使用范疇。美國學者休斯(Justin Hughes)則認為模型訓練中的使用是一種準表達性使用,仍構成侵權。最近的噩耗是前述湯森路透案,可稱其為美國首起重大AI版權案。被告Ross Intelligence在構建法律研究搜索引擎時,將Westlaw的注釋和批注轉化為數(shù)值數(shù)據(jù),分析法律詞匯之間的關系,以此作為其AI訓練的數(shù)據(jù)源。法官認為,Ross Intelligence通過復制Westlaw的內(nèi)容,意圖開發(fā)出與Westlaw相競爭的市場替代品,不符合合理使用的標準,且Ross Intelligence的使用直接影響了Westlaw的市場價值,構成侵權。
第四,合理使用仍是有限的,且存在種種限制,不若“釜底抽薪”能徹底解決問題。如歐盟的TDM合理使用,主體限于科學研究目的的研究機構和文化遺產(chǎn)機構,對一般主體的TDM合理使用則有嚴格限制,且有便捷的“選擇退出”機制。
(二)復制權是訓練用數(shù)據(jù)著作權保護最可行的權能基礎
著作權一般包括精神權利(發(fā)表權、署名權、修改權、保護作品完整權)、復制權、傳播權(發(fā)行權、出租權、展覽權、表演權、放映權、廣播權、信息網(wǎng)絡傳播權等)和演繹權(攝制權、改編權、翻譯權、匯編權等)。無論是針對作品的技術措施,還是2025年《反不正當競爭法》剛剛予以規(guī)定的對數(shù)據(jù)的技術管理措施,其本質非著作權或數(shù)據(jù)權益,本文暫且不論。
AI訓練不可能侵犯傳播權。因為AI的訓練結果是產(chǎn)生AI模型,而不是傳播原作品。即使AI應用階段會產(chǎn)生(并傳播)“作品”也是新“作品”而不必然傳播原作品;若“生成”并傳播了原作品,是僅研究訓練階段的本文之外的問題,暫且略過。不過,有學者認為,出于驗證挖掘與學習結果、開展關聯(lián)合作研究以及幫助開展非相關研究等目的,訓練數(shù)據(jù)的復制件還可能通過信息網(wǎng)絡向不特定多數(shù)人傳播。但這不是AI訓練本身必然發(fā)生的情形。諸項精神權利的被侵害實際也以傳播為前提,因此有關結論與傳播權類似。
因此,AI訓練的著作權問題主要涉及在準備訓練數(shù)據(jù)時不可避免的物理復制,或至少在讀取訓練數(shù)據(jù)的過程中有臨時復制行為。激進的觀點甚至將機器學習過程本身,也就是對數(shù)據(jù)的分析、挖掘、學習,也納入復制范疇。
有觀點認為,對訓練數(shù)據(jù)的各種預處理還可能涉及演繹權中的翻譯權、改編權、匯編權等。首先,訓練數(shù)據(jù)的預處理可能需要轉換訓練用作品的自然語言或將其轉化為機器語言。但有人認為前者才是真正的翻譯,向機器語言的轉換不是真正的翻譯,而只是向機器傳遞相同的內(nèi)容,因此仍屬復制。我國2020年《著作權法》新增的數(shù)字化復制方式,實際上也是或類似于向機器語言的轉化。其次,對訓練素材的改寫、結構化、標注、解釋,可視為改編;對大量作品的分類、整理、匯總等,則構成匯編。不過,有人認為這些操作雖形似翻譯、改編、匯編,但并非著作權法意義上面向讀者的演繹,而是為了機器學習,本質上仍是復制的一種,或以復制為前提。因此,本文仍將其視為廣義復制。
因此,在著作權的精神權利、復制權、演繹權、傳播權四大權利中,AI訓練對數(shù)據(jù)的使用,核心是復制權,形似演繹權的,其本質也仍是復制。本文以下兩個部分將分別針對AI訓練本身,以及訓練用數(shù)據(jù)的準備這兩個階段予以討論。
當然,著作權法還規(guī)定了“應當由著作權人享有的其他權利”,因此將“用于AI訓練”或TDM作為著作權一項新權能的道路是暢通的。不過,如果無法從既有權能之內(nèi)找到依據(jù),而要重新求助于新權能,這仍然屬于“釜底抽薪”進路,而非“先進后出”進路。而且,在原有權能之外引入新權能,同樣要進行利益衡量,證明新權能的正當性。
(三)有關訓練用作品復制權的現(xiàn)有論述及其問題
1.現(xiàn)有論述的分歧焦點
如前所述,很多研究將著作權法適用于AI訓練用數(shù)據(jù)作為理所當然的前提,直接討論合理使用問題;即使討論著作權法的適用,也限于明確可能的權能即復制權。采用“釜底抽薪”進路徹底否定著作權法之適用的不多,與之相對,明確論證AI訓練侵犯作品復制權(而非僅僅從諸權能中選擇復制權)的反方也不多。雙方論述的焦點包括以下問題。
(1)對于新的作品使用方式及可能產(chǎn)生的利益,是采用利益延伸原則還是利益適度原則。
按利益延伸原則,著作權人的利益大體應隨新的作品使用方式的延伸而延伸。利益適度原則的含義則是著作權法需在激勵創(chuàng)作和信息傳播、利用之間取得平衡。換言之,前者是一種自然權利論原則,后者則是一種功利主義原則。前者以作者為中心,在嚴格保護知識產(chǎn)權的背景下容易凸顯其方向的正確性而得到無條件贊成;后者則要進行利益衡量和價值取舍,但易為利益團體所左右。
“釜底抽薪”進路反對利益延伸原則,認為具備法律效果的作品利用方式需由法律明確規(guī)定,否則第三人無法知曉哪些作品利用行為非法。若著作權人能夠禁止立法中并未明示的行為,公眾行動自由和獲取信息的自由將受到難以預測的打擊。但“先進后出”進路認為,利益適度原則通過為著作權建構正當性基礎,以論證為了讓計算機程序提取作品中的非表達元素而進行的復制行為不構成侵權,不僅違背產(chǎn)權保護基本邏輯,還會破壞復制概念在技術上的一致性,得不償失。
(2)非作品性使用究竟是何含義,尤其是在AI訓練/應用的哪一環(huán)節(jié)來判斷此問題。
“釜底抽薪”進路認為,AI訓練對作為數(shù)據(jù)的作品的復制和使用屬于非作品性使用,不是著作權法意義上的復制和使用,不受著作權法規(guī)制,更談不上合理使用。這一概念在不同學者的表達中略有區(qū)別,但通常認為作品性使用意味著作者與社會公眾交流觀點、思想、情感,意味著讀者對作品的欣賞。有學者甚至建議《著作權法》明確規(guī)定復制權只控制出于欣賞作品的目的而進行的復制行為。
“先進后出”進路在論證合理使用時也使用這一概念,但對其是局限于訓練階段,還是延及應用階段,學者觀點存在不同。在具體表現(xiàn)上,把非作品性使用解讀為不涉及作品獨創(chuàng)性表達和表達公眾化傳播的使用,易衍生出嚴格來看并不合形式邏輯,但仍很有影響的反面解讀:若涉及作品獨創(chuàng)性表達和表達公眾化傳播,則屬于作品性使用。進一步地,有學者從人工智能生成內(nèi)容(AIGC)的表達性特征反推認為AI訓練階段也涉及表達性使用,或從AI應用輸出內(nèi)容的相似性反推認為訓練階段復制、使用作品的行為構成侵權。如“技術性合理使用”“非表達性使用”“表達型”“非表達型機器學習”等概念,都把AI應用階段輸出內(nèi)容考慮在內(nèi),或把是否輸出內(nèi)容及輸出何種類型的內(nèi)容考慮在內(nèi)。這種一體考慮的思維方式,有的是無意為之,有的則是有意強調(diào)。后者如涂藤博士提出,應揚棄非表達性使用理論,重構機器學習的著作權侵權判定標準,以公眾接觸原作品表達的高度蓋然性取代“實施復制即侵權”的形式主義理念。這對應于《紐約時報》案中原告的邏輯:原告對ChatGPT-4進行輸出測試發(fā)現(xiàn)其能在特定提示下幾近逐字輸出《紐約時報》的文章,基于此認為訓練階段的復制、使用侵權。在Authors Guild v.OpenAI案中,原告認為OpenAI利用原告作品訓練模型,旨在輸出模仿、總結、解釋作者作品的衍生作品,對作者有替代作用。更有甚者,有原告基于AI輸出的侵權結果,要求從訓練數(shù)據(jù)庫中刪除有關侵權素材。在湯森路透案中,盡管法官指出該案并不涉及生成式AI,但該案的邏輯對生成式AI案件仍有影響:訓練后的AI用途影響了訓練前復制的合法性,并且與原告競爭的概念也可用于普通作者身上,如Guild案。
這些論述和實踐從訓練階段跨越到應用階段,結合輸出內(nèi)容的特征來完成訓練階段的法律定性,其中,根本問題在于對非作品性使用的判斷應在哪一環(huán)節(jié)完成。一種選擇是,經(jīng)過預處理的訓練數(shù)據(jù)投喂給模型進行訓練之后即可棄,其用途就是訓練AI模型,因此非作品性使用的判斷時點就在此時。而另一選擇是在AI應用階段進行判斷,這就違背了單獨考察訓練階段對數(shù)據(jù)的使用的初始設定,消解了非作品性使用的概念。換言之,這一觀點將問題簡化為:AI是生成式(表達型)的還是非生成式(非表達型)的,這正是湯森路透案法官提及該案不涉生成式AI時可能隱含的用意。
2.現(xiàn)有研究的缺陷
除以上分歧中需強化或澄清論述之處以外,現(xiàn)有研究總的來說還存在以下缺陷,這些缺陷也是上述分歧產(chǎn)生的原因。
(1)缺乏對AI訓練過程的深入技術理解。這導致理解非作品性使用等概念時存在是否及如何考慮AI應用階段輸出內(nèi)容的偏差,進而導致無法完全獨立地考慮訓練階段使用作品的定性,而不得不將其與應用階段的定性綁定。事實上,從技術角度看,AI訓練對數(shù)據(jù)的使用均屬于非表達性使用。應用階段是否輸出及輸出什么內(nèi)容取決于使用者。對此,技術上均已認識到模型的基本算法具有通用性,訓練后的模型幾乎可用于任何用途。AI模型后期應用的目的確實會反饋至訓練階段的某些設置,但不會實質性影響技術架構。
(2)與對技術缺乏理解相關,現(xiàn)有研究很少深入考慮AI訓練階段復制行為之特征及其與著作權法上“復制”的聯(lián)系與區(qū)別,導致對AI訓練是否涉及訓練用數(shù)據(jù)/作品之復制過程產(chǎn)生理解偏差。同時,盡管有的國家和條約將臨時復制涵蓋在復制中,但很多國家,(包括我國、英國)認為復制權不覆蓋臨時復制。研究者未充分認識到AI訓練過程涉及的所有復制包括訓練數(shù)據(jù)準備過程中的復制皆為臨時復制,將臨時復制僅限于狹義訓練時從讀取到分析訓練這一過程?!跋冗M后出”論者則往往回避臨時復制問題,只說復制,或只說籠統(tǒng)的“使用”。
(3)缺乏知識產(chǎn)權、民法的整體視野。當囿于版權一角,甚至囿于復制權一角時,難免視野有限。有學者論及應回歸民事訴訟證明標準,是難得的亮點。
(4)在利益延伸原則籠罩下,混淆了競爭法和著作權法、數(shù)據(jù)權益與著作權。仍以湯森路透案為例,與其說是版權作品的復制問題,不如說是數(shù)據(jù)庫復制的反不正當競爭問題,其本質是Ross公司利用Westlaw對法律的注釋和批注(側重的是其實質內(nèi)容而非表達形式),開發(fā)與Westlaw相競爭的市場替代品。在此過程中,AI不過是Ross公司整體競爭行為的工具。
二
人工智能訓練之技術、倫理本質與復制
(一)人工智能訓練之技術原理與復制
1.人工智能訓練之技術原理
AI技術的核心是模型。模型的根本含義是指從數(shù)據(jù)輸入到數(shù)據(jù)輸出的模式。既然是模式,則從輸入到輸出的過程本質上缺乏創(chuàng)造性,因為這一過程是根據(jù)既定的技術方式自然而然得到最后的結果。生成式AI生成內(nèi)容之所以似有一定創(chuàng)造性,是因為其模型足夠復雜,有上億的參數(shù)(GPT-3的參數(shù)量為1750億),再加上AI應用使用了計算機(注意非模型本身)對海量素材進行檢索和存儲,從而在某些側面看起來不可預測,似乎超越了具體自然人的認知。
AI模型的基本原理脫胎于早期的圖像(含文字)、語音等的模式識別技術。其測量各種圖像/語音的各種直接特征參數(shù)并/或基于此構建間接特征參數(shù),在訓練階段將這些特征參數(shù)與圖像/語音的預先標記的識別結果對應起來;在識別階段,對待識別的圖像/語音獲取同樣的特征參數(shù),與訓練階段的特征參數(shù)相比較,能夠與之匹配的訓練階段特征參數(shù)對應的預先標記即為識別結果。在實際操作中,各種參數(shù)與標記之間的對應不是絕對精確和單一的,而是概率值。多個參數(shù)特征共同決定各種可能標記的最終概率,一般將概率最高者作為最終識別結果。在早期,各種模式識別技術及其改進的重要工作是發(fā)現(xiàn)各種直接參數(shù)或構建各種間接參數(shù),這需要研究人員不斷嘗試,甚至碰運氣。
神經(jīng)網(wǎng)絡技術的革命性變化和突破,是從早期的發(fā)現(xiàn)和構建特征參數(shù)的手工、“小農(nóng)經(jīng)濟”方式,轉變?yōu)榇笠?guī)模計算分析對象(如圖像或音頻等)的全方位的、廣泛聯(lián)系的參數(shù)。其基本原理是在一定程度上模擬生物神經(jīng)網(wǎng)絡,由互聯(lián)的人工神經(jīng)元構成。一個神經(jīng)元的多個輸入經(jīng)傳遞函數(shù)而產(chǎn)生多個輸出(即多個分類結果),輸出的數(shù)值通常由特定函數(shù)轉化為分類的概率分布。由于一個神經(jīng)元受多個輸入影響,每一個輸入必然有其自身的權重,訓練過程就是通過大量數(shù)據(jù)不斷調(diào)整這些權重的過程。在AI模型中,可有多層神經(jīng)網(wǎng)絡(輸入層、一個或多個隱藏層,以及輸出層),上一層神經(jīng)元的輸出作為下一層神經(jīng)元的輸入。每個輸入?yún)?shù)不同程度地影響下一層參數(shù),如此交織,直到得到最后一層輸出參數(shù)的概率結果。一個參數(shù)稱為一個維度。
以上簡介是決策式AI(如識別、判斷等)的角度。生成式AI根據(jù)輸入得到似乎有創(chuàng)造性的輸出,似與決策式AI不同,但底層原理是一致的。在訓練階段,生成式AI實際上是要尋找一種普遍聯(lián)系(數(shù)學上體現(xiàn)為聯(lián)合概率分布)。例如,對文本生成,訓練過程就是要找出一個既定文本(可能是一個字、一個詞、一個句子,或更長的輸入)與其他字、詞等的概率聯(lián)系。在生成階段,模型基于已有輸入判斷下一個字詞最大概率是什么,然后再下一個字詞,以此類推,完成創(chuàng)作。訓練階段的樣本集越大,則所尋找的普遍聯(lián)系越全面和精確,在生成階段就能生成更完美的文本。
從圖像處理領域的卷積神經(jīng)網(wǎng)絡和自然語言處理領域的遞歸神經(jīng)網(wǎng)絡,到作為BERT和ChatGPT基礎的Transformer,神經(jīng)網(wǎng)絡技術基本架構并未出現(xiàn)根本性變化。
由于AI模型有賴于訓練數(shù)據(jù),可稱之為“數(shù)據(jù)驅動”。當然,實際的AI應用不全是數(shù)據(jù)驅動的模型,還可能包含基于邏輯規(guī)則,如數(shù)學運算規(guī)則的邏輯驅動。邏輯驅動的基礎之一是“知識圖譜”。
這樣,對AI的訓練,就是獲得各輸入以及各層神經(jīng)元的各輸出向下一層神經(jīng)元傳遞的權重,以及傳遞函數(shù)中的“偏置”參數(shù)的過程。任何訓練素材對AI模型的貢獻僅限于此。從模型訓練和構建來說,AI模型沒有直接復制數(shù)據(jù)的任何部分,而是對數(shù)據(jù)做出統(tǒng)計學上的特征表達,最終的輸出是對訓練數(shù)據(jù)的近似統(tǒng)計。由于技術上完全沒有復制的動作,侵犯著作權法上的復制權自然也就無從說起。這就好比飲食上并不存在吃魚眼“補”眼睛的效果。相反,一切食物都會被消化為基本的營養(yǎng)成分,包括蛋白質、糖類等,而且這些營養(yǎng)成分中的大分子在被胃腸壁吸收之前已經(jīng)被消化分解為更為基本的小分子,包括氨基酸、葡萄糖等。
2.對人工智能與復制有關的兩個誤解
在理解了上述技術本質后,即可對現(xiàn)有研究中與AI應用有關的誤解做如下澄清:
一是AI應用輸出內(nèi)容的實質性相似不意味著訓練階段存在直接復制。繼續(xù)以消化食物作類比,如果一個人因為吃了牛肉而增加了體重,而人的肌肉與牛的肌肉在肌肉的意義上高度近似,這并不意味著人直接把牛肉復制到自己身上,而是完全按照自己的DNA組裝了新的肌肉組織,其與人在食用階段到底吃了牛肉還是魚肉并無關系。一些學者執(zhí)著于“若AI最終輸出的內(nèi)容與原作品不構成實質性相似,也缺乏輸出實質性相似內(nèi)容的可能性,則前期的機器學習屬于‘無人能享受作品的獨創(chuàng)性表達’的情形,不構成著作權法意義上的復制”。言下之意,只要有輸出相似內(nèi)容的可能性,即表明存在著作權法意義上的復制。這是對AI原理的誤解。生成式AI具體生成何種內(nèi)容,以及是否采納之并投入傳播,是由使用者而非訓練者決定的。針對微軟公司開發(fā)的“下一個倫勃朗”AI產(chǎn)品創(chuàng)作模仿倫勃朗的獨創(chuàng)性的繪畫,有學者認為,其顯然使用了倫勃朗作品的表達性特征,不然,其如何“理解”倫勃朗作品風格,又如何創(chuàng)作出與倫勃朗作品風格類似的作品?這一論斷之想當然,正是不了解AI技術本質的結果。所謂風格,同樣是各種表達要素的特定相互關系,而不是直接拷貝特定表達。這種小樣本的學習所產(chǎn)生的風格,與大樣本的學習沒有任何不同,區(qū)別就是其局限于特定樣本,其輸出自然就與這個小樣本集的特征(風格)類似。至于在沒有直接拷貝的情況下是否保護“風格”,這是“思想與表達”二分法語境下的另一問題。
二是AI輸出為何種類型,或者說是決策式AI還是生成式AI,并不從根本上影響AI模型的性質和其訓練的技術本質。不存在決策式AI絕不表達性復制作品,而生成式AI就進行了作品的表達性復制這樣的結論。相反,兩種AI的訓練方式是類似的,雖不排除不同用途的模型在一些特點上會有區(qū)別或微調(diào)。例如,作為ChatGPT之基礎的Transformer就具有跨領域的通用性。當用于不同領域不同用途時,除模型結構微調(diào)外,更重要的調(diào)整是模型前端的預處理和模型后端的應用程序編制。因此,某些研究基于模型的最終用途來對訓練階段的復制是否屬于著作權法意義上的復制得出不同結論,是沒有根據(jù)的(如湯森路透案)。仍用食物的消化類比,人與牛的消化系統(tǒng)有區(qū)別但沒有本質區(qū)別,牛吃了食物只能耕地(非表達性),而人吃了食物卻有可能創(chuàng)造出這個食物的繪畫作品(表達性),但這并不意味著人對食物進行了表達性吸收。
(二)人工智能學習的本質及其倫理地位之影響
1.人工智能學習與人的學習之相似性
人類不斷以工具的特定功能來代替或輔助人的特定工作。以畜力代替人力,以消耗能源的動力裝置來放大或代替畜力和人力,以科學規(guī)律支撐的機器來代替手工藝,等等。這些代替都是對人之體力的代替。直至計算機被制造出來,出現(xiàn)替代人的智力的趨勢,如復雜的數(shù)學計算、文字的輸入和印刷、試驗的模擬等。但傳統(tǒng)計算機所代替的,主要是人類“用腦進行的體力勞動”,即僅僅是腦力的重復性工作——計算機只是按照人類設定好的程式工作,但大大提高了效率。
AI本質仍是計算機程序,但志在真正替代人的智力,即不滿足于替代“用腦進行的體力勞動”,而要替代真正的腦力勞動。但AI若要像人一樣進行創(chuàng)造活動(至少看起來像),其必須掌握創(chuàng)造的素材和規(guī)則,不可能無中生有,因此其必須學習。因為人所做的一切都脫離不開人的認知,人類自身若要進行創(chuàng)造活動也必須基于學習的積累。
那么就AI訓練過程對訓練素材的使用方式和性質而言,同樣可以與自然人的學習過程類比,因為AI模擬的就是人自身。那么,機器學習是否構成對訓練素材的復制,就類似自然人的學習過程是否構成對學習材料的復制。注意,這里考察的是人的學習、創(chuàng)造的內(nèi)在過程,并不涉及著作權法合理使用制度中為學習的目的、發(fā)生于身體外部的使用包括復制行為。
人學習的本質是認知結構的組織和重新組織,學習過程就是認知過程,也就是人腦通過感覺、知覺、記憶、思維、想象等形式反映客觀對象的性質及對象間關系的過程。其中,感覺和知覺是外界信息輸入人腦的過程,相當于信息系統(tǒng)輸入設備的輸入。記憶則是從認知對象(學習材料)到人腦的復制和儲存,以備后續(xù)提取和使用,是人進一步認知(思維、想象)的基礎。這一過程相當于AI為機器學習的目的而將訓練數(shù)據(jù)存儲在可用位置。若人類創(chuàng)作者按照其記憶“復制”或以各種方式“洗稿”其記憶的作品,則從輸出結果來看構成侵權,但沒有人認為人的記憶本身即構成侵權。相對于人類最終的創(chuàng)作來說,記憶本身只是此前的準備和中間過程。
思維是揭示事物本質特征及規(guī)律的理性認識過程,或可稱之為狹義的學習,相當于AI的挖掘過程。狹義學習包括聯(lián)結性學習和運算性學習兩類。前者是“將同時出現(xiàn)在工作記憶中的若干激活點聯(lián)結起來而獲得經(jīng)驗的學習”。如通過對所記憶的各種素材的“體會”(實際上是有意識和無意識的分析和關聯(lián)過程),習得對世界的各種認知,如對各種社會、科學、創(chuàng)作規(guī)律的認知。這對應AI的學習/訓練本身,雖然AI的學習/訓練所習得的目前只是各種“記憶素材”之間的概率聯(lián)系。后者是“在頭腦中經(jīng)過復雜的認知操作而獲得經(jīng)驗的學習”。這一過程需基于特定的運算方式或機制,如各種概念、定義、公理、定理、定律,對特定問題的已有論述或已有解決方案等。這大體對應于提供給AI應用的邏輯規(guī)則或知識庫。目前此類邏輯規(guī)則或知識庫由人類直接提供給AI應用,AI模型并不需要對此進行學習,因為其數(shù)據(jù)驅動和概率統(tǒng)計的本質決定了目前其自行學習所獲得的規(guī)則仍是不穩(wěn)定的。
想象過程是建立各種記憶素材之間的廣泛聯(lián)系和重新組合記憶素材的過程。想象結果形諸于外,則是創(chuàng)造。想象和創(chuàng)造的基礎是“思維”所認知的規(guī)律或規(guī)則和“記憶”所積累的素材。與之類似,AI應用的輸出是基于學習/訓練階段所獲得的體現(xiàn)為“模型”的所有維度的權重和概率分布,以及AI應用的數(shù)據(jù)庫和知識圖譜。至于創(chuàng)造結果在何種情況下具有獨創(chuàng)性/創(chuàng)造性,或構成侵權,已超出本文僅討論訓練階段的設定。
由此來看,人的學習和創(chuàng)造過程其實也主要是數(shù)據(jù)驅動——從記憶的各種素材中習得經(jīng)驗和規(guī)律(但也有邏輯驅動,即對各種已知規(guī)則的直接應用)。AI訓練或學習的過程與人類學習過程是完全對應的,若將AI學習過程被視為復制,則人的學習過程同樣是復制,這無疑是荒謬的?!癆I教父”辛頓(Geoffrey Hinton)教授指出,大模型習得的特征(feature),以及特征間的交互作用,就是理解。這也是人類學習的基本方式,無疑不受著作權法干預,因此機器進行類似的學習就要被著作權法干預沒有充分的理由。至于記憶過程,AI應用(而不是模型本身)可能在模型之外具有相應的數(shù)據(jù)庫,但其實也可在創(chuàng)作時臨時在網(wǎng)絡上檢索、提取,就類似人類現(xiàn)今的創(chuàng)作亦可臨時從網(wǎng)絡搜索其不完全記得住的素材或學習新的素材。人類記憶、背誦等技能的重要性,一方面在于人類的思維(學習、理解)過程要以之為基礎,且是一個持續(xù)的過程(而不像AI訓練在很大程度上是在人類的安排下在短期內(nèi)“一下子”完成的);另一方面在于過去的人類缺乏先進的存儲和網(wǎng)絡設備,必須依靠“肉身”來記憶。但是,AI訓練前的數(shù)據(jù)準備和自然人在學習過程中的記憶,均系對學習素材的中間復制。
由此可見,AI的學習(包括為學習做準備的數(shù)據(jù)復制)過程與自然人學習、認知過程基本一致。如果這些行為對人來說是一個自然的、理所當然的過程,完全沒有人考慮其是否構成“復制”從而侵權,那么對于AI應有完全一致的結論——末端的內(nèi)容創(chuàng)作和傳播才有可能侵權——而且不會追溯到學習之時,只是把學習時的“接觸”作為判定侵權成立的構成要件之一。
2.人工智能之倫理地位及其“權利”
但是,上一小節(jié)的結論如果轉化為“權利”語言——“自然人有學習的權利,因而AI也有學習的權利”,就面臨顯而易見的主體資格問題:公認AI尚不能在任何意義上成為可與人比擬的主體。一方面,AI尚不具備任何主體意識,不可能成為倫理主體;另一方面,AI并無自然人的意思表示機制和自身財產(chǎn)的支撐,賦予其技術人格不完全具備條件。倫理人格與技術人格之區(qū)分尚無明確定義,但在民法體系中可通過如下區(qū)別予以界分:一是兩者所依賴的人格原型不同;二是兩者在立法上被抽象的性質和結果不同;三是兩者的價值基礎不同。其中,第一方面是最根本的,“倫理性人格針對的人格原型是具有生物性、倫理性和社會性的自然人,并調(diào)整基于上述特征而形成的親屬關系和人格權關系?!倍夹g人格“針對的對象原型則是圍繞特定財產(chǎn)形成的社會組織、財團甚至單一的獨立財產(chǎn),并在此上形成了抽象的符號化人格,從而完全脫離了人的生物性形象,進入了徹底非個人化的領域”。
不過,關于倫理主體尚存在另一種可能性。試想民法上未出生的胎兒(《民法典》第16條)甚至胚胎、受精卵的權利,實際上是一種倫理權利,但胎兒甚至受精卵尚非具有主體意識的真正自然人主體。AI與之類比,若其目標就是不斷逼近人的特征,其可否享受到類似胎兒在其正式“出生”之前的包括學習權利在內(nèi)的倫理權利?這種倫理主體地位可從兩方面來理解。
(1)人類創(chuàng)造AI,目的是令AI具有似人的能力,因此必須提供讓其具備如此能力的環(huán)境。一般而言,只要是能夠獲取的信息,人類就能自由學習,因此AI要擁有與人類等同的成長環(huán)境,就也應擁有自由學習的權利。對于自然人獲取信息和學習都受到限制的場合(無論是私法上的限制如技術措施,還是公法上的限制如價值觀的對齊),AI的控制者自然會受到類似限制,無須在本文語境下討論。
(2)AI可視為人類智力的延伸,是人腦的輔助工具。在此意義上,AI與自然人構成“人機聯(lián)合體”,AI可視為自然人人格的延伸或自然人人格的一部分,就好比假牙、義肢已成為身體的一部分而受身體權的保護。自然人擁有自由學習的權利,則作為其一部分的AI同樣能自由學習,或就是人自身在學習。因此,在決定是否允許機器閱讀、學習作品時(不只是在合理使用的意義上,而是在完全不受著作權法限制的意義上),需認識到其本質是保護人類的學習能力,這并不因人類學習變?yōu)槿祟惤柚鷻C器學習而改變。
因此,對AI訓練數(shù)據(jù)主張權利,本質在于阻止AI或聯(lián)合了AI的人自身學習自然人(權利人)所掌握的知識。與其說這是一種權利主張,不如說是一種害怕AI(或掌握AI者)超越自己的“嫉妒”。這正是當前一些原告發(fā)起訴訟的動因。Guild案原告明確提及了模仿對作者的替代作用;在《紐約時報》案中,原告認為ChatGPT模仿輸入的作品,輸出替代《紐約時報》作品的作品,“偷走”用戶。然而,人類歷史上,技術進步導致人類勞動機會變遷的情況并不鮮見。歷史已證明:歷史并未因勞動機會被替代者的反對而停頓,也不應停頓。新技術在消滅勞動機會的同時也在創(chuàng)造勞動機會。此時,國家和社會確實要采取治理措施以消弭此類勞動機會變遷而產(chǎn)生的問題,但不是讓不同利益群體通過私法上的主張進行權益對決。
因此,AI的學習“權利”就是簡單的選擇題:我們是否需要AI的發(fā)展?更具體地說,人類社會是否希望AI向類人方向發(fā)展,最終擁有類人之倫理人格地位,或至少如上述(2)一樣的情形,有效地成為自然人的一部分?對此,腦機接口的迅猛發(fā)展已經(jīng)提供了廣闊的前景。若答案是肯定的,則不應以任何理由阻礙AI的訓練和學習。既不能把任何機器學習過程本身作為著作權法的權能覆蓋范圍,也不能令學習前的任何臨時復制(對應于人腦學習時的記憶過程)或過程性復制成為阻礙。
因此,湯森路透案的實質不在于被告的競爭性目的,而在于該案中AI的倫理地位:若機器只是單一任務超人工具,則不是真正以“類人”為目標。該案中,所謂AI并不從事創(chuàng)造性活動,而只是目標相對單一的決策性活動。在此意義上,筆者結論與湯森路透案結果一致,而與學者有關表達性使用的既有論述不同:愈是做表達性使用的AI,愈有自由學習的“權利”,而非愈受到著作權法的規(guī)制。但請注意,這與輸出內(nèi)容是否侵權的問題完全不同。
三
訓練數(shù)據(jù)準備中的復制
(一)視角一:是否有傳播目的和效果
AI訓練包括線下和線上兩種。線下訓練需要預先準備訓練數(shù)據(jù)的拷貝,存儲在大規(guī)模的存儲集群中。線上訓練一般是已經(jīng)上線的模型在使用過程中的在線優(yōu)化。此外,盡管數(shù)據(jù)庫不屬于神經(jīng)網(wǎng)絡模型的一部分,但AI提供服務時,還需要如前所述的知識圖譜和數(shù)據(jù)庫,數(shù)據(jù)庫中的數(shù)據(jù)未必完全是訓練時所用的數(shù)據(jù),但大概率也包括這些數(shù)據(jù)或其一部分。當然,理論上AI服務提供商未必需要數(shù)據(jù)庫,而可直接借助網(wǎng)絡資源。無論如何,至少在準備訓練數(shù)據(jù)集時存在復制行為,實踐中則有專門有償提供AI訓練數(shù)據(jù)集的數(shù)據(jù)提供商。無論是線上訓練還是線下訓練,訓練進行之時,實際上還存在數(shù)據(jù)的臨時讀取和復制,其性質將在下節(jié)詳述。本部分致力于討論如何解釋著作權法中的復制權,無論AI訓練涉及的是永久復制還是臨時復制。
1.著作權法中復制權之傳播含義的凸顯
從著作權法條文之表面文義來看,訓練數(shù)據(jù)預處理中的復制顯然構成著作權法上的復制,有可能侵犯復制權。我國《著作權法》規(guī)定:“復制權,即以印刷、復印、拓印、錄音、錄像、翻錄、翻拍、數(shù)字化等方式將作品制作一份或者多份的權利?!薄妒澜缰R產(chǎn)權組織版權條約》關于第1條第4款的議定聲明明確指出了復制權適用于數(shù)字環(huán)境。歐盟《信息社會版權指令》第2條和《日本著作權法》第2條第1款第15項則存在可解釋為覆蓋數(shù)字形式的復制的“任何方式或形式”“其他方法”等用語。
據(jù)此,司法實踐采“復制即侵權”的立場是自然而然的。在谷歌圖書案中,一審法院認為,即便無后續(xù)使用或傳播行為,單獨的復制行為即應向著作權人征得許可。在Walker v. University Books Inc.案及Sega Enterprises Ltd. v. Accolade案中,法院認為法律對復制權的規(guī)定并不區(qū)分是哪一階段的復制。循“先進后出”進路的學者即基于這一立場。
然而,正如專利權利要求的解釋離不開對比文件或涉嫌侵權產(chǎn)品的對照和提示,法律解釋的某些面向要在面臨前所未見的挑戰(zhàn)之時才會凸顯。復制權從著作權法興起之初的毫無疑問(copyright直譯即為“復制權”),到網(wǎng)絡時代中間復制或臨時復制出現(xiàn)迄今仍存在的爭議和分歧,再到AI時代對機器學習是否涉復制權的分歧,根本原因在于舊時代難以想象的新技術、新業(yè)態(tài)的興起和繁榮,導致復制手段和目的的雙重變遷。
手段上,一方面,從印刷時代到模擬技術時代、數(shù)字技術時代、信息網(wǎng)絡時代和AI時代,復制出現(xiàn)越來越多的形式;另一方面,復制的技術發(fā)展越來越凸顯其傳播權的本質。復制方式越來越多,所體現(xiàn)的是傳播手段越來越多,這既包括復制的變體,如表演、改編、匯編等,又包括新技術手段,如機械表演。最終,在傳播手段終不能被復制概念所覆蓋時,就出現(xiàn)了完全脫離復制概念的傳播權概念,如廣播權和信息網(wǎng)絡傳播權——學術和司法界一度試圖以用戶屏幕上的“臨時復制”來規(guī)制信息網(wǎng)絡傳播行為,或直接以“復制發(fā)行”來吸收信息網(wǎng)絡傳播行為。關于深度鏈接的爭論,服務器標準實際上是固守傳統(tǒng)復制發(fā)行概念的保守觀點,而用戶感知標準等非服務器標準,才真正抓住了著作權面向傳播的本質。
相應地,在目的上,一方面,隨著復制或傳播方式越來越脫離傳統(tǒng)復制行為,越來越凸顯了傳播才是目的,復制只是手段。另一方面,技術效應從來不是單向的,技術發(fā)展和人類社會、經(jīng)濟生活的變遷既能導致越來越多的傳播行為不需要以復制行為或至少傳統(tǒng)的復制行為為前提,也能導致越來越多的行為確實包括物理意義上的復制,卻與傳播無關,而是達到其他目的,AI訓練即為此種情形。而且在AI訓練中,物理復制雖不可逾越(至少有中間/臨時復制),卻非技術關鍵,關鍵是機器深度學習。
因此,基于歷史場景下的目的解釋,傳統(tǒng)著作權法中似無疑義的復制權實非純粹針對復制的權利,而是針對構成傳播之前提的復制的權利。有學者已指出,復制權只是“依附性權利”,單純的作品復制并不侵權,后續(xù)有銷售(發(fā)行)、表演、展示等傳播行為時,才侵犯著作權。即便在Walker v. University Books Inc.案中,法官也強調(diào)了無法排除侵權可能性。在傳播技術手段逐步發(fā)展的歷史背景下,復制權的這一本質含義越發(fā)彰顯。事實上,我國對信息網(wǎng)絡傳播權單獨設權而不是令其從屬于復制發(fā)行,以及在此過程中否定“臨時復制”系“復制”,已充分表明我國主流觀點已不知不覺間否定了任何“物理”復制均屬著作權法意義上的復制,而將重心放在了“傳播”上。
2.訓練數(shù)據(jù)準備并不涉及具有傳播目的或效果的復制
在“復制的目的系傳播”意義上,AI訓練的出現(xiàn)確實令著作權法迎來重大歷史節(jié)點,這體現(xiàn)于以下幾點。
(1)AI訓練對數(shù)據(jù)的核心使用方式是學習/挖掘,而學習/挖掘不是復制,這已在第二部分論證。
(2)AI利用數(shù)據(jù)進行訓練的效果,即使在生成式AI中,也不會直接傳播原作品,而僅僅是發(fā)掘訓練素材各種要素間以數(shù)學特征所表達的聯(lián)系。即使在所謂的定向訓練模型中也是如此。
(3)AI訓練對數(shù)據(jù)的學習/挖掘的目的不是傳播,而是決策和創(chuàng)造,這既不是對訓練用作品的復制,也不是傳播。
簡言之,AI模型完全是“研磨”或“消化”的機器,其一切輸入都會轉化為對模型參數(shù)的貢獻,從而與應用階段的輸出相隔離,不可能構成對訓練數(shù)據(jù)任何部分的直接傳播。因此,AI訓練用數(shù)據(jù)的預處理即使確實包含了物理復制的動作,但由于既無傳播目的也無傳播效果,并不被具有傳播含義的“復制權”所覆蓋。至于輸出內(nèi)容若構成侵權,則是使用者(包括利用AI模型API接口提供服務的AI應用平臺)引導AI創(chuàng)作或選擇AI創(chuàng)作內(nèi)容的責任,而沒有任何理由將責任傳遞到AI模型的開發(fā)和訓練者。有學者認為,AI對數(shù)據(jù)的利用需要拆解、重組作品,可能落入復制權的控制范圍,完全是對AI模型的誤解,有可能將一些AI應用從網(wǎng)絡搜索到或者從既有數(shù)據(jù)庫提取到的數(shù)據(jù)(這些數(shù)據(jù)中的作品如果被侵權,自然適用著作權法,無須特別討論),誤當作AI模型內(nèi)在的數(shù)據(jù)。
這里有必要再提湯森路透案。法官提及該案并不涉及生成式AI,言下之意,若是后者,裁判的邏輯和結論可能有所不同。本文認同這一點,但法官的邏輯其實是反不正當競爭的邏輯(復制大數(shù)據(jù)用于競爭性目的),被告所利用的并非原告作品表達形式的傳播,而是其內(nèi)容的價值。因此,落實到版權法上的復制并不妥當。
在這方面,有學者區(qū)分通用數(shù)據(jù)集和專門數(shù)據(jù)集(特定作者、類型或主題等),后者不僅用于訓練基礎模型,也可用于訓練垂類模型。這些學者認為,此類數(shù)據(jù)集的價值與作品集合的價值產(chǎn)生了重合,因此侵犯著作權人的復制權或匯編權。筆者認為,此類數(shù)據(jù)集在垂類模型上的價值,跟湯森路透案是一致的,要么用反不正當競爭法來規(guī)制而無涉版權問題(非生成式AI),要么從輸出端規(guī)制版權侵權問題(生成式AI),但都沒有必要回到數(shù)據(jù)訓練階段,增加問題的復雜性。
(二)視角二:訓練數(shù)據(jù)準備中的復制本質上系臨時復制
1.訓練數(shù)據(jù)準備中的復制符合臨時復制特征
臨時復制問題在司法實踐中已爭論多年。盡管部分國家,如中國認為著作權之復制權不涵蓋臨時復制,卻也有不少國家作出肯定回答,如美國法院。AI訓練時的純粹讀取過程中產(chǎn)生的在存儲器中的短暫停留,與信息在網(wǎng)絡傳輸過程中的臨時復制性質完全相同,毫無疑問屬于臨時復制,并非著作權法意義上的復制。
然而,一般認為訓練數(shù)據(jù)準備中的復制確定無疑是非臨時復制的復制(“永久復制”),因而受著作權法規(guī)制。但本文認為,其本質仍為中間復制,或臨時復制?,F(xiàn)有研究之所以認為訓練數(shù)據(jù)準備中的復制為永久復制,可能因為“臨時復制”一詞似隱含了轉瞬即逝的含義。如在有關深度鏈接的爭論中,有觀點認為,有關作品要在用戶屏幕上顯示,有關信息必然在用戶終端的內(nèi)存中短暫停留。在一些案件中,法院也強調(diào)“瞬間”“短暫”的臨時復制沒有經(jīng)濟價值。
但若使用另一名詞“中間復制”,可能就少了些轉瞬即逝的意味,而強調(diào)復制的非最終性、非目的性。如2001年《歐洲議會和歐盟理事會關于協(xié)調(diào)信息社會中著作權和相關權若干方面的第2001/29/EC號指令》第5條規(guī)定,臨時復制的特征中與“短暫性”(transient)相并列的另一種情形是“附隨性”(incidental),有三個特征:是一個技術性過程的不可分割的重要部分;唯一的目的是在網(wǎng)絡中傳輸或合法使用作品;不具有獨立的經(jīng)濟意義。其實還有第四個特征,即用后可棄,因為其并非最終目的。AI訓練數(shù)據(jù)準備中的復制符合以下四個特征:
第一,訓練數(shù)據(jù)準備中的復制,是AI訓練這個技術過程中不可分割的部分。
第二,如此準備的訓練數(shù)據(jù),其唯一目的是用于AI訓練,而AI訓練過程本身如前所述并不構成復制,也不為現(xiàn)行著作權法之任何權能所覆蓋。即使受著作權法規(guī)制,按多數(shù)學者的研究也應歸入合理使用。無論如何,訓練數(shù)據(jù)準備的復制服務于AI訓練,其合法性取決于AI訓練本身的合法性。
第三,訓練數(shù)據(jù)的復制不具有獨立的經(jīng)濟意義。這實際上是由前兩點所決定的。AI模型開發(fā)者準備訓練數(shù)據(jù),其唯一的利益在于訓練AI。至于AI開發(fā)者或利用模型API接口的AI服務提供者是否會使用訓練數(shù)據(jù)準備期間復制的數(shù)據(jù),從而構成可能的侵權,這是AI應用端侵權的另一問題,與訓練階段無關。
第四,訓練數(shù)據(jù)是用后可棄的。訓練好的AI模型不需要保留訓練數(shù)據(jù)。至于AI應用平臺可能保留訓練階段的部分素材或另行建立數(shù)據(jù)庫,那是另一回事,與訓練階段無關。
但是,當前訓練數(shù)據(jù)復制后在時間上較為長期,在臨時復制這個概念上多少有一些反直覺,看起來一點兒都不“臨時”。這有兩個原因:一是AI訓練需要大規(guī)模的數(shù)據(jù),即使單個數(shù)據(jù)的抓取、規(guī)范化和挖掘、學習可在很短時間內(nèi)甚至瞬間完成,大規(guī)模數(shù)據(jù)卻無法做到。尤其是,訓練過程要尋找大規(guī)模的數(shù)據(jù)之間的普遍聯(lián)系,訓練過程可能需要反復讀取有關數(shù)據(jù);二是在某些情況下,數(shù)據(jù)還需進行手工或半自動預處理,如格式轉換、標注等,從而必然存在時間較長的數(shù)據(jù)復制狀態(tài)。但這兩點并不能改變訓練數(shù)據(jù)復制的前述四個特征。可以預見,在未來技術和網(wǎng)絡環(huán)境日趨成熟之后,可能不需要預先數(shù)據(jù)準備,AI自始即為在線學習,從而僅存在學習時才發(fā)生的“真正”的臨時復制。
2.數(shù)據(jù)中間商的存在不改變臨時復制性質
數(shù)據(jù)中間商的存在使問題變得復雜化。由于涉及大規(guī)模數(shù)據(jù),AI開發(fā)者不可能從每一個最終來源獲取數(shù)據(jù),大量或多數(shù)數(shù)據(jù)來自已有數(shù)據(jù)集。若AI開發(fā)者的數(shù)據(jù)是從已有數(shù)據(jù)集免費爬取而來的,前節(jié)的解釋和前述四個特征仍然滿足;而若AI開發(fā)者系從第三方購買得到數(shù)據(jù)集,雖然其通過支出對價而獲得了合法性(至少有合理來源),但這一事實至少證明這一復制過程有其獨立的經(jīng)濟意義:第三方可通過有關數(shù)據(jù)營利(進而,有學者對數(shù)據(jù)集創(chuàng)建者對著作權“侵權內(nèi)容”的注意義務進行了論述,認為復制構成侵權)。問題在于,這里數(shù)據(jù)的售賣和獨立的經(jīng)濟意義是何含義。
按知識產(chǎn)權法一般原理,在知識產(chǎn)權轉移和利用的鏈條上,源頭不合法,則下游一切行為皆不合法。但此結論的前提是中間環(huán)節(jié)和末端環(huán)節(jié)的行為皆在有關權能覆蓋范圍內(nèi)。假如數(shù)據(jù)中間商收集、復制和提供數(shù)據(jù),以及AI開發(fā)者利用數(shù)據(jù)訓練(及不可避免的復制)皆在權能范圍內(nèi),則AI開發(fā)者的行為是否合法,確實取決于數(shù)據(jù)中間商是否合法取得數(shù)據(jù)及其有關權利。然而,若AI開發(fā)者對無論來源于何處的數(shù)據(jù)之復制和使用并不在著作權法之權能覆蓋范圍內(nèi),則無論其來源如何,無論數(shù)據(jù)中間商是否獲得“合法授權”,AI開發(fā)者的行為皆不構成侵權。
因此,對AI開發(fā)者的行為是否構成復制和侵權而言,是否有數(shù)據(jù)中間商的存在并非關鍵。反之,AI開發(fā)者行為是否合法,反而會影響數(shù)據(jù)中間商行為的合法性。若前者合法,后者可視為對AI開發(fā)者的代理行為,因而其取得和提供數(shù)據(jù)的行為也是合法的,其售賣數(shù)據(jù)的合同對價不過是“代工”行為的勞動報酬,而非數(shù)據(jù)的版權許可費用。同時,“獨立的經(jīng)濟意義”未必是指中間復制的過程是否涉及對價,而是指公眾是否能夠接觸、欣賞原作品的表達。從而,在整體的意義上,第三方和AI開發(fā)者為準備訓練數(shù)據(jù)而進行的復制,仍系中間復制、臨時復制。
但若數(shù)據(jù)中間商取得數(shù)據(jù)還有其他目的和用途,問題會進一步復雜化。其他目的和用途可能包括:(1)提供給其他(而不限于當前)AI開發(fā)者使用;(2)提供給其他非AI開發(fā)者使用;(3)用于與數(shù)據(jù)來源者相競爭的用途。按現(xiàn)行《反不正當競爭法》,第(3)種情形已構成不正當競爭。湯森路透案被告雖非數(shù)據(jù)商而是AI開發(fā)者自己,但筆者認為其(在中國法語境下)構成不正當競爭的原理與此類似。第(1)(2)種情形性質相同,數(shù)據(jù)中間商借此營利的話,按照《反不正當競爭法》對經(jīng)營者與競爭關系越來越寬泛的解釋,數(shù)據(jù)中間商仍可能構成不正當競爭。但這是非版權法視角。在版權法的意義上,與前述一對一供應的情形沒有本質區(qū)別,只是供應鏈更精細的分工。
有反對者認為,數(shù)據(jù)挖掘與機器學習通過提取作品電子復制件中的事實、思想、數(shù)據(jù)能夠獲利,具有制作電子復制件的市場需求與支付意愿。這一產(chǎn)業(yè)現(xiàn)實表明,作品電子復制件盡管未被社會公眾欣賞,卻也具有獨立的經(jīng)濟利用價值,創(chuàng)作者、制作者對這些復制件尋求經(jīng)濟回報并非無序擴張利益。這一看法除存在機器學習并不提取事實、思想之類的錯誤外,其實是把臨時復制所依附的最終用途的意義反饋回臨時復制上。這是循環(huán)論證,如此便不存在任何合法的臨時/中間復制了,因為對所有臨時/中間復制都可適用該邏輯。
四
更寬廣的視野:知識產(chǎn)權權能碎片化之合理性審視
(一)知識產(chǎn)權權能設置的歷史合理性
版權法上相對于傳播權獨立存在的復制權并非孤例。如前所述,對復制的規(guī)制,其根本目的是規(guī)制隨之而來的傳播。在商標法、專利法領域存在類似情形。如專利產(chǎn)品制造行為要進一步進展到銷售、使用才會真正產(chǎn)生侵害權利人市場利益的后果,但《專利法》仍規(guī)制對專利產(chǎn)品未經(jīng)許可的制造行為,以及同樣尚未產(chǎn)生實際損害后果的“許諾銷售”行為。在《商標法》中,被規(guī)制的偽造、擅自制造注冊商標標識本身不足以侵害注冊商標專用權人之權益,此類商標標識要經(jīng)過銷售(另一項權能),而后在同一種或者類似商品上使用,并銷售使用了它的相關商品時,才真正侵害注冊商標專用權人之權益。
這種情形源于知識產(chǎn)權及其客體的特點給侵權責任構成要件帶來的不同。在涉及有形客體的絕對權(如物權)侵權中,權利、義務、對它們的侵害和違反、損害后果及因果關系均十分明確。另外,由于權利和義務十分清晰,具有社會典型公開性,過錯的確定也并不難,甚至在某些情形下傾向于推定過錯。但知識產(chǎn)權客體具有非實體性,其權利范圍由法律限定,具體權利實例的范圍則由非實體的文字表達來限定,即保護范圍存在于“第三世界”,本質上是對生產(chǎn)活動的控制。因此,與具有有形客體的絕對權相比有以下不同。
第一,權利基礎具有非直觀性和不確定性,體現(xiàn)為在侵權訴訟中,需先確定權利的有效性及解釋其范圍。對著作權就需要考察作品之獨創(chuàng)性是如何體現(xiàn)的。
第二,權利是否被侵害具有非直觀性和不確定性。其并非如物權那樣,侵權行為直接作用于客體物而易被識別,而要將涉嫌侵權產(chǎn)品與“第三世界”構建的“產(chǎn)品”相比較。知識產(chǎn)權的獨立侵權行為(infringement)概念,正是基于這一意義。
第三,違反義務的行為也就是侵權行為具有更明顯的階段性。在物權中,例如,一個物的損毀,從加害到損害后果發(fā)生可能只要一個動作就能完成。但是,例如對于著作權,在復制作品之外還需要有發(fā)行作品的動作才能讓作品真正被讀者欣賞,其間還可能存在中間商的銷售行為等。
第四,更容易產(chǎn)生侵權行為與損害后果的時空分離,從而令因果關系難以判斷。例如,從作品的發(fā)行,到原被告雙方在市場上的行為,再反饋到雙方的收益或損失。若存在中間商則更為復雜。正因如此,知識產(chǎn)權損害賠償?shù)挠嬎愠龣嗬苏嬲艿降膿p失之外,經(jīng)常以其他的方式,包括侵權嫌疑人獲利、許可費等方式予以代替。
第五,由于以上特點,涉嫌侵權者的過錯亦不容易判斷。相較而言,更容易存在某些行為人無過錯的情況,典型例如合法來源抗辯。
本文所討論的復制權與傳播權問題,正是侵權行為階段性在著作權法上的體現(xiàn)。由于從復制/制造涉嫌侵權產(chǎn)品到產(chǎn)品出現(xiàn)于市場,再到使用者真正獲益或權利人真正受損存在較為漫長的鏈條,知識產(chǎn)權立法就傾向于將這些階段性行為均視為infringement,本質上是民事侵權理論中對侵權危險的提前排除。一般情況下,營利性主體如企業(yè)若制造了專利產(chǎn)品,若偽造、擅自制造了注冊商標標識,即可合理推知其下一步動作就是將專利產(chǎn)品付諸使用或銷售,或將商標標識用于商品上并進行銷售獲利。在這種情況下,沒有必要等待實際侵害結果發(fā)生再來予以司法救濟,否則實為對司法資源的浪費,原被告雙方亦會承受更多損失。專利法中的“許諾銷售”權能,其消除侵權危險的本質尤為明顯。
但知識產(chǎn)權作為私權,不可能完全脫離民法基本原則。盡管階段性的“侵權”行為一般來說至少需要承擔停止侵權的責任(這其實屬于絕對權請求權范疇),但對損害賠償責任而言,毫無疑問仍需證明損害、因果關系和過錯。合法來源抗辯就是雖存在侵權,但行為人對侵權和損害的發(fā)生沒有過錯的情況。一些針對階段性行為(因此權利人尚未受損)仍設置損害賠償責任的情況,接近于以民事賠償形式對侵權人的懲罰,仍服務于及時制止侵權損害危險和威懾未來侵權行為的目的。
(二)實施/使用鏈條各環(huán)節(jié)獨立權能化之現(xiàn)實不合理性
雖有以上合理性,但知識產(chǎn)權實施/使用各環(huán)節(jié)獨立權能化已愈來愈表現(xiàn)出現(xiàn)實的不合理性。對著作權法中復制權之地位的重新評估,可放在這一整體背景下。具體而言,基于以下原因,對于復制權及知識產(chǎn)權法中的其他類似預防性權能,都應適當重新考慮其地位或考慮對其缺陷的緩和措施。
1.利益延伸原則不符合知識產(chǎn)權法定原則并導致利益失衡
利益延伸原則以自然權利論也就是洛克的財產(chǎn)權勞動理論為基礎,在證明知識產(chǎn)權正當性方面?zhèn)涫芮嗖A,但似有過度之嫌。一方面,信息本就是流動的。自古以來,人們就通過信息的流動和對流動的信息的學習來取得個體與集體的進步,以及知識的傳播和傳承,這也是一種自然權利。另一方面,“控制”或“支配”是人與人之間就財產(chǎn)發(fā)生關系時的最自然的手段?!跋日技纯刂剖亲匀粰嗬膩碓?,勞動是權利歸屬的依據(jù)?!贝_然存在自然權利性質的知識產(chǎn)權,但以人的自然力控制(但為法律所承認)為限,比如,有的學者提及的尊重著作權人采取有效接觸控制措施保護作品的行為。除此之外,則是借法律之力予以支配的法定權利,信息客體上可以設置哪些知識產(chǎn)權及權能范圍等,須由法律明文規(guī)定。
若認為凡投入勞動者即有權享有其利益,將知識產(chǎn)權的保護范圍隨利益無限延伸,則會過度控制信息和技術的傳播,無論在國內(nèi)市場上還是國際市場上,都將產(chǎn)生固化“技術階層”的效果。當“利益延伸論”深入骨髓時,一種典型表現(xiàn)是萬事可求《反不正當競爭法》一般條款,令各知識產(chǎn)權專門法立法時對利益的衡量付諸東流。湯森路透案的裁判,名為保護作品復制權,實際上是反不正當競爭的裁判思路(若在中國法語境下)。新技術、新業(yè)態(tài)不斷迸發(fā)的時期,定然也是各種前所未有的利益雨后春筍般興起的時期,既然是新出現(xiàn)的利益,就應當尊重利益產(chǎn)生時的自然狀態(tài),若要額外予以規(guī)制,就應進行謹慎的利益衡量。子彈必須多飛一會兒,才能給新技術、新業(yè)態(tài)留下適當?shù)陌l(fā)展空間,而非把新技術、新業(yè)態(tài)對利益的變動當作天生的敵人予以防微杜漸。
2.實施/使用鏈條各環(huán)節(jié)獨立權能化與民事侵權理論相齟齬
如前所述,當復制等價于傳播,或復制是傳播的必經(jīng)之路而復制亦別無他用之時,復制就意味著傳播和侵權的高度蓋然性,對復制行為的規(guī)制也就符合民事侵權理論,是對侵權危險的預先排除。
然而,隨著技術、經(jīng)濟、市場和信息利用方式的發(fā)展,復制不再等于傳播時,繼續(xù)單獨規(guī)制便不再符合民事侵權理論。中國和歐洲不規(guī)制中間復制或臨時復制即為一例。在AI訓練中,訓練數(shù)據(jù)準備階段的復制的后續(xù)是訓練(機器學習),但后者并非著作權權能所涵蓋,因而沒有傳播的后果,不會有侵害著作權的后果。沒有侵權危險,便沒有必要規(guī)制復制行為。因此,在合理使用條款中,復制也往往與其他允許合理使用的權能成對出現(xiàn)。如在課堂教學或科學研究中,對于教學科研人員使用的少量復制,強調(diào)了不得出版發(fā)行。反之,對于超出合理范圍的大量復制,以及非科研教學單位(如公司)的復制并提供給員工使用的行為,必然存在提供給最終使用者(如員工)的行為,這就構成發(fā)行。
但論及復制的“傳播”目的或效果時,易出現(xiàn)一種似是而非的理論:看所訓練的AI模型是否表達型的,即是否為生成式AI。若是,便具有傳播危險,從而反饋到訓練階段,認為訓練數(shù)據(jù)準備中的復制是著作權法意義上的復制。這一理論的錯誤之處在于不了解AI原理,讓訓練數(shù)據(jù)準備階段的復制跨越太遠的距離來到了AI應用階段。如前所述,訓練數(shù)據(jù)準備中的數(shù)據(jù)拷貝僅存在于訓練之前,訓練之后可棄,而且并沒有被“復制”到模型中,因此無論是決策式AI還是生成式AI,其輸出(和傳播)的并非訓練階段數(shù)據(jù)的直接拷貝。而若AI確實生成了實質性相似的作品,則按著作權法一般原理處理即可,與訓練階段無關。唯一的難點在于,若非使用者接觸過被侵權作品并有意引導和選擇[包括AI應用在網(wǎng)絡上或在應用數(shù)據(jù)庫(注意并不必然是訓練用數(shù)據(jù))中對被侵權作品的接觸],可能需要推定AI對原作的接觸。
3.實施/使用鏈條各環(huán)節(jié)獨立權能化導致多種弊端
通常認為,由于知識產(chǎn)權各部門法對實施、使用等各環(huán)節(jié)獨立設置了相應權能,在供應鏈或價值鏈上就各環(huán)節(jié)進行獨立許可是自然的,但受權利用盡原則的制約。一般存在兩種情況:在上游環(huán)節(jié)得到許可的情況下,下游環(huán)節(jié)因權利用盡原則而合法;在上游環(huán)節(jié)未得許可而非法的情況下,下游環(huán)節(jié)也應承擔侵權責任,除非成立合法來源抗辯。這一看似無懈可擊的法律安排,在實踐中已出現(xiàn)漏洞或濫用情況。
一是多重許可。盡管存在權利用盡原則和合法來源抗辯,但是現(xiàn)實中諸多權利人對鏈條中各環(huán)節(jié)進行多重許可,牟取許可費。原因有二:其一,各環(huán)節(jié)要核實上游環(huán)節(jié)的權利許可狀態(tài)有時存在一定難度;其二,出于謹慎,被許可人往往選擇就范。這使權利人獲得不應有的超額利益。在專利法當中,還存在針對同一發(fā)明內(nèi)核構建不同層次的獨立權利要求從而規(guī)避權利用盡原則的情況。在著作權法當中,針對不同類型的作品、不同階段的作品(各種衍生途徑)、不同類型的權利,存在比專利法更為繁雜瑣碎的權能劃分。針對不同對象的各種許可或許在法律表面上是獨立的、不交叉的,但針對同一作品內(nèi)核,事實上也是一種多重許可,給被許可人帶來守法上的成本和過多的經(jīng)濟成本。
二是選擇性訴訟。一些原告利用多環(huán)節(jié)獨立權能化的特點設置侵權圈套。在一些案例中,電商平臺上的商戶(其實際上與權利人合作)銷售雕塑,而所謂的著作權人訴各買家侵犯展覽權,卻不訴賣家的復制、生產(chǎn)和銷售行為。盡管這些案件中被告看似可進行合法來源抗辯,但存在各種限制:其一,現(xiàn)行《著作權法》規(guī)定的合法來源抗辯情形有限;其二,買家的低價購買(或許是商戶故意設置了低價)阻斷了“合法來源”。另外一些情況下,原告意圖在上游環(huán)節(jié)不知曉的情況下,在與下游環(huán)節(jié)的訴訟中贏得勝利(下游環(huán)節(jié)可能因利益不大而疏于應對),從而獲取對上游環(huán)節(jié)的優(yōu)勢。
又如,對所謂專利間接侵權、幫助侵權,同樣基于權能的獨立性,原告可選擇起訴行為鏈條中的任何人,而不必都起訴。當其起訴直接侵權人時,被告往往對權利的細節(jié)包括上游環(huán)節(jié)的自有知識產(chǎn)權和可能的現(xiàn)有技術抗辯等并不清楚,往往處于不利地位。而當起訴上游而不起訴下游(例如,因為下游是原被告的共同客戶)時,我們有理由質疑:真正對市場利益的損害在下游,權利人不起訴是不是也是一種默示許可?總之,上述例子盡管不總是指向對上游環(huán)節(jié)權能化的反對,但宏觀來看,是鏈條中多環(huán)節(jié)獨立權能化帶來的弊端。
4.小結:回歸民事侵權理論
知識產(chǎn)權的法定權利性質決定了需時時做好利益平衡,并非理所當然保護權利人所有可見的利益,不然必會阻滯信息的流動和科技文化事業(yè)的順暢發(fā)展。尤其是在新的科技和市場環(huán)境下,自然人獨立以及借助工具進行的創(chuàng)造/創(chuàng)作呈爆炸性增長,新穎的經(jīng)營模式和新的利益增長點也都層出不窮。在此情況下,要牢記尚未確認或重新分配的新興利益,在其自然控制者手中就是合理的,其確認或重新分配需進行利益衡量后立法。在此基礎上,須回歸民事侵權理論,行為規(guī)制、責任承擔均須滿足侵權責任構成要件。除極少數(shù)情況下的自力控制知識產(chǎn)權(如商業(yè)秘密、技術措施)之外,權利基礎,也就是受損害的市場權益的來源,必須直接來自法定知識產(chǎn)權本身,而非具有復合性的知識產(chǎn)權“客體”中的非法定知識產(chǎn)權層面;損害后果須是合法的市場權益的損失,既非前述尚未確認或重新分配的新興利益,亦非僅對存在于“第三世界”的知識產(chǎn)權的越界。
五
結論與展望:置之死地而后生
一方面,AI的技術原理和倫理地位決定了AI訓練無論如何都不存在“復制”。另一方面,文義解釋須受歷史解釋、目的解釋的制約,復制權的根本目的是傳播權,訓練數(shù)據(jù)準備中的復制既沒有傳播目的或效果,又可解釋為臨時復制/中間復制,因此不是著作權法意義上的復制。放大視野,權能碎片化現(xiàn)象不僅存在于著作權法,也存在于整個知識產(chǎn)權法,實施/使用各環(huán)節(jié)獨立權能化的歷史合理性已經(jīng)在新技術、新業(yè)態(tài)環(huán)境下受到挑戰(zhàn),須在一定程度上弱化知識產(chǎn)權中包括復制權在內(nèi)的預防性權能,回歸民事侵權理論。
這些問題在AI訓練中引發(fā)熱烈討論和司法爭議,凸顯了革命性的技術需要革命性的制度。直截了當?shù)霓k法,是直接承認舊制度(著作權法)已不適應新生產(chǎn)力(AI)。但這并不意味著對AI訓練數(shù)據(jù)問題撒手不管——若立法者和利益攸關方認為AI訓練數(shù)據(jù)問題需要規(guī)制,則可進行充分的利益衡量,基于價值取舍而重新立法/修法。途徑可以是對特定行為予以行為法規(guī)制,或在其實并不新的客體(數(shù)據(jù))的新層次的利益(用于AI訓練)上設權——既可在著作權法中設置新的權能,亦可在其他法律中設置新的權利,如數(shù)據(jù)立法,以概括性考慮和一并解決所有訓練數(shù)據(jù),而不僅僅是有版權保護的作品用于AI訓練的問題(注意這未必是與大數(shù)據(jù)有關的權益,而可能是分立數(shù)據(jù)上的權益)。否則,強人(著作權法)所難,未必達到效果,卻會導致法律體系內(nèi)部的齟齬和混亂。當然,這需要專文另外討論,筆者只是指出這一路徑更為合理,但并非對利益衡量的最終結果(是否立法或修法)做出結論。在塵埃落定之前,不妨讓子彈多飛一會兒,給新技術、新業(yè)態(tài)足夠的空間和寬容,才更加有利于科學、技術、經(jīng)濟、社會、國家和人類的進步。或者,解鈴還須系鈴人,技術引發(fā)的問題留待持續(xù)發(fā)展的技術本身去解決,可能是更為有效的治理方法。
-向上滑動,查看完整目錄-
《華東政法大學學報》2025年第4期目錄
【專題研討:為數(shù)字法學辯護】
1.走出法學的“馬法悖論”:數(shù)字法學的反思之反思
李學堯(6)
2.數(shù)字法學的理論范式及獨立性
羅有成(19)
3.數(shù)字安全價值的生成邏輯及其法治保障
鄭智航(32)
【數(shù)字法治】
4.人工智能訓練侵犯作品復制權嗎?
李春暉(46)
5.保護抑或利用:論“知情—同意”的公共利益豁免
郭爍(67)
6.算法服務提供者版權過濾義務的理論證成與規(guī)范構造
任安麒(79)
【法學論壇】
7.仲裁裁決對案外人權益的損害及其救濟原理
黃忠順(102)
8.論適用《民法典》對行政協(xié)議概念的塑造
——以德國法為例
李穎軼(119)
9.網(wǎng)絡游戲直播的著作權配置研究
于波(129)
10.股東出資規(guī)則對“責任型”第三人執(zhí)行追加的邊界重塑
高翔(143)
11.從援引舊法而修改的令文談秦無法典
歐揚(158)
【域外法苑】
12.啟蒙理性主義時代的羅馬法匯編
——以1794年《普魯士一般邦法》的制定史為中心
吳訓祥(167)
【評案論法】
13.網(wǎng)絡暴力刑事治理的歸責邏輯重構與規(guī)范迭代
肖宸彰(178)
《華東政法大學學報》由華東政法大學主辦,現(xiàn)為“中國法學核心科研評價來源期刊(CLSCI)”“中文社會科學引文索引(CSSCI)來源期刊”“中文法律類核心期刊”和“中國人文社會科學法學專業(yè)核心期刊”,先后獲評“全國高校社科精品期刊”“全國優(yōu)秀社科學報”“華東地區(qū)優(yōu)秀期刊”和“上海市最佳學報”。
點擊進入下方小程序
獲取專屬解決方案~
責任編輯 | 郭晴晴
審核人員 | 張文碩 范阿輝
本文聲明 | 本文章僅限學習交流使用,如遇侵權,我們會及時刪除。本文章不代表北大法律信息網(wǎng)(北大法寶)和北京北大英華科技有限公司的法律意見或對相關法規(guī)/案件/事件等的解讀。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.