為何資料規模對台灣發展自主大語言模型構成結構性困境?
Answer
資料規模與台灣自主大語言模型發展的結構性困境
資料規模是發展大語言模型(LLMs)的基石。規模定律表明,資料量越大、種類越多樣,模型在訓練和泛化能力上表現就越好。然而,資料規模有限一直是台灣發展自主大語言模型長期以來的結構性困境。為了彌補資料量的不足,許多台灣新創和學術單位仰賴「爬蟲程式」來獲取所需的資料。
七法Lawsnote判決的警鐘
OECD在今年2月發布的報告中指出,爬蟲程式是大語言模型預訓練不可或缺的資料來源。然而,新北地方法院在七法Lawsnote案的判決中,將「爬蟲程式」認定為觸犯刑法第359條,可能對台灣AI產業發展敲響警鐘。七法Lawsnote是台灣少數推動法律科技的新創公司,也是台灣法律AI領域的先行者之一,曾入選人工智慧科技基金會(AIF)「2024年AI生態系暨台灣AI新創地圖」。
爬蟲程式與「無故取得他人電腦電磁紀錄罪」
法院在認定七法Lawsnote使用爬蟲程式爬取複製資料,觸犯刑法第359條「無故取得他人電腦電磁紀錄罪」時,主要考量以下三個構成要件:(1)是否使用爬蟲程式取得資料?(2)是否「無故」?(3)是否導致他人損害?法官認為,無論資料網站的使用規範中是否明文禁止爬蟲,核心仍在於「是否取得著作權人書面授權」。只要未經同意擅自重製,即屬違反使用規範,並構成無故取得他人電腦電磁紀錄罪。