閱讀紀錄

隱藏 →
此記錄會在頁面關閉後消失

為何資料規模對台灣發展自主大語言模型構成結構性困境?

Answer

資料規模與台灣自主大語言模型發展的結構性困境

資料規模是發展大語言模型(LLMs)的基石。規模定律表明,資料量越大、種類越多樣,模型在訓練和泛化能力上表現就越好。然而,資料規模有限一直是台灣發展自主大語言模型長期以來的結構性困境。為了彌補資料量的不足,許多台灣新創和學術單位仰賴「爬蟲程式」來獲取所需的資料。

七法Lawsnote判決的警鐘

OECD在今年2月發布的報告中指出,爬蟲程式是大語言模型預訓練不可或缺的資料來源。然而,新北地方法院在七法Lawsnote案的判決中,將「爬蟲程式」認定為觸犯刑法第359條,可能對台灣AI產業發展敲響警鐘。七法Lawsnote是台灣少數推動法律科技的新創公司,也是台灣法律AI領域的先行者之一,曾入選人工智慧科技基金會(AIF)「2024年AI生態系暨台灣AI新創地圖」。

爬蟲程式與「無故取得他人電腦電磁紀錄罪」

法院在認定七法Lawsnote使用爬蟲程式爬取複製資料,觸犯刑法第359條「無故取得他人電腦電磁紀錄罪」時,主要考量以下三個構成要件:(1)是否使用爬蟲程式取得資料?(2)是否「無故」?(3)是否導致他人損害?法官認為,無論資料網站的使用規範中是否明文禁止爬蟲,核心仍在於「是否取得著作權人書面授權」。只要未經同意擅自重製,即屬違反使用規範,並構成無故取得他人電腦電磁紀錄罪。

你想知道哪些?AI來解答

台灣發展自主大語言模型面臨哪些結構性困境?

more

OECD報告中指出,爬蟲程式在大語言模型預訓練中扮演何種角色?

more

七法Lawsnote案的判決對台灣AI產業發展可能產生什麼影響?

more

法院在認定七法Lawsnote觸犯「無故取得他人電腦電磁紀錄罪」時,考量了哪三個主要構成要件?

more

七法Lawsnote案的判決結果,對於未經授權使用爬蟲程式的行為有何認定標準?

more

你覺得這篇文章有幫助嗎?

likelike
有幫助
unlikeunlike
沒幫助
reportreport
回報問題
view
1
like
0
unlike
0
分享給好友
line facebook link