哈佛与谷歌联手发布百万公版书AI训练数据集

发布时间:2026-05-26 23:27

《哈佛家训》:汇集哈佛大学优秀家庭教育智慧。 #生活知识# #生活感悟# #育儿生活经验# #家庭教育书籍推荐#

AI训练数据的成本极为高昂,通常只有财力雄厚的科技巨头才能负担。正因如此,哈佛大学计划发布一个涵盖约100万册公版书籍的数据集,内容横跨多种类型、语言及作者,包括狄更斯、但丁和莎士比亚等因年代久远而已不受版权保护的经典作品。

这一数据集目前尚未正式发布,具体发布时间与方式也尚未明确。但可以确认的是,该数据集中的书籍来源于谷歌长期推进的图书数字化项目——谷歌图书(Google Books),因此谷歌也将参与将这一"珍贵资源库"向各界广泛开放的工作。

哈佛大学早在今年3月便率先透露了"机构数据倡议"(Institutional Data Initiative,简称IDI)的相关计划,表示将打造一个"为AI提供合法数据的可信渠道"。此后该项目鲜有消息,直至今日正式宣布启动,并确认微软与OpenAI已为IDI提供资金支持。

IDI执行主任格雷格·莱珀特(Greg Leppert)表示,这一数据集的设计初衷是通过向所有人开放如此庞大的资源——无论是研究机构还是AI初创公司——来"打造公平竞争的环境",让更多主体得以训练自己的大语言模型。

Q&A

Q1:哈佛机构数据倡议(IDI)发布的数据集包含哪些内容?

A:该数据集涵盖约100万册公版书籍,横跨多种文学类型、语言及作者,包括狄更斯、但丁、莎士比亚等经典作家的作品。这些书籍因年代久远已不受版权法保护,书目来源于谷歌长期推进的谷歌图书数字化项目。

Q2:哈佛IDI数据集目前可以使用了吗?

A:目前该数据集尚未正式对外发布,具体的发布时间与获取方式也尚不明确。哈佛大学与谷歌将共同参与后续的发布工作,有意向的研究机构和AI企业可持续关注官方动态。

Q3:哈佛IDI数据集的发布对AI初创公司有什么意义?

A:AI训练数据成本极高,通常只有大型科技公司才能承担。IDI数据集的发布旨在"打造公平竞争的环境",让资金有限的研究机构和AI初创公司也能获取大规模高质量的训练数据,用于训练自己的大语言模型,从而降低行业门槛。

网址:哈佛与谷歌联手发布百万公版书AI训练数据集 https://m.klqsh.com/news/view/376039

相关内容

谷歌发布音乐AI工具MusicFX:一句话就能生成一首音乐
每日AI资讯、热点、动态、融资、产品发布
苹果被 2 名作家指控利用盗版书籍训练 AI 模型
四位金融背景“技术极客”跨界AI音乐,Suno凭数据飞轮1年狂揽超1亿美元
谷歌Gemini携手沃尔玛,AI购物开启零售新时代
AI新业务收入破百亿,百度全栈布局的“含金量”还在上升
把AI变成你的“人生导师”?谷歌被曝正在“密谋”几十项震撼更新
AI时代版权官司不断 苹果被指控使用盗版书籍训练大模型
百度2025十大科技前沿发明发布
消息称Meta正就为自有数据中心导入TPU AI芯片与谷歌洽谈

随便看看