世界看点:天下再无免费数据?“美版贴吧”向AI公司收取数据使用费

来源:科创板日报  发布时间:2023-04-19 19:56:56 


(资料图片仅供参考)

AIGC热潮下,数据重要性愈发凸显。以CHATGPT为首的人工智能,由庞大数据集训练而成。如今,已有公司“揭竿而起”要求收费,不再甘于被微软、谷歌等科技巨头免费用数据。

当地时间周二,Reddit宣布,将向使用其API训练AI聊天机器人(行情300024,诊股)的公司收取数据使用费,其中便包含微软、谷歌、OpenAI等。

之前这些公司都通过应用程序编程接口(API)下载并处理论坛上的聊天内容,并将聊天内容当做免费训练工具,用于开发新AI系统。例如,谷歌聊天机器人Bard的底层算法之一便是用Reddit聊天数据训练而来;OpenAI的ChatGPT也将Reddit数据纳入大型语言模型的训练内容。

Reddit是美国访问量最大的网站之一,用户可以在其中创建并分享内容,还有人将其称为“美国版百度贴吧”。

公司创始人兼首席执行官Steve Huffman表示,“Reddit比互联网上任何其他地方都更适合聊天,平台上很多内容是用户只会私下说的、或压根不会说的东西。Reddit的数据库确实很有价值,我们没有必要免费提供这些价值给世界上最大的公司。”

这也是首次有社交媒体公司明确向OpenAI等收取费用,开放访问权用于开发人工智能系统。

目前,Reddit暂未公布具体收费标准,但其表示,将会给出不同的等级,根据使用者的规模和需求来收费。此外,这一举措不会影响那些使用API来创建和维护内容审核工具的人,Reddit会为他们提供专门的iOS和Android应用程序。

实际上,眼下已意识到数据价值的公司并不止Reddit——图片托管服务商Shutterstock已把图像数据出售给OpenAI,帮助开发了DALL-E;许多公司也在使用API追踪推特上的聊天内容,推特计划针对API使用收取几万到几十万美元不等的费用。

▌数据已成“AI发展的胜负手”

为了不断改进AI模型,有两个关键因素不可或缺:强大的计算能力和大量可用的数据。一些大型AI开发公司通常拥有足够的算力,但仍会在互联网上寻找改进算法所需的数据,数据来源包括维基百科、各种数字化书籍、学术文章和Reddit论坛上的聊天内容等。

OpenAI就曾透露,训练ChatGPT使用了45TB的数据、近1万亿个单词,大概是1351万本牛津词典所包含的单词数量。

知乎在日前发布大模型“知海图AI”,其倚仗的一大有力支撑便是中文互联网大量问答内容。知乎创始人、董事长兼CEO周源表示,AI时代,生产力的三要素分别是应用场景、专有数据和基础模型。其中,知乎以问答为基础的讨论场景是天然的应用场景,构成了独一无二的专有数据。

而彭博的BloomberGPT训练数据总量约为5300亿次,其中金融行业数据约为2720亿次,约占所有训练数据的54.2%,来源包括网络、新闻、公司公告与财务报表以及彭博自己的新闻库。

海量数据(行情603138,诊股)为基础的大模型训练产生了突现能力(Emergent Ability),带来AI研究范式转变。只有在训练数据量足够大时,量变才能引起质变。而GPT相比于此前模型所具备的“泛化能力”,就是以海量数据为基础产生的。

在这种情况下,数据更有了“AI发展的胜负手”之称——算法、算力和数据是AI发展的三大重要基础。东吴证券(行情601555,诊股)指出,对于我国而言,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶。而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。

关键词:

刚刚,孟晚舟公开发声!

4月19日,在华为2023年全球分析师大会上,本届大会以“跃升数字生产力,加速迈向智能世界”为主题,阐述了华为对未来的战略思考。在...更多

2023-04-19 19:53:10

世界看点:天下再无免费数据?“美版贴吧”向AI公

AIGC热潮下,数据重要性愈发凸显。以CHATGPT为首的人工智能,由庞大数据集训练而成。如今,已有公司“揭竿而起”要求收费,不再甘于...更多

2023-04-19 19:56:56

日本大和证券:从4月底开始 9000名员工将使用ChatGPT

此页面是否是列表页或首页?未找到合适正文内容。更多

2023-04-19 19:54:09

世界今头条!重大火灾按停长峰医院“资本巨轮”

4月18日晚的一场重大火灾,将全国目光聚焦到北京丰台区一群老小区包围下的一家民营医院——北京长峰医院。4月19日,根据北京市召开...更多

2023-04-19 18:57:33

世界百事通!银保监会:从未批准设立“中国时间银

银保监会从未批准设立“中国时间银行”,相关网站、社交平台、APP等所称“中国时间银行”有关内容均为虚假消息,相关投资活动涉嫌违...更多

2023-04-19 19:03:55

孟晚舟:预计2026年全球数字化转型支出将达3.41万

华为副董事长、轮值董事长、CFO孟晚舟在2023华为全球分析师大会上表示,数字化是全行业的共同机遇,2026年全球数字化转型支出将达到...更多

2023-04-19 18:04:12

每日热点:浙江发布通知:做好口腔种植医疗服务收

据“浙江发布”公众号,浙江省自2023年4月20日起执行省际联盟口腔种植体系统集中带量采购中选结果,牙冠按不高于价格联动挂网结果进...更多

2023-04-19 17:59:56

火灾下的长峰医院,医技、护理人员缩减数十人,近

4月18日,北京长峰医院火灾引发全国关注,最新数据显示,29人在此次火灾事故中不幸遇难。据悉,涉事医院系一家连锁医院集团,2009年...更多

2023-04-19 18:08:52

焦点滚动:华为战略研究院院长周红:华为将从三个

华为战略研究院院长周红在2023华为全球分析师大会上表示,在走向智能社会的过程中,可能有超过百倍、甚至千倍的信息需求增长,现有...更多

2023-04-19 18:05:53

每日速讯:飞猪:“五一”国内游预订量已超2019年

飞猪发布《2023年“五一”出游风向标》。距离“五一”假期不到10天,截至目前,国内机票、酒店、景区门票、跟团游等预订量均已超过2...更多

2023-04-19 17:50:06