作者:小编 日期:2025-02-23 17:14:02 点击数:
漕河泾会议中心,座无虚席。2月22日,2025全球开发者先锋大会召开首日,一场以语料为主题的论坛吸引了众多开发者和创业者的围观,甚至连通道上都站满了认真聆听的观众。论坛承办方上海库帕思科技有限公司董事长山栋明说:“一开始觉得这个场地大才选了这里,但大家的热情超出了我们的想象。”
人们为什么如此关心语料?语料是构建和训练AI模型,尤其是自然语言处理模型的基础语言材料,通俗的说,就是训练AI模型的一种原材料。它们有可能是传统的文字,还可能是语音、图像和视频等多种类型的数据。
语料的质量高低,将直接决定AI模型的性能高低。正如在这场大会上被反复提及的一个观点,语料已经成为AI时代的一种核心资产。
所以,无论是做基础模型的开发者,还是AI应用的创业者,都十分关心语料的发展。然而,随着AI模型的快速迭代,真实世界的语料正在面临枯竭。蜜度科技CTO刘益东表示,由于算法和算力不断优化,对语料的需求量正越来越大,以数据作为载体的语料也就变得越来越稀缺。
算法创新是否可以减少语料需求曾受到质疑。比如说,当前爆火Deepseek就通过模型算法创新和强化学习,减少了对标注数据的使用,被业界认为是革命性的进展,让外界一度认为标注数据的未来需求会减少。但这次论坛上,不少业内人士表示,随着算法优化,模型搭建的成本降低,将有更多的AI开发者涌进赛道,语料的总体需求量仍会增加,业界称此规律为“杰文斯悖论”。
“在算法的大规模创新后,未来大模型可能会陷入一种‘算法谄媚’的状态,也就是说算法成本越来越低,数据价值越来越高,所以未来语料的配置会非常重要。”山栋明说。
为了解决语料枯竭问题,当前业界的主流趋势是使用“合成数据”。这是一种通过AI模型利用真实语料生成的仿真数据,也可以用作AI模型的训练。马斯克的xAI刚刚发布的Grok-3就是在大量合成数据的基础上训练而成的。上海交通大学副教授刘鹏飞认为,合成数据就是下一代大模型训练最核心的事情。
但需要注意的是,合成数据的发展目前仍不成熟,面临着真实性不稳定、评价体系不一等问题,这会放大AI模型的“幻觉”问题。Google DeepMind的实验显示,当代码生成模型仅使用自身合成数据迭代训练时,代码安全漏洞率从初代的12%飙升至第五代的67%。
所以回到语料的本源,作为合成数据基础的真实语料将更加重要,语料质量也将更受关注。当合成数据创造虚拟世界的海市蜃楼时,真实语料如同大地之锚,确保人工智能的发展不会迷失在算法幻象之中。
要提升语料的质量,需要提升语料来源、收集、处理等全环节的质量,但这一过程却面临许多现实困难。一位医疗AI创业者在论坛上表示,其公司刚刚发布的医疗垂类模型,最初收集了医院系统重30多TB的数据,但最后真正能用进模型的语料不到1TB,因为现实中大量数据的重复pg电子官方网站 PG平台的,在数据清洗环节中就淘汰掉了,实际可用的高质量临床数据非常少。
为了提高语料这一生产要素的供给水平,赋能更多AI大模型创新发展,上海正在行动。在这次论坛上,包括模塑申城语料普惠计划之语料数据智能创意大赛、2025语料风云榜招募令、具身智能语料专项工程、语料工作委员会的四项工作已正式启动。未来,上海将汇集更多高质量语料库,以完善的语料服务生态,吸引更多AI产业落地。
2025-03-26
2025-01-12
2025-03-10
2025-02-19
移动商城
抖音店铺二维码
快手店铺二维码