高质量数据供给,让行业大模型应用落地更“有料”
《数字中国发展报告(2023年)》显示,我国数据生产总量达到32.85ZB,为国产大模型的爆发提供了丰富的“底层原料”。算力、数据、算法、场景,是决定大模型能力的核心要素,随着大模型发展逐渐由“通用”走向“垂直”,数据的质量和规模越发重要。业内专家认为,未来一个模型的好坏,20%由算法决定,80%由数据质量决定。高质量数据是提升模型性能和专业性的关键。
建设高水平行业数据集、加速行业数据流通交易,是增强高质量数据供给的必由之路。浪潮卓数大数据董事长张帆指出,当前高质量中文语料资源短缺问题初现端倪,且随着时间推移,优质数据的获取难度将进一步加大。《数据要素×三年行动计划(2024-2026年)》实施后,国家鼓励科研机构、龙头企业开展行业共性数据资源库建设,打造高质量大模型训练数据集,提升数据供给水平。
“我们一直强调以数据治理为突破口提升数据质量。”张帆表示,工欲善其事必先利其器,浪潮卓数大数据基于完善的数据资源体系,通过自主研发的标注工厂系统,结合自有的数据治理模型工具,智能化提升数据治理的质量和效率,形成高质量语料训练数据集,支撑多模态融合的数字化场景。
行业大模型“术业有专攻”,在面向行业的“封闭场景”中,大模型所需的多场景优质数据集并不容易获得。解决了高质量数据“供得出”后,还要确保“流得通”,引导企业开放数据,鼓励市场力量挖掘商业数据价值,为行业大模型成长提供充足“养料”。
尽管我国拥有海量数据资源,但是数据“孤岛”和“烟囱”问题依然严峻。像浪潮卓数大数据这样本身拥有丰富数据资源又通过平台开放的企业,在打破数据壁垒中起到的作用日益明显。依托天元数据网和各地签约的数据交易所,浪潮卓数大数据可提供电商、生活服务、企业、农业、资源能化等10大类数据的API、数据集、数据报告、数据应用等的购买和个性化定制服务,旨在解决供需不匹配、数据难获得等制约大模型进一步发挥赋能效用的痛点。
随着“底座”能力的提升,浪潮卓数大数据还依托自主研发的公共数据授权运营平台、数据资产服务平台,在确保全流程数据安全可靠、可信、可控的前提下,构建上下游合作的数据流通产业链,为数据要素市场建设积极贡献力量。
例如此前助力德州财金集团打造的“玻璃温室番茄生产数据集”数据产品,不只完成数据资产入表、盘活了企业数据资源,还利用数商身份进行供需撮合,实现首笔数据交易。越来越多沉淀在企业内、产业端的高质量数据,逐渐“浮出水面”,推动大模型迭代升级。
知易行难,加速破局尚需多方合力。据张帆介绍,让更多企业拥有高质量的数据,打造行业或特定领域、任务的专用大模型,实现生产力革新和产业升级,已成为目前浪潮卓数大数据聚焦的重要方向。