2024年12月18日,深圳市工业和信息化局发布《深圳市打造人工智能先锋城市的若干措施》,在丰富生态要素供给中,明确提出发放“语料券”,这是深圳市对语料库建设的又一明确支持。
语料库对大模型的重要性不言而喻,国家与广东省多次在政策中予以强调,如《“数据要素X”三年行动计划(2024-2025)》提出,建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练;《广东省关于人工智能赋能千行百业的若干措施》提出,建设高质量中文数据集,鼓励企业建设面向行业的高质量中文语料数据库;《广东市人民政府关于加快建设通用人工智能产业创新引领地的实施意见》强调,着力构建高质量多模态中文数据集,构建面向行业的高质量中文语料数据库。
深圳市,作为中国改革开放的前沿阵地和创新高地,近年来在高质量中文语料数据库的建设上采取了多项有力措施,取得了显著成效。
形成政策支撑体系,促进语料合规
在基础制度建设上,2021年7月,深圳出台了《深圳经济特区数据条例》,这是国内数据领域首部基础性、综合性立法。作为全国人大授权深圳人大制定的特区法规,这部条例率先提出了“数据权益”这一权益概念,明确数据监管框架及管理机制,梳理了数据业务各个环节的合规要求并建立了合规风险清单,为语料库的建设提供了明晰的制度指引。2023年5月,深圳印发《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》,在强化数据和人才要素供给中,明确提出“打造高质量中文语料数据”,并提供了组织领导与资金两大保障。
在细化执行上,今年7月,深圳《深圳市加快打造人工智能先锋城市行动方案》为语料库提出了明确的目标,即“打造1千万亿字节(PB)多模态中文语料数据库”。而这次的《深圳市打造人工智能先锋城市的若干措施》则进一步递进,提出每年发放最高5000万元“语料券”,促进语料开放共享和交易,推动数据要素市场建设。
由此可见,深圳市关于语料库的建设层层递进,逐步深化,不仅明确了语料库建设的目标和方向,还提供了真金白银的资金支持。一系列的政策文件构建了完善的政策支撑体系,为语料库的建设提供了有力的政策引导和资金保障。
建设数据交易体系,聚合语料数据
2022年11月,深圳数据交易所(以下简称“深数所”)正式揭牌成立,并推行了一系列举措,促进语料数据的聚合与开源,如联合华为等优质厂商构建“开放算料联盟”,推动高质量语料开源;指导深译科技完成合规审查、上市入表等工作,发布全国首个高价值、多模态、多语种AI算料数据资产包等。
深数所还推动了数据交易的规范与分级。深数所牵头起草了地方标准《数据交易服务规范》,并于今年10月经深圳市市场监管局批准发布。据悉,《数据质量评价与分级应用规范》《跨境数据交易合规评估指引》等规范也在有条不紊地推进中。从交易规范到数据质量评价,这一系列标准语料数据的聚合提供了指导性的依据和规范的流程。
目前,深数所在全国的数据交易所中居领先地位,已链接数据买方、卖方、数据商等市场主体超4000家。截至2024年12月初,累计交易规模突破150亿元,覆盖金融科技、数字营销、公共服务等场景294个,上架数据产品超2000个,成为深圳市高质量语料数据聚合与开放共享的重要机构。
开放公共数据资源,搭建运营平台
在定义和范围上,《深圳经济特区数据条例》明确,市国家机关、事业单位和其他依法管理公共事务的组织,以及提供教育、卫生健康、社会福利、供水、供电、供气、环境保护、公共交通等公共服务机构,在依法履行公共管理职责或者提供公共服务过程中产生、处理的数据属公共数据。
为高效管理和运用这些数据,深圳建设了人口、法人、基础地理、房屋、证照、信用等六大基础数据库,并打造了一体化智能化公共数据管理和服务平台,实现互联互通与统一运维管理,提高了公共数据资源的利用效率。同时,深圳市还注重数据安全建设,早在2022年就颁布了首个公共数据安全领域的地方标准《公共数据安全要求》,用于安全能力的建设、评估与监管,为语料库的安全运营提供了有力保障。
经过近几年的努力,深圳的公共数据资源硕果满满,为高质量语料数据库的建设提供了坚实的基础和丰富的资源。深圳的全国首个“政所直连”公共数据产品在2023年成功上市。截至2024年10月,深圳开放数据目录3977个,数据总量近28.28亿条,注册用户14.78万,数据接口累计调用量超2.46亿次。
结语
语料库作为大模型训练和优化的基础资源,其质量和规模直接关系到大模型的性能和智能化水平。深圳市通过构建政策支撑体系、建设数据交易体系和开放公共数据资源等多措并举的方式,全力推动高质量中文语料库建设与发展,为其他地区提供了有益的借鉴和启示。
——END——