本报记者蒋牧云何莎莎上海北京报道
数据要素正在成为新质生产力不可或缺的一部分,但我国数据要素市场尚在发展初期,在数据流通过程中仍有不少挑战。对此,多位业内人士告诉《中国经营报》记者,要充分激活数据价值,将不同数据融合是必不可少的,但在流通过程中,如何兼顾数据安全与数据质量是不少参与者关心的重点。
基于此,记者了解到,诸多科技力量如数据空间、隐私计算、人工智能等正在成为数据要素流通设施的基石。近日,海南省大数据管理局与蚂蚁数科签订合作框架协议,双方将在数据安全流通等方面进行合作。此前,深圳数据交易所与深圳数鑫科技有限公司(以下简称“数鑫科技”)等合作伙伴联合发布可信数据空间助力大模型语料合规高效流通的案例、“企业信用数据空间专区”等。深入数据交易平台与科技的融合与合作之中,科技力量究竟是如何助力数据要素流通的?
数据空间中的“转接器”
在“数据二十条”、《“数据要素×”三年行动计划(2024—2026年)(征求意见稿)》等一系列政策推动下,我国数据要素市场正在快速发展。不过,在发展过程中也暴露出需要进一步完善之处。比如,在数据流通过程中,要兼顾数据要素流通的安全与质量就成为业内关注的重点,而科技技术的赋能正成为关键点之一。国家数据局局长刘烈宏在不久前的公开讲话中提到,要加快建设安全可信的数据基础设施,发展数据空间、高速数据网,推动匿名化、联邦学习、多方安全计算等隐私计算和区块链技术应用,增强数据利用可信、可控、可计量能力,让公共数据“流得动”。
亿欧智库近期发布的《中国数据要素市场未来发展趋势》中也指出,数据流通设计需要多环节的技术协同,现阶段数据流通技术体系尚未完全成熟,存在数据泄露、越权滥用等数据安全问题,且不能完全满足实际场景下的落地应用需求。该报告预计,接下来区块链、隐私计算等跨技术路径、跨系统平台之间多元融合将成为趋势。加强敏感数据识别、数据脱敏技术、数据泄露防护技术等方面的突破也将以新技术、新模式牵引数据流通的新需求。
针对目前数据要素的流通情况,数鑫科技联合创始人、CTO廖炳才告诉记者,数据要素流通的过程中,涉及多个参与者,不论是数据的供方或需方,都拥有自身已建设好的数据存储设施、数据加工使用设施等。跨企业、跨组织、跨行业的参与者之间跨域流通使用数据,往往都不愿意去改造各自的数据存储或者加工使用设施。与此同时,数据流通往往不能直接搬运或者拷贝数据,而是需要同时兼顾供需方数据持有权、数据加工使用权的保障,让数据按需受控的参与社会化生产发挥出其作为生产要素的价值。由此,数据流通需要有去中心化、轻量化、普适性强、可解释性强的技术手段,确保数据能合规高效流通使用,从而更好赋能实体经济。
廖炳才告诉记者,数鑫科技从数据空间技术为突破口来解决前述痛点。数据空间可以将物理分布在不同参与方域内的数据对象,按需受控的进行虚拟化连接,是一张可以灵活弹性组网的数据流通网络,其核心机制在于数据对象的跨域虚拟化以及使用控制。
廖炳才具体介绍道,数据供需双方可以分别通过DPE(DataPro-videEngine,数据提供引擎),DCE(Data ConsumeEngine,数据消费引擎),接入到数据空间流通网络中。DPE可以看成是供方的“数据转接器”,转接数据时既确保符合供方对数据的安全管控要求,又不丢失数据的业务含义,也就是保证数据质量。DCE可以看成是需方的“数据转接器”,可通过跨域联合计算沙盒进行多方数据跨域融合计算。在这一受控沙盒中,数据需求方可以通过事先协商好的合约进行加工与使用,合约可以具体到字段、算法等层面。在数据对象的跨域虚拟化以及使用控制机制下,每一条数据都以加密形式进入到内存中并完成联合计算。
除了流通机制之外,数据流通网络中各参与方数字身份、流通设备数字身份、数据流通使用策略合约关系等方面的信任认证能力,也是解决数据流通过程中信任问题的核心基础能力。廖炳才还提道,传统PKI技术只对于构建数据流通基础设施网络中的信任认证能力,存在明显的不足之处。因此数据空间基于Web3相关技术,解决数据流通基础设施网络中各个节点的设备数字身份以及相互之间的信任问题。
多技术融合应用
隐私计算、人工智能等技术,也在保障数据流通安全、合规等方面赋能。比如近日,海南省大数据管理局与蚂蚁数科签订合作框架协议。在签约仪式上,海南省大数据管理局副局长孙建明表示,双方将持续在数据开发利用、数据要素市场生态共建、数据要素应用场景建设、数据跨境流动等方面开展长期深入的合作。蚂蚁数科安全科技副总经理王黎强则介绍道,蚂蚁数科针对数据合规、数据安全、数据流转及应用等领域持续深耕,同时对区块链、隐私计算、人工智能等前沿技术进行研究创新,构建了一套完整的数据价值流通技术底座,可确保数据链路安全合规和顺畅流通,促进数据要素价值释放。
关于这一技术底座的具体情况,蚂蚁数科智能数据产品总经理李书博告诉记者,数据只有在应用场景中才能释放更大价值,而数据的安全流动与价值释放也依赖于一系列技术基础设施保障。具体而言,蚂蚁数科自主研发隐私增强型数据协作平台FAIR,融合区块链及隐私计算技术,能使原始数据在不出域的情况下,实现多节点之间高效可信地协同计算和隐私保护。
需要指出的是,在数字化与人工智能浪潮下,挖掘出更多新的行业场景与需求。在这一背景下,数据要素的传输基础设施,也需要不断完善。比如,数据规模不断提升的背景下,如何更加高效地进行传输就是业内关注的重点之一。
蚂蚁集团董事长兼CEO井贤栋就在近日的公开演讲中提到,AGI(通用人工智能)时代的到来,需要对数据孤岛化下的大规模数据流通进行破题。人工智能技术迅猛发展,也给隐私计算提出了更高要求,由于成本限制,隐私计算在高阶人工智能比如大模型应用上,还停留在实验室阶段。井贤栋表示,蚂蚁正在致力于探索下一代隐私计算技术,力求像明文计算一样高效易用。其中一个探索是推出可信密态计算(TECC,Trusted-Environment- based Cryptographic Computing),实现低成本、高安全、高性能和高可靠等维度的提升。
据悉,在成本上,在同等高安全等级下,可信密态计算将成本控制在明文分布式计算成本10倍以内(相比起,多方安全计算1000倍—100000倍),力求让隐私计算的性能、成本逼近明文计算;在安全性上,由于密码学+可信硬件双重安全保障,可达到攻防检验级高安全等级;在性能上,百万级参数CNN模型预测可以在亚秒级完成,亿条数据SQL分析10分钟完成。
廖炳才也向记者表示,人工智能的热潮使得更多AI体系的数据市场参与方出现,AI体系中的向量数据如何更加高效地实现跨域虚拟化及使用控制,将是数鑫科技下一步探索的方向。在向量数据结构中,数据是由数字化处理后的浮点排列组成的数组,在目前的传输机制中,会将这一数组重新表达为表格数据结构后,再进行下一步传输与融合。除了表达结构之外,向量数据对于沙盒的环境要求也有所不同,下一步,若能直接将向量数据进行跨域虚拟化及手控使用,则能进一步支撑AI体系的发展。