作者:Yuxing, SevenX Ventures
本文仅供交流学习,不构成任何投资建议。
ChatGPT 和 GPT-4 的火热,让我们看到了人工智能的力量。人工智能背后,除了算法以外,更重要的是海量的数据。围绕数据,我们已经构建了一个大规模的复杂系统,该系统的价值主要来自于商业智能(Business Intelligence, BI)和人工智能(Artificial Intelligence, AI)。由于互联网时代数据量的快速增长,数据基础设施的工作和最佳实践也在飞速地发展。这两年,数据基础设施技术栈的核心系统已经非常稳定,支持工具和应用也在快速增长。
云数据仓库(如 Snowflake 等)正在迅速增长,主要关注 SQL 用户和商业智能用户场景。其他技术的采用也在加速,数据湖(如 Databricks)的客户增长速度前所未有,数据技术栈中的异质性将共存。
其他核心数据系统,如数据获取和转化,已经证明同样耐久。这在现代数据智能领域特别明显。Fivetran 和 dbt(或类似技术)的组合几乎随处可见。但在一定程度上,在业务系统中也同样如此。Databricks/Spark、Confluent/Kafka 和 Astronomer/Airflow 的组合也开始成为事实标准。
来源:a16z
其中,
随着数据生态的飞速发展,出现了“数据平台”的概念。从行业的角度看,平台的定义特征是有影响力的平台提供方和大量的第三方开发者能够在技术上和经济上相互依存。从平台的角度看,数据技术栈分为“前端”和“后端”。
“后端”大致包括数据提取、存储、处理和转换,已经开始围绕小部分云服务提供商开始整合。因此,客户数据被收集在一套标准的系统中,供应商正在大力投资,使其他开发人员可以轻松访问这些数据。这也是 Databricks 等系统的基本设计原则,并且通过 SQL 标准和自定义计算 API(例如 Snowflake)等系统得到了实现。
“前端”工程师利用这种单点集成来构建一系列新应用程序。他们依赖数据仓库/湖仓一体中清洗和整合过的数据,而不用担心它们是如何生成的底层细节。单个客户可以在一个核心数据系统之上构建和购买很多应用。 我们甚至开始看到传统企业系统,如财务或者产品分析,正在使用仓库原生的架构进行重构。
随着数据技术栈的逐渐成熟,数据平台上的数据应用也随之激增。由于标准化,采用新的数据平台变得前所未有地重要,相应地维护平台也变得极为重要。在规模上,平台可能非常有价值。现在,核心数据系统供应商之间竞争激烈,这种竞争不仅是为了当前的业务,更是为了长期的平台地位。如果你认为数据获取和转换模块是新兴数据平台的核心部分,那么对数据获取和转换公司的惊人估值也就更容易理解了。
然而,这些技术栈的形成是在以大公司为主导的数据利用方式下形成的。随着社会对于数据的理解加深,人们认为数据与土地、劳动力、资本、技术一样, 都是可市场化配置的生产要素 。数据作为五大生产要素之一,其背后体现的正是数据的资产价值。
要实现数据要素市场的配置,目前的技术栈远远不能满足需求。与区块链技术紧密结合的 Web3 领域,新的数据基础设施正在发展与演变。这些基础设施将嵌入现代数据基础设施架构,实现数据产权界定、流通交易、收益分配和要素治理。这四个领域在 政府监管的角度 来说非常关键,因此需要特别关注。
受 a16z 统一的数据基础设施架构(2.0)的启发,融合对 Web3 基础设施架构的理解,我们提出了以下 Web3 混合数据基础设施架构。
橙色是 Web3 所独有的技术栈单元。由于去中心化技术还处于早期发展阶段,目前 Web3 领域内的大部分应用采用的仍是这种混合数据基础设施架构。绝大多数应用并不是真正的“ 超级结构 ”。超级结构拥有不可停止、免费、有价值、可扩展、无许可、正外部性和可信中立等特征。它作为数字世界的公共物品而存在,是“元宇宙”世界的公共基础设施。这需要完全去中心化的底层架构来支撑它。
传统的数据基础设施架构是根据企业业务发展演变而来的。a16z 将其总结为两个系统(分析系统和业务系统)和三个场景(现代商业智能、多模型数据处理以及人工智能和机器学习)。这是从企业的视角——数据为企业的发展服务——作出的总结。
然而,不仅仅是企业,社会和个人都应当受益于数据要素带来的生产力提升。世界各国都接连出台了政策法规,希望从监管的层面规范数据的使用,促进数据的流通。这包括在日本常见的各种 Data Bank、在中国最近兴起的数据交易所以及在欧美已经广泛使用的交易平台,如 BDEX(美国)、Streamr(瑞士)、DAWEX(法国)和 CARUSO 等等。
当数据开始进行产权界定、流动交易、收益分配和治理时,它们的系统和场景就不仅仅是赋能企业自身的决策和业务发展。这些系统和场景要么需要借助区块链技术,要么强烈依赖政策监管。
Web3 是数据要素市场的天然土壤,它从技术上杜绝了作弊的可能性,能够大大减轻监管压力,让数据作为真正的生产要素存在,并进行市场化配置。
在 Web3 语境下,数据利用的新范式包括承载流动数据要素的市场系统和管理公共数据要素的公共系统。它们涵盖了三个新的数据业务场景:产权数据开发整合、可组合初始数据层和公共数据挖掘。
这些场景有的与传统数据基础设施紧密结合,属于 Web3 混合数据基础设施架构;有的则脱离传统架构,完全由 Web3 原生的新技术支持。
数据经济市场是配置数据要素的关键,其包括产品数据的开发和整合和具备可组合性的初始数据层市场。在高效合规的数据经济市场中, 以下几点十分重要 :
以上原则是监管部门考虑数据经济的基本原则。在产权数据开发整合、可组合初始数据层和公共数据挖掘三种场景下,可以以这些原则为基础进行思考。我们需要怎样的基础设施作为支撑?这些基础设施能够在哪些阶段捕获什么样的价值?
注:橙色是 Web2 与 Web3 交叉的单元
在产权数据开发过程中,需要建立分类分级确权授权机制,以确定公共数据、企业数据和个人数据的所有权、使用权和经营权。根据数据来源和生成特征,通过“数据适配”的方式对数据进行产权界定。其中,典型的项目包括 Navigate、Streamr Network 和 KYVE 等。这些项目通过技术手段实现数据质量标准化、数据采集和接口标准化,将链下数据以某种形式确权,并通过智能合约或内部逻辑系统进行数据分类分级授权。
个人数据要求数据处理者按照个人授权范围依法依规采集、持有、托管和使用数据。使用创新技术手段,推动个人信息匿名化处理,保障使用个人信息数据时的信息安全和个人隐私。探索由受托者代表个人利益,监督市场主体对个人信息数据进行采集、加工、使用的机制。对涉及国家安全的特殊个人信息数据,可依法依规授权有关单位使用。
注:橙色是 Web2 与 Web3 交叉的单元
可组合初始数据层是数据经济市场的重要组成部分。与一般的产权数据不同的是,这部分数据最明显的特征是需要通过“数据模式管理”定义数据的标准格式。与“数据适配”的质量、采集和接口标准化不同的是,这里强调的是数据模式的标准化,包括标准的数据格式和标准的数据模型。Ceramic 和 Lens 是这一领域的先行者,他们分别保障了链下(去中心化存储)和链上数据的标准模式,从而使得数据具有可组合性。
搭建在这些数据模式管理工具之上的是可组合初始数据层,通常称为“data layer”,如 Cyberconnect、KNN3 等。
可组合初始数据层较少涉及到 Web2 的技术栈,但以 Ceramic 为主的热数据读取工具打破了这一点,这将是非常关键的突破。很多类似的数据无需存储在区块链上,也很难存储在区块链上,但它们需要存储在去中心化的网络之上,例如用户的发帖、点赞和评论等高频低价值密度数据,Ceramic 为这一类数据提供了存储范式。
可组合的初始数据是新时代创新的关键场景,也是数据霸权与数据垄断终结的重要标志。它 能够解决 初创企业在数据方面的冷启动问题,组合成熟数据集和新数据集,从而使初创企业能够更快地建立数据竞争优势。同时让初创企业专注于增量数据价值和数据新鲜度,从而为自身的创新想法赢得持续的竞争力。这样,大量的数据将不会成为大公司的护城河。
注:橙色是多类别交叉的单元
公共数据挖掘并不是一个新的应用场景,但是在 Web3 技术栈中,它得到了前所未有的突出强调。
传统的公共数据包括党政机关、企事业单位依法履职或提供公共服务过程中产生的公共数据。监管机构鼓励在保护个人隐私和确保公共安全的前提下,按照“原始数据不出域、数据可用不可见”的要求,以模型、核验等产品和服务等形式向社会提供该类数据。它们采用的是传统技术栈(蓝色和部分橙色,橙色代表多个类型技术栈交叉,下同)。
在 Web3 中,区块链上的交易数据以及活动数据则是另一类公共数据,其特征是“可用且可见”,因此缺乏数据隐私、数据安全以及数据使用的确认授权能力,是真正的“公共物品”(Public Goods)。它们采用的是以区块链和智能合约为核心的技术栈(黄色和部分橙色)。
而在去中心化存储上的数据则大多是除交易以外的 Web3 应用数据,目前主要是以文件和对象存储为主,相应的技术栈仍不成熟(绿色和部分橙色)。这类公共数据的生产和挖掘利用存储的普遍问题包括冷热存储、索引、状态同步、权限管理和计算等等。
该场景涌现了诸多数据应用,它们不属于数据基础设施,更多是数据工具,包括 Nansen、Dune、NFTScan、0xScope 等等。
案例:数据交易所
数据交易所是指以数据为商品进行交易的平台。它们可以根据交易对象、定价机制、质量保证等方面进行分类和比较。DataStreamX、Dawex、Ocean Protocol 是市场上几个典型的数据交易所。
Ocean Protocol (2亿市值)是一个开源的协议,旨在让企业和个人能够交换和变现数据和基于数据的服务。该协议基于以太坊区块链,使用“数据代币”(datatokens)来控制对数据集的访问。数据代币是一种特殊的 ERC20 代币,可代表一个数据集或一个数据服务的所有权或使用权。用户可以通过购买或赚取数据通证来获取所需的信息。
Ocean Protocol 的技术架构主要包括以下几个部分:
来源:Ocean Protocol
数据提供者创建的“数据服务”包括数据、算法、计算、存储、分析和策展。这些组件与服务的执行协议(如服务等级协议)、安全计算、访问控制和许可绑定在一起。本质上,这是通过智能合约来控制一个“云服务套件”的访问权限。
来源:Ocean Protocol
其优点是,
开源、灵活和可扩展的协议有助于组织和个人创建自己独特的数据生态系统。
基于区块链技术的去中心化网络层,可以保证数据交易过程中的安全、可信和透明,同时也保护了提供者和消费者的隐私和权益。
开放、透明和公平的数据市场,可以连接全球范围内的提供者和消费者,并提供多种类型和领域的数据通证。
Ocean Protocol 是混合架构的典型代表。其数据可以存储在不同的地方,包括传统的云存储服务、去中心化的存储网络,或者数据提供者自己的服务器。该协议通过数据代币(datatokens)和数据非同质化代币(data NFTs)来标识和管理数据的所有权和访问权限。此外,该协议还提供了计算到数据(compute-to-data)的功能,使得数据消费者可以在不暴露原始数据的情况下对数据进行分析和处理。
来源:Ocean Protocol
固然 Ocean Protocol 是市面上现阶段最为完善的数据交易平台之一,但它仍然面临着诸多挑战:
案例:数据模型市场
Ceramic 在其数据宇宙中提到了他们要打造的开放数据模型市场,因为数据需要互操作性,它能够极大地促进生产力的提升。这样的数据模式市场是通过对数据模型的紧急共识实现的,就类似于以太坊中的 ERC 合约标准,开发人员可以从中选择作为功能模板,从而拥有一个符合该数据模型的所有数据的应用程序。目前这个阶段,这样的市场并不是一个交易市场。
关于数据模型,一个简单的例子是,在去中心化社交网络当中,数据模型可以简化为 4 个参数,分别是:
那么数据模型如何在 Ceramic 上进行创建、共享和重用,从而实现跨应用程序数据互操作性呢?
Ceramic 提供了一个数据模型注册表(DataModels Registry),这是一个开源的、社区共建的、用于 Ceramic 的可重用应用程序数据模型的存储库。在这里,开发人员可以在其中公开注册、发现和重用现有数据模型——这是构建在共享数据模型上的客户操作应用程序的基础。目前,它基于 Github 存储,未来它将分散在 Ceramic 上。
添加到注册表的所有数据模型都会自动发布到 @datamodels 的 npm 插件包下面。任何开发人员都可以使用 @datamodels/model-name 安装一个或多个数据模型,使这些模型可用于在运行时使用任何 IDX 客户端存储或检索数据,包括 DID DataStore 或 Self.ID。
此外,Ceramic 还基于 Github 搭建了一个DataModels 论坛 ,数据模型注册表中的每个模型在该论坛上都有自己的讨论线程,社区可以通过它来评论和讨论。同时,这里还可以供开发人员发布关于数据模型的想法,从而在将其添加到注册表之前征求社区的意见。目前一切都在早期阶段,注册表中的数据模型并不多,收纳进入注册表中的数据模型应当通过社区的评定称为 CIP 标准,就像以太坊的智能合约标准一样,这为数据提供了可组合性。
案例:去中心化数据仓库
Space and Time 是第一个连接链上和链下数据以支持新一代智能合约用例的去中心化数据仓库。Space and Time (SxT) 拥有业内最成熟的区块链索引服务,SxT 数据仓库还采用了一种名为 Proof of SQL™ 的新型密码学来生成可验证的防篡改结果,允许开发人员以简单的 SQL 格式加入无需信任的链上和链下数据,并将结果直接加载到智能合约中,以完全防篡改和区块链锚定的方式为亚秒级查询和企业级分析提供支持。
Space and Time 是两层网络,由验证器层和数据仓库组成。SxT 平台的成功取决于验证器和数据仓库的无缝交互,以促进对链上和链下数据的简单和安全查询。
数据仓库由数据库网络和计算集群组成,这些网络由 space and time 验证器控制并路由到它们。Space and time 采用了一种非常灵活的仓储解决方案:HTAP(Hybrid transactional/analytic processing)。
Validator 监视、命令和验证这些集群提供的服务,然后编排最终用户和数据仓库集群之间的数据流和查询。Validator 为数据进入系统(例如区块链索引)和数据退出系统(例如智能合约)提供了一种手段。
Space and Time 作为一个平台是世界上第一个分散的数据结构,它开启了一个强大但服务不足的市场:数据共享。在 Space and Time 平台内,公司可以自由共享数据,并且可以使用智能合约对共享的数据进行交易。此外,数据集可以通过SQL 证明以聚合方式货币化,而无需让消费者访问原始数据。数据消费者可以相信聚合是准确的,而无需看到数据本身,因此数据提供者不再必须是数据消费者。正是出于这个原因,SQL 证明和数据结构架构的结合有可能使数据操作民主化,因为任何人都可以在摄取、转换和服务数据集方面做出贡献。
目前,Web3 数据基础设施架构中缺乏一个实用且高效的数据治理架构。然而,一个实用且高效的数据治理基础设施对于配置各参与方相关权益的数据要素至关重要。
目前 Web3 数据治理能力单一,往往只能通过控制私钥来控制资产和数据(包括 Ceramic),分级分类配置能力几乎没有。最近,Tableland、FEVM 以及 Greenfield 的创新机制,在一定程度上可以实现数据的去信任化治理。传统的数据治理工具如 Collibra 一般只能用于企业内部,只具备平台级的信任,同时非去中心化的技术也使得其无法防止个人作恶及单点故障。通过 Tableland 等数据治理工具,可以保障数据流通过程所需的安全保障技术、标准和方案。
案例:Tableland
Tableland Network 是一种用于结构化关系数据的分散式 web3 协议,从以太坊 (EVM) 和与 EVM 兼容的 L2 开始。借助 Tableland,现在可以通过利用区块链层进行访问控制来实现传统的 web2 关系数据库功能。但是,Tableland 并不是一个新的数据库——它只是 web3 原生的关系表。
Tableland 提供了一种新方法,使 dapp 能够将关系数据存储在 web3-native 网络中,而无需进行这些权衡。
解决方案
使用 Tableland,元数据可以变更(如果需要,使用访问控制)、查询(使用熟悉的 SQL)和可组合(与 Tableland 上的其他表)——所有这些都以完全去中心化的方式进行。
Tableland 将传统的关系数据库分解为两个主要组件:具有访问控制逻辑 (ACL) 的链上注册表和链下(去中心化)表。 Tableland 中的每个表最初都是作为 ERC721 令牌在基本 EVM 兼容层上铸造的。因此,链上的表所有者可以为表设置 ACL 权限,而链下 Tableland 网络管理表本身的创建和后续变更。链上和链下之间的链接都是在合约级别处理的,它只是指向 Tableland 网络(使用 baseURI + tokenURI,很像许多使用 IPFS 网关或托管服务器作为元数据的现有 ERC721 代币)。
只有具有适当链上权限的人才能写入特定表。但是,表读取不一定是链上操作,可以使用 Tableland 网关;因此,读取查询是免费的,可以来自简单的前端请求,甚至可以来自其他非 EVM 区块链。现在,为了使用 Tableland,必须首先创建一个表(即,作为 ERC721 在链上铸造)。部署地址最初设置为表所有者,并且此所有者可以为任何其他尝试与表交互进行变更的用户设置权限。例如,所有者可以设置规则,谁可以更新/插入/删除值,他们可以更改哪些数据,甚至决定他们是否愿意转让所有权表的另一方。此外,更复杂的查询可以连接来自多个表(拥有或非拥有)的数据,以创建一个完全动态且可组合的关系数据层。
考虑下图,它概括了新用户与已由某些 dapp 部署到 Tableland 的表的交互:
以下是整体信息流:
1. 新用户与 dapp 的 UI 交互并尝试更新存储在 Tableland 表中的一些信息。
2. dapp 调用 Tableland 注册智能合约来运行这个 SQL 语句,并且这个合约检查 dapp 的智能合约,其中包含定义这个新用户的权限的自定义 ACL。有几点需要注意:
3. Tableland 智能合约获取该用户的 SQL 语句和权限,并将这些合并到发出的事件中,这些事件描述了要采取的基于 SQL 的操作。
4. Tableland Validator 节点侦听这些事件并随后采取以下操作之一:
5. dapp 将能够通过网关反映 Tableland 网络上发生的任何更新。
(使用场景)避免什么
不同单元在整个数据基础设施架构当中都有不可替代的作用,价值其价值捕获主要体现在市值/估值以及预估收益上,可以获得以下结论:
简单的来说,在整个结构图的左边的公司/项目,其价值捕获倾向于更大。
据不完全的统计分析,行业集中度有以下判断:
数据源、分析和输出行业集中度较低,初步判断是不同的业务场景导致在每个业务场景中都能够有垂直场景的龙头出现,如数据库领域的 Oracle、第三方服务的 Stripe、企业服务的 Salesforce、仪表盘分析的 Tableau 以及嵌入式分析的 Sisense 等等。
而行业集中度中等的数据抽取和转换模块,初步判断其原因是因为业务属性的技术导向性。模块化的中间件形式也使得切换成本相对较低。
行业集中度最高的数据存储以及数据查询和处理模块,初步判断是由于业务场景单一、技术含量高、启动成本高且后续切换具有较大成本,使得公司/项目的先发优势较强,且具备网络效应。
从成立时间和上市来看,
而分析输出类项目,不论在哪个时期都是创业项目的机会。但也是在不断迭代创新,基于新的场景做新的事情,2010年以前出现的 Tableau 占据了桌面式仪表盘分析工具的大部分江山,随后出现的新型场景有如更加专业导向的 DS/ML 工具、更加综合导向的数据工作站以及更加 SaaS 导向的嵌入式分析等等。
从这个视角来看 Web3 目前的数据协议:
但 Web3 不是 Web2 的翻版,也不完全是 Web2 的进化。Web3 有非常原生的使命和场景,从而诞生了和以前完全不一样业务场景(前面三种场景是目前能够作出来的全部的抽象)。
声明:本内容为作者独立观点,不代表 CoinVoice 立场,且不构成投资建议,请谨慎对待,如需报道或加入交流群,请联系微信:VOICE-V。
简介:专注区块链发声
评论0条