在上篇行业研究报告《如果从用户画像实现角度看数据隐私问题,是怎样的?| 万向区块链行业研究》中,我们从用户画像实现角度探讨了数据隐私的问题。在本篇研究报告中,作者将从不同的网络范式出发,探讨分析用户数据隐私该如何保护。

作者:万向区块链首席经济学家办公室 王普玉

审核:万向区块链首席经济学家 邹传伟

在经历了以“门户网站”为代表的Web 1.0和以“社交平台”为代表的Web 2.0之后,互联网商业及技术的迭代,让用户逐渐习惯了从网络上免费获取各类资源和数据,当平台出现一些付费产品,用户仍倾向于寻找其他的免费渠道。互联网市场为什么会提供免费产品和服务?市场上是否真的存在一批热心的“慈善家”为用户提供免费的网络“午餐”?平台通过免费产品或服务吸引用户,然后收集了大量与平台无关的用户身份数据及行为数据,再通过转让、精准用户画像、广告等渠道将用户数据变现(如图1所示),而这种变现模式为平台带来的收益远高于依靠“资源订阅模式”所获取的收益。

图1:用户数据流通(资料来源:作者自绘)

在以牺牲个人数据换取免费网络资源的大背景下,一批有志之士开始了对互联网平台的反抗,包括万维网之父Tim Berners-Lee、以太坊共同创始人 Gavin Wood等人提出了以保护用户隐私为目标的新一代互联网Web 3.0,在万向区块链研报总第230期《Web3架构雏形及其中间件》中详细介绍了三种类型Web 3.0,分别是:注重隐私保护的语义Web 3.0、注重隐私和数据所有权及控制权的公链Web 3.0,以及将Web 3.0描述为空间网的Web 3.0(元宇宙)。

数据隐私保护介绍

数据的隐私保护具体指的是什么?在万向区块链研报总第173期《从用户画像实现看数据隐私问题》,我们将用户画像数据分为两类,一类是用户的身份数据;还有一类是与用户身份数据关联的行为数据,包括时间、地点和事件等。当下市场的主流观点认为:只要可以切断用户身份数据与行为数据之间的关联,就能够有效地保护用户隐私。围绕该方向,市场上涌现出两类解决方案:一类是基于Web 2.0的发展问题而出现的用户隐私保护方案,主要参与者包括手机厂商和所有的互联网平台;另一类是应用各种分布式技术及隐私技术提出的Web3.0用户数据隐私保护方案。下面我们详细对比下两种思路。

(一)Web 2.0用户数据隐私保护

Web 2.0阶段,迫于各国政府部门对互联网数据的监管压力,用户数据隐私管理才逐渐被互联网平台重视,在万向区块链研报总第215期《2021年行业回顾:监管篇》,我们详细罗列了包括欧盟和中国颁布的个人数据保护法案及要点,法案对平台处理个人信息的规则、个人权利、义务和责任等做出详细规定,其中明确要求平台在处理个人信息前,需取得个人同意并以此保护个人的数据隐私。

两类参与者—手机厂商和互联网平台,分别从不同出发点提出了两种完全不同的用户数据隐私解决方案。

1、手机厂商提出的用户隐私解决方案

IMEI码(国际移动设备标识码)如同每台手机的身份证,每个IMEI码都是独一无二的,如图2所示,即使用户在不输入账户名和密码的情况下,互联网平台也能够通过设备的IMEI码关联到具体的用户身份。为了防止互联网平台过度采集用户的行为数据,手机厂商开发了OAID(匿名设备标识符)技术,在互联网平台读取设备IMEI码时,设备会提供一个虚拟ID来替代IMEI码,且每次提供的ID都是随机的,让互联网平台无法关联到具体的用户身份。

图2:应用数据采集过程(资料来源:作者自绘)

上述方法在用户不输入账户名和密码的情况下起到个人数据隐私保护作用,一旦用户登录个人账户,就等于将身份数据告知应用平台,OAID技术的功能也就此失效。由于早期手机厂商对数据管理不够重视,用户在下载互联网应用后会被默认开启对所有数据的访问权限,这导致互联网平台肆无忌惮的采集了大量与业务无关的用户数据。在这种情况下,手机厂商为了保证设备的隐私安全性,增加了互联网平台数据使用的强提醒功能并让用户对数据的使用进行授权。以相册数据的使用为例,如图3所示,苹果手机的相册数据授权分为三种模式,分别为所有照片、选中的照片和无,该授权让用户对照片数据拥有了更加细颗粒度的管理能力,尤其是 “选中的照片”功能,让互联网平台只能采集到用户希望展示的照片,从本地段对数据采集的范围进行了限制。

图3:苹果手机个人数据管理授权(资料来源:苹果手机截图)

2、平台提出的用户隐私解决方案

相较于手机厂商的主动式保护,互联网平台则是迫于各种数据保护法案的压力,被动的提出了用户隐私保护方案,被动的原因不难理解,从2021年财报中可以发现,广告收益是各互联网平台发展中非常重要的一部分,如图4所示,2021年拼多多、微博的广告收益占比总收入80%以上,快手、百度超过50%。广告价值的核心源于数据,如果互联网平台开始主动实施用户数据的隐私保护,就意味着愿意放弃现有的商业模式,这与互联网平台的经济模式背道而驰。

图4:2021年各互联网公司广告收入占比(资料来源:各公司财报)

互联网平台所提出的用户隐私保护方案,仅仅是为了迎合相关法律法规的监管要求,在《中华人民共和国个人信息保护法》实施后,如图5所示,各大平台纷纷增加或调整了个人隐私设置界面,并对用户数据收集类型、使用范围、使用方式等做出详细说明,让用户对个人数据的使用有更多地选择权。

图5:微信、抖音、知乎的应用设置界面

(资料来源:微信、抖音、知乎应用设置界面截图)

3、小结

手机厂商对用户数据的隐私保护与其经济模式相关,即通过提升手机的销量来增加收益,而设备的隐私安全性能对销量会产生极大影响,因此不难理解为什么手机厂商会致力于开发OAID技术和各种数据授权功能来提升用户数据的隐私保护。相较于手机厂商,互联网平台提出的用户隐私保护方案仅为了满足监管合规要求,与他们的经济模式无关,甚至背道而驰,这也不难解释为什么互联网平台对用户隐私的解决方案是被动的,当下所提出的隐私保护仅是对数据使用的一些说明,而缺少一些主动地保护措施,当用户的数据被采集后是否被用于画像,是否被交易等,用户仍然无从得知,究其原因是用户数据被存储在互联网平台的中心化服务器里,用户缺少对中心化服务器的控制权。

Web 3.0用户身份隐私保护方案

Web 2.0背景下,用户数据的隐私和安全假设是基于对平台的信任和对政府部门监管的信任,但用户仍然缺少对个人数据的控制权。为解决该问题,Web 3.0背景下提出的用户数据隐私保护方案,都是围绕着对个人数据的控制权进行构思。

图6:用户登录方式对比(资料来源:James Beck)

如图6所示,在Web 1.0阶段,用户使用用户名和密码登录账户;当进入Web 2.0阶段,用户无需再为记录账号及密码发愁,也无需因重复输入身份信息而烦恼,只需要点击“Sign in with”或“Continue with”授权Twitter、Google、Facebook等应用的账户信息,让身份数据通过API、SDK被其他应用抓取或读取,在没有输入账户名和密码的情况下完成用户身份的验证。这种方式虽然提升了用户体验,但换之而来的是Twitter、Google等互联网巨头采集到更多的用户行为数据。无论Web 1.0还是Web 2.0,用户数据都存储在中心化服务器里,用户缺少控制权。

为了解决控制权的问题,基于W3C提出的分布式身份标识符DID,通过一个字符串替代明文的个人身份信息,与字符串映射的行为数据均存储在用户可控的服务器中。围绕DID的核心理念,当前有两种身份隐私解决方案:第一种以uPort为代表的分布式应用DApp,用一串代理合约地址代替身份信息的标识符(如图7所示),其他平台可以通过识别代理合约地址来完成身份验证,以此取代Twitter、Google等中心化应用的授权并掌握数据的控制权;第二种是在不同时间、不同平台、不同目的生成不同的标识符(如图8所示),再将数据存储到支持该协议的身份钱包,以此掌握个人数据的控制权。

图7:身份标识符与DApp一对一映射(资源来源:作者自绘)

图8:身份标识符与DApp多对一映射(资源来源:作者自绘)

(一)身份标识符与DApp一对一的用户隐私解决方案

我们以Consensys在2017年推出的uPort为例介绍,与“Sign in with Twitter”及“Continue with Facebook”功能类似,如图9所示,uPort也提供了“Continue with uPort”功能,让用户能够对其他平台进行身份验证以及无密登录。

图9:uPort登录授权(资料来源:应用界面截图)

与中心化平台的区别在于,uPort是一款用户可控且独立的分布式身份服务平台,技术层面实现两方面功能:第一,用户对uPort的身份数据有直接的控制权,即用户可以自行决定展示什么信息给第三方平台;第二,身份相关数据存储在用户有控制权的服务器,即用户能决定存储哪些数据,存储多长时间以及谁能阅读这些数据。

首先是数据的控制权,和前面介绍的苹果手机权限设置一样,用户在uPort中可以管理及控制个人数据,与传统App不同的是,DApp只是一个便于用户连接数据存储服务器的工具,即使uPort的DApp不再提供服务,它也带不走用户的数据,用户依然可以使用助记词或密钥通过其他工具(如Metamask或Imtoken等分布式应用)找回数据,这个过程中最关键的点在于数据需要存储在用户可控的地址。在用户身份验证过程中,只要Twitter、Facebook等中心化平台支持uPort,即可通过uPort授权并在加密环境下完成身份验证。这个过程中,互联网平台只能得到一个代理合约地址(一个代理合约地址相当于一个分布式身份标识符),而无从得知其他具体的验证信息。

前面提到Web 2.0用户没有个人数据的控制权,主要原因在于用户数据存储在中心化服务器中,就此问题,Web 3.0的数据存储方式有两种解决方案,以创作平台Mirror为例,第一种存储方式是分布式存储方案,文件大小在1M以下的会通过Arweave实现永久存储,数据被分片且加密存储在分布式服务器中,仅持有Arweave链上私钥的用户才能拿到完整数据,其他人员均无法获得;出于成本考虑,对于1M以上(如视频或图片等)的文件会使用第二种方式,存储在Mirror定向的一个中心化服务器中,这种方式无法保证数据的隐私及安全,只要Mirror停止对中心化服务器的维护,所有的用户数据也将随之而丢失。需要解释的是,Mirror为什么提出两种存储方案?原因在于当前所有的数据存储所产生的费用都是由Mirror暂时补贴,如果用户希望将1M以上的文件也通过Arweave存储,就需要自己支付一定的成本。

上述内容是用户通过拿回数据控制权解决数据隐私问题,但它并不是绝对的,uPort让用户得到了数据控制权,但在一定程度上可能仍无法保护数据的隐私。通常uPort对应的每个身份标识符(代理合约地址)是唯一的,如果链上大量数据关联到该代理地址,通过一些第三方工具(如巨鲸分析)仍然可以判断用户的身份,无法真正切断用户身份与行为数据的关联。为解决该问题,在公链上,Aztec的zk.money放弃了以太坊账户体系,转为UTXO体系使用零知识证明,通过票据记账形式完成所有权变更,让第三方无法追踪具体的地址。除零知识证明以外,如以太坊混币器tornado.cash,利用智能合约作为交易过程中的黑盒,来打破发送者和接受者的联系,第三方也无法追踪到具体的地址。无论是零知识证明还是混币器,都能够有效解决链上地址暴露而导致的资产交易数据公开问题,但在实体经济应用中,面对海量且类型丰富的个人身份及行为数据,简单的零知识证明和混币器方法对用户隐私保护的可行性不高,仍需要一套更完整的身份管理方案。

(二)身份标识符与DApp多对一的用户隐私解决方案

在万向区块链行业研究报告《DID:一种全新的身份标识技术》中,我们详细介绍了DID的技术原理,其核心方法在于:不同主体在不同时间、不同应用平台、基于不同目的使用不同的DID标识符来完成身份验证,而与每个DID标识符相关的行为数据都将保存在用户可控的地址下。用Web 2.0的术语来解释,即每次使用不同的用户名和密码登录平台,让平台无法关联到某个具体的用户身份,且所有的数据都保存在客户有控制权的地址服务器中。这种方法能够解决身份标识符与DApp一对一用户隐私解决方案中出现的所有问题,包括通过大量数据对某个唯一地址的用户画像,或者是单个身份标识符的泄露而导致所有数据的泄露问题等。通过身份标识符与DApp的多对一,实现不同身份标识符实现行为数据的隔离,将从另外一个维度解决数据隐私问题。这是市场努力的方向,但仍有很多瓶颈需要解决,包括法律层面的、商业层面的、还有技术层面,在市场已有的各种分布式身份标识符解决方案中,还没有多对一的用户隐私解决方案真正被开发,大多仍然停留在概念阶段。

思考与总结

通过上面内容的对比可以发现,Web 2.0和Web 3.0用户隐私保护最大的区别在于:用户是否对个人数据拥有绝对的控制权?从道德层面看,Web 3.0所推行的数据绝对控制权对大家很有诱惑力,这对于个人数据管理具有里程碑性的意义,能够实现自己的数据自己做主;但从经济和商业角度看,这种数据绝对控制权是否真的有价值?

这种价值可以分为两个层面看,第一个层面是对用户的价值;第二个是个人持有数据与经济发展的价值是否一致?首先我们来讨论对用户的价值,用户隐私保护更多是道德层面的价值,但从商业层面,Web 3.0没有“慈善家”,所有数据隐私保护的解决方案需要有人买单,有多少用户愿意为数据隐私平台的开发成本买单?以及有多少人可以长期承受个人数据的维护成本(包括时间成本和资金成本),例如,当我们在银行或通讯公司办理业务时需要签署合同,有多少客户会花时间仔细阅读合同内容?所以Web 3.0让用户花费时间成本和资金成本来维护个人数据,我们需要提出质疑;此外,习惯了使用免费网络资源的用户,在Web 3.0是否愿意为获取资源而付费?

基于上述问题, Web 3.0的个别项目方也提出一些解决方案,其中包括个人数据交易市场,例如,当用户拿回个人数据的控制权,将数据授权广告商、研究机构和金融机构等使用,能够从中获取在Web 2.0阶段无法得到的收益,用户可以使用这部分收益来支付和弥补工具开发和数据维护的成本,这种方案听起来很理想,但商业逻辑是否能经得起市场的考验?我们需要提出质疑,根本原因在于个体数据对市场的价值到底有多少?这是一个很复杂的问题,暂不在本文讨论。

与上述方案不同的是,数据隐私平台在公链各类项目中备受欢迎,经济模式方面也非常清晰,项目方开发数据隐私平台并通过ICO方式筹集资金,随着数字资产的价值上涨,项目方会获得收益并吸引更多人加入到项目的维护和管理中,但这种模式在很多国家和地区存在监管合规性问题,如果脱离这种模式,又该怎么考虑经济模式,即谁来为隐私平台的开发买单?此外,在数字经济社会中,如何突破中心化平台的抵制?这些问题都需要进一步的解决方案。除了这些问题外,Web 3.0的隐私保护还有以下问题待解决。

(一)如何防止黑客利用隐私技术作恶?

2022年2月20日,黑客利用OpenSea为期一周的智能合约升级间隙,窃取了大量高价值系统的NFT,并通过以太坊隐私交易平台Tornado.cash混币1100ETH,导致OpenSea无法追踪到黑客的交易地址。按照主流资产的地板价计算,黑客至少获利416.6万美元。从该事件我们可以发现,隐私技术能够保护个人隐私,但也为作恶者提供了保护伞。当安全事件发生后,用户也难以通过Web 2.0阶段的安全保障进行维权。

(二)如何满足监管合规要求?

当发生上述黑客攻击事件,该如何保护用户的合法权益及资产安全?KYC(了解你的用户,Know Your Customer)必不可少,该如何进行KYC?谁负责KYC?以什么样的方式进行KYC?在分布式解决方案下,这都需要新的解决思路。但需要防止因为KYC而导致个人数据的泄露,这将会让其他隐私保护技术的努力全部付诸东流。