共识学习:区块链助力AI更上一层楼

Flare research的最新论文介绍了一种新的人工智能(AI)策略,通过与区块链相结合,提升了人工智能的安全性和准确性。

共识学习(CL)可以带来覆盖各种应用的协作式人工智能,推进更准确、更鲁棒的AI模型的开发。CL尤其适合数据敏感行业(如医疗或金融)的AI集成,它能帮助改进决策流程,提高整体运营绩效,进而降低终端消费者的服务成本。这有望显著提升患者护理结果,改善财务分析的准确性,强化欺诈检测水平等等。迄今为止,多数AI和区块链的结合都是通过区块链实现对中心化机器学习(ML)的访问,CL则是利用区块链创建去中心化的AI模型。

动机

近年来,人们愈发重视分布式环境,其中数据和计算资源分布在多个设备上。这一转变是由现代基础模型的需求引发的,包括大型语言模型和计算机视觉模型,它们需要处理大量数据。而在这种分布式但依然中心化的环境中,由于几个关键动机的推动,去中心化逐渐成为了一种基本需求。

中心化方法存在固有风险,因为它依赖于单一受信方,这基本将其使用限制在了单一企业环境中,影响了更广泛的采用。此外,此类架构不仅面临更高的潜在攻击或系统故障风险,也存在数据隐私和安全隐忧。相反,去中心化方法具备明显优势:用户能根据具体需求和偏好开发个性化的本地模型,而中心化方法通常缺乏此类定制所需的灵活性。面对这些限制,共识学习作为一种去中心化的机器学习方案应运而生,它提供了更强的韧性、隐私性和适应性,并减轻了与中心化相关的固有风险。

共识学习的益处

共识协议对于去中心化账本的安全和保护区块链网络免受恶意攻击至关重要。利用共识机制为AI服务好处多多,这里仅强调几点:

  • 提高性能。CL方法受益于每个集合贡献者的数据,它能够减少偏差,增强模型对未见过的数据进行概括的能力。相比中心化方法,CL还能提升人工智能的准确性,这主要得益于区块链的协作激励能力,可以更熟练地整合来自多元模型的多元见解。这一点可通过多个本地聚合器实现,每个参与方会评估并集成邻近模型的预测,以获得更高的准确性。这是展现出AI集成区块链显著优势的首批实例之一。
  • 安全性。当恶意行为者试图引入隐藏目标时,得益于共识机制的内置安全功能,CL模型的完整性将不受影响。这能确保AI系统不会生成故意的有害预测或无意的错误,这两者都是AI受到恶意影响的标志。由此,CL化解了AI社区的一个主要担忧,可保护AI免遭恶意利用。通过维护协作学习过程的完整性,CL能够提升AI系统的可信度和自信度,为负责任且道德合规的 AI 部署创造了条件。
  • 数据隐私。在CL中,网络参与者的底层数据或个体模型任何时候都不会共享。实际上,由于数据仍然存储在本地,网络上没有能破坏数据机密性的恶意攻击。保护隐私不仅能鼓励协作,还能保持竞争力。藉此,CL可通过AI推进数据变现,特别是对于敏感或商业数据,这就克服了此前在中心化环境中的挑战。
  • 完全去中心化。数据和计算资源分布在参与者网络中,它们无需依赖单个中央服务器即可通信。去中心化在现代机器学习应用中的必要性已经日益凸显,因为此类应用需要大量资源,且模型愈发复杂。去中心化机器学习脱颖而出,成为了更合适的保护数据隐私和保障安全的解决方案。
  • 效率。相比其他最先进的去中心化机器学习方法,学习过程延迟降低,需要的计算时间、能量和资源也大大减少。因此CL特别适合实时应用程序,快速决策和高效的资源利用对此类应用至关重要。

工作原理

共识学习通过通信阶段增强集合方法,参与者在这个阶段分享各自的(模型)输出,直到达成共识。CL是一个两阶段过程,实施方式如下:

  • 个体学习阶段。每个网络参与者根据私有数据和其他公开可用数据开发自己的模型。可以从头构建模型,也可以使用大型预训练模型并根据需要进行微调。关键在于参与者永远无需共享有关其数据或模型的敏感信息。训练完成后,参与者将为测试数据集准备初始预测,可以是通过智能合约披露的数据集,也可以是(比如)通过PoS权益证明机制提出的新的测试数据点。
  • 通信阶段。参与者根据共识/gossip协议在网络内传输其初始预测。在交流过程中,参与者不断更新其预测,以反映其他网络参与者的评估以及对自身预测的信心。此外,参与者可以监控网络其余部分的预测的质量,并利用此信息改进决策。此阶段结束时,参与者将基于网络内的可用信息就最佳决策达成一致(共识)。然后,有任何新的数据输入时,此阶段都将重复执行。

共识学习:区块链助力AI更上一层楼

图例说明:CL在二元分类任务中的工作示例。(a) 在第一阶段,参与者根据自己的数据以及其他参与者可能自愿分享的数据,开发自己的模型。此阶段结束时,每个模型为测试数据集的任何输入确定一个初始预测(由空心圆表示)。(b) 在通信阶段,参与者交流和更新其初始预测,最终就单一输出达成共识(由实心圆表示)。有任何新的数据输入时,都会重复此阶段。

严格来讲,上述算法对应的是有监督的机器学习场景。具体来说,即训练数据集已被标记的情况,算法为新的未见过的测试数据的标记做出预测。不过,CL也可应用于自监督或无监督的机器学习问题,其中参与者只能访问部分或完全未标记的数据。这些方法的目标略有不同,需要参与者在个体学习阶段采用不同的技术。但通信阶段的进行方式仍与以上描述类似。

共识学习的独特之处

CL的理念是有效结合多个来源的知识(以AI模型的形式),而不共享任何敏感或有价值的信息或知识产权。这种方法旨在保护机密信息,同时确保抵御恶意实体带来的潜在风险。CL建立在非常成功的集合学习(ensemble learning)范式之上,该范式提供了将多个模型合并为单一模型的强大技术。集合方法依赖于“群体智慧”原则,利用群体的集体知识超越一切个体成员的知识。

近年来已经出现了一些区块链加持的AI服务,展现了集成人工智能与去中心化网络的创新方法。例如,Bittensor通过一种博弈论机制对“矿工”的预测进行加权,从而在其特定领域的子网中促进AI推断(模型输出)。FLock.io提供了一个联邦学习(一种不同的分布式学习方式)平台,但采用了一个中心化聚合器,利用区块链来验证模型更新并奖励参与者。另一个例子Ritual通过其Infernet协议基本运营了一个机器学习模型市场,它会将运行特定模型的请求发送给模型所有者。

CL的特别之处就是采用了独特的聚合方法,其中个体模型的预测会通过安全的gossip协议来达成共识。由此,CL利用区块链创建了去中心化AI模型,而现有的部署是通过区块链来访问中心化机器学习。重点是通过协作提升AI的准确性和安全性,允许拥有私有且通常敏感的数据的实体加入系统,同时保障其数据的机密性。

总结

共识学习提供了一个突破性机会,可以直接在区块链等去中心化账本上部署机器学习。这一倡议带来了一种全新方法,藉此,区块链技术可以从根本上改进现有的AI工具。这为在传统上对数据敏感的行业(如医疗)进行创新和安全协作开辟了令人兴奋的可能性,为协作式机器学习技术的推广奠定了基础。此外,CL方法面对恶意行为时的韧性增进了人们对AI系统的信任,增强了AI系统的可靠性和完整性。