早前,PAData联合专注于区块链交易的一站式数据服务平台Chain.info起底全球BTC交易市场中主流交易所的钱包,从400万余个钱包的余额变化和钱包间资金流转情况观察第三季度交易所的竞争格局。点击阅读《400万个钱包揭示BTC资金网络 三大所谁在失守存量市场?》 

根据PAData的分析,交易所的交易业务共涉及三类钱包,分别是充提钱包、热钱包和冷钱包,其中充提钱包的数量占比达到99.9%。而且不同交易所三类钱包的特征差异也反映出各交易所资金流转的不同风格。 

从钱包余额可以看出交易所的真实市场份额,今年第三季度,BTC余额最多的交易所是Huobi,三类钱包共存有29.6万枚,其次是Binance,共有24.1万枚。而Huobi则以第三季度总共超过5万的净流入进一步巩固了其在BTC交易市场中的地位。 

交易所间的转账还钩织了一张资金网,其本质是交易所间存量博弈的竞争现状。从统计来看,Binance、Bitstamp、OKEX和Huobi之间的资金流转十分活跃。其中,OKEX和Huobi之间的资金互动最活跃,但Binance流失了10.4万枚BTC到其他交易所。 

那么作为一切分析的基础——交易所钱包是如何挖掘出来的呢?PAData专访了数据合作伙伴Chain.info的技术负责人李祯,详解交易所钱包背后的挖掘逻辑。 

0 (1).jpeg


以下是访谈实录:


PAData:交易所的充提钱包是什么?有什么特征?


Chain.info李祯:用户在交易所开设了一个账户以后,交易所会给用户提供一个充币地址。现在主流交易所为用户提供的充币地址一般是不可更换的,也就是一个用户对应一个充币地址,除非交易所大面积统一更换。这类地址占比大概是交易所的地址总数的99.9%以上。 

PAData:1个交易所的充币地址代表1个用户,那是不是可以从交易所的充提钱包数量来看这个交易所的实际用户规模有多大?


Chain.info李祯:可以这么看,但是也不能完全这么理解。存在两种情况使得实际用户规模与充提钱包数量不等,一种开户后充过一次币,之后再也不使用了,那这就不好确认是否还是实际用户(实际活跃的用户),另一种是以某种方式绕过KYC开户,那么一个实际用户可能对应多个充提钱包。 

PAData:交易所的热钱包是什么?有什么特征?


Chain.info李祯:热钱包是属于交易所的联网钱包,主要作用是负责普通充币地址和冷钱包之间的资金流通以及用户提币。热钱包占比极小,大致数量也就是10到30之间,但是它的交易数极大。 

PAData:交易所的冷钱包是什么?有什么特征?


Chain.info李祯:冷钱包是交易所的离线钱包,交易所会将大部分的资产存储在冷钱包中。冷钱包只与热钱包进行资金流通,具有交易总数较小,单次交易总额比较大的特点。 

PAData:用户在交易所中的交易,体现在交易所钱包层面上,比特币是如何流转的?

Chain.info李祯:用户在交易所发生的一切交易行为都是在交易所的数据库里发生的,这是无法被监控到的,因为这些数据是交易所握有的。 但是用户的一些行为也会跟交易所产生一定的关系。比如说在充值的时候,用户和交易所的充值地址发生了一次联系,然后在提币的时候,用户会从交易所的热钱包或者其他的充币地址拿到一笔钱。比如说你想提0.1个比特币,刚好有一个用户的账户里有0.2个币的话,就可能从这个充值地址里面就直接提给你。 

比特币就是这样流入或流出交易所的。但用户的币不一定会流入热钱包或冷钱包。 

0.jpeg

PAData:根据BTC的UTXO模型,如何判断一笔交易涉及的多个地址的归属?


Chain.info李祯:BTC的交易使用UTXO(Unspent Transaction Output)模型,每一个UTXO属于一个地址,一个地址可以包含多个UTXO,每一个UTXO是不可拆分的。在交易时,发起交易的用户使用自己的UTXO作为交易输入,构造新的UTXO作为交易输出,这意味着输入侧的地址通常属于同一个主体。 所以我们先考虑输入一侧的地址,根据比特币构建交易的方式可知,出现在输入侧的地址属于同一个主体。这就是钱包地址挖掘的第一步——纵向挖掘。 

PAData:在纵向挖掘逻辑下,是否可能存在特殊情况,即输入侧的地址由多个主体拥有?


Chain.info李祯:确实存在一种小概率的情况,这种情况在比特币交易里面称为“混币”,指一笔交易里面含有多个主体的地址。但是这里我们基本可以忽略这种情况,原因在于,混币操作对交易所来说没有什么意义,一是容易造成一些安全问题,另外,我们对所有交易所的地址进行了一次分析,发现并没有两个交易所的地址出现在同一笔交易的输入一侧。 

PAData:除了纵向挖掘以外,还有哪几种挖掘逻辑?

Chain.info李祯:还有前向挖掘和后向挖掘两种。 

前向挖掘是在纵向挖掘基础上对输出侧地址做判断的过程,判断逻辑是基于普通转账的找零交易形态。在前向挖掘中,被挖掘地址必须出现在输入一侧,且输入侧地址数不为二,输出侧地址数一定为二。其中,有一个输出地址的BTC值拥有4位以上小数时,那么这个地址和输入方一样属于同一个主体,这个地址就是找零地址。 

前向挖掘中输入一侧通常都是交易所的冷钱包,然后输出一侧有一个地址是交易所的热钱包,然后剩下的地址才是交易所新的冷钱包。这个特性是我们先整理了很多交易所的交易数据后提炼出来的。 

与前向挖掘相对的是后向挖掘。在后向挖掘中,被挖掘地址必须出现在输出一侧,且输入侧地址数为一,输出侧地址数一定为二。根据钱包的不同特征可以判断输出侧的被挖掘地址是热钱包地址,且在该笔交易中发送给热钱包地址的金额一定要大于100个BTC,那么符合条件的交易中的三个地址属于同一个主体,并且输入侧的地址可能是冷钱包地址。 

PAData:这三个挖掘方法之间有顺序吗?


Chain.info李祯:先进行纵向挖掘,把交易所的地址信息先尽量都挖到,然后再通过钱包特征或其他的方式分析出热钱包,我们首先确定它是热钱包了,然后才能进行后向挖掘去找冷钱包。总的来说会按照纵向挖掘——前向挖掘——后向挖掘的顺序进行。 

PAData:通过这些挖掘方法,最先挖掘到的是哪类钱包呢?


Chain.info李祯:最先挖到的是充提钱包。其实第一个充值钱包就是我们随便找一个交易所,然后注册成为用户,这样就会有一个充值地址了。然后我们就往里面可以放一些钱进去,这时候就可以看到这个钱的流动,顺着就能找到热钱包和冷钱包。 

PAData:假如在一个标签都没有的情况下,可以怎么样来判断交易所比特币的流转呢?


Chain.info李祯:这样的话就比较难了,但是还是可以追踪的,比如说我们现在也在监控大额的交易,现在链上如果出现了大额交易的话,我们会对他们的地址进行溯源,去追踪发现一些交易所。我们现在已经找到了几个这样的交易所,而且体量还不小,但是我们不知道他们他们是谁。 

PAData:Coinbase也是头部的比特币交易所之一,为什么没有此次数据挖掘没有覆盖到Coinbase的钱包数据?


Chain.info李祯:Coinbase的热钱包很有意思,它不像其他的交易所热钱包,是一个固定的或者几个固定的,Coinbase的热钱包是一次性使用的。所以这个是我们现在正在攻克的主要方向。