科普| 哈希函數的過去、現在與未來

PA荐读｜2020-06-20 15:58

好的哈希函數的設計目標是讓攻擊者極難找到方法來找出對應同一個哈希的不同輸入。

哈希值和哈希函數的概念是初次入門區塊鏈的人常聽到的兩個關鍵詞，而且似乎對安全性來說特別關鍵。（實際上也確實是。）對於像比特幣和以太坊這樣由成千上萬的節點通過P2P 方法組成的去中心化網絡來說，“免信任性” 和驗證效率無疑是關鍵。也就是說，這些系統需要找到方法把信息編碼成緊湊的形式，同時讓參與者能夠安全快速地進行驗證。

比特幣和以太坊網絡所處理的主要內容叫做“區塊”，指的是由交易、時間戳和其他重要元數據所組成的數據結構。比特幣和以太坊網絡的安全性的關鍵一環是：它能將表達網絡全局狀態的大塊信息壓縮成一個簡短的消息。在有需要之時，我們可以高效地驗證這個消息的真實性。這個過程就是用哈希函數來完成的，而得到的結果（消息）就是哈希值。

- 即使只更改輸入中的一個字符，最後得出的哈希值也會完全不同-

密碼學哈希廣泛應用於口令存儲和文件驗證系統。簡單來說，密碼學哈希函數是一種確定性的算法，不論輸入什麼值，都能得到一個固定長度的字符串。也就是說，同一個輸入值始終對應同一個輸出值。

對哈希函數來說，重要的不僅是確定性（還有結果的隨機性）：即使只更改輸入中的一個比特位，也會導致最終得到的哈希值截然不同。

哈希算法有一個無可迴避的問題叫碰撞可能性。因為哈希值是固定長度的字符串，同一個哈希有可能對應多個輸入。碰撞會造成很嚴重的後果。如果有人能夠按需要發起碰撞攻擊，他就可以用恰當的哈希值將惡意文件或數據偽裝成合法的、能夠通過驗證的文件。好的哈希函數的設計目標是讓攻擊者極難找到方法來找出對應同一個哈希的不同輸入。

哈希計算的效率不應過高，以免讓攻擊者可以更簡單地人為計算出碰撞。哈希算法必須能夠抵禦“原像攻擊（pre-image attack）”。也就是說，對於特定哈希值，攻擊者很難通過確定性計算步驟倒推出輸入值（即，原像）。

假設s = hash(x)，倒推x 應該是近乎不可能的。

總的來說，“好的” 哈希算法需要具備以下3 個特性：

更改輸入中的一個比特位會產生雪崩效應，導致最後得出的哈希值截然不同出現哈希碰撞的概率非常低在無需犧牲抗碰撞性的前提下計算效率過得去

破解哈希算法

哈希算法的初始標準之一是MD5 哈希。 MD5 哈希廣泛應用於文件完整性驗證（校驗和），以及在網絡應用數據庫中存儲經過哈希計算的賬號口令。 MD5 的功能非常簡單，因為它會將每個輸入轉換成一個固定的128 位字符串輸出，並通過多輪簡單的單向操作來計算確定性輸出。由於輸出值長度較短，操作又較為簡單，MD5 很容易被破解，一種常見的攻擊方法叫生日攻擊。

“生日攻擊” 是啥玩意？

你有沒有聽說過這樣一個事實？如果你將23 個人放到一個房間裡，其中兩個人生日相同的概率為50% 。如果將70 個人放到一個房間裡，其中兩個人生日相同的概率高達99.9% 。這就是我們所說的鴿籠原理（pigeonhole principle），即，將100 只鴿子裝進99 個鴿籠，必然有兩隻鴿子分享同一個鴿籠。也就是說，固定長度的輸出意味著所有輸入輸出組合中一定存在碰撞。

- 籠子不夠時，鴿子就會湊對-

事實上，MD5 的抗碰撞性太差，以至於一台家用2.4 GHz 奔騰處理器都能在幾秒內計算出哈希碰撞。此外，由於MD5 在互聯網早期階段得到了廣泛應用，網絡上有大量MD5 原像遭到洩漏，通過谷歌搜索它們的哈希值就能找到。

哈希算法的多樣性發展

源起：SHA1 和SHA2

NSA （沒錯，就是美國國家安全保障局）是哈希算法標準的先驅。安全哈希算法（Secure Hashing Algorithm，SHA1）是最早提出的標準，將輸出值的長度固定在160 位。遺憾的是，SHA1 只是在MD5 的基礎上增加了輸出值長度、單向操作的次數和復雜度，但是並沒有作出能夠抵禦更強大機器攻擊的根本性改進。

我們如何才能做得更好？

SHA3 興起

在2006 年，美國國家標準技術研究所（NIST）舉辦了一場競賽，旨在找到一個本質上不同於SHA2 的替代標準。因此，SHA3 應運而生，它是KECCAK 哈希算法的一種方案。

雖然SHA 3 在名稱上與SHA1 和SHA2 一脈相承，但是在本質上差異很大，因為它採用了一種名為海綿結構（sponge construct）的機制。該機制使用隨機排列來吸收並輸出數據，同時為將來用於哈希算法的輸入值提供隨機性。

- KECCAK256 海綿結構是如何進行輸入操作的-

SHA3 的內部狀態相較於輸出值擁有更多信息，突破了以往算法的局限性。 NIST 於2015 年正式認可了SHA3 標準。

哈希計算和工作量證明

就整合進區塊鏈協議的哈希算法而言，比較早的比特幣選擇了SHA256 ，而以太坊採用了改進後的SHA3 （KECCAK256）作為工作量證明算法。對於採用工作量證明的區塊鏈來說，選擇哈希函數的一大重要標準是哈希運算效率。

使用一類名為專用集成電路（ASIC）的硬件，我們可以大幅提高比特幣SHA256 算法的哈希運算的效率。有很多文章已經闡述了礦池是如何利用ASIC 的，以及ASIC 是如何讓協議趨向於計算中心化的。也就是說，工作量證明會激勵計算效率較高的機器聚集成礦池，從而形成較大的哈希算力（算力大小的衡量標準就是礦機在每個時間間隔內可以完成多少次哈希運算）。

以太坊選擇的是改進後的SHA3 算法（叫做KECCAK256 ）。此外，以太坊的工作量證明算法Dagger-Hashimoto 被設計成了內存密集型模式，計算硬件需要加大內存才能提高計算效率。

為什麼比特幣採用雙重SHA256 ？

有趣的是，比特幣協議（的工作量證明）需要重複運行兩遍SHA256 算法。請注意，這不是為了抵禦生日攻擊，畢竟在hash(x) = hash(y) 的情況下，hash(hash(x)) = hash(hash(y)) 。雙重SHA256 旨在抵禦長度擴展攻擊。

從本質上來說，所謂的長度擴展攻擊，指的是如果惡意攻擊者知道了某個哈希輸入的長度，就可以在哈希值上添加一個秘密的字符串、欺騙哈希函數從其內部狀態的一個特定部分開始計算。作為SHA2 算法家族的一員，SHA256 也存在這一缺陷。因此，比特幣採取執行兩遍哈希計算的方式來解決這一缺陷。

Ethereum 2.0 和BLAKE

SHA3 並非哈希算法競賽取得的唯一突破。雖然最終勝出的是SHA3 ，但是BLAKE 算法緊隨其後，位居第二。對於以太坊2.0 的分片實現來說，更高效的哈希算法可以說是一項功能性要求，研究團隊對此非常重視。 BLAKE2b 哈希算法是BLAKE 算法的高度升級版本。與KECCAK256 相比，BLAKE2b 哈希算法在保持高度安全性的同時，在提升效率方面也進行了深入探索。

使用一台現代CPU 計算BLAKE2b 的速度比計算KECCAK 快了3 倍。

哈希算法的前景展望

這麼看來，無論我們做了什麼，無非就是（1）增加內部哈希操作的複雜度，或者（2）增加哈希輸出值的長度，讓攻擊者的計算機無法足夠快地有效計算出碰撞。

我們依靠單向操作的原像模糊性來保護網絡的安全性。也就是說，哈希算法的安全性目標是在有無限多可能的衝突的情況下，讓找出哈希碰撞的難度盡可能高。

如果量子計算時代到來，哈希算法依然安全嗎？

就目前來看，答案是肯定的，哈希算法將經受時間的考驗，抵禦量子計算。量子計算能夠解決的是那些嚴格按照某些小技巧或RSA 加密理論打造底層結構的數學問題。另一方面，哈希算法的內部構造沒那麼形式化。

量子計算機確實能夠提高哈希等非結構化問題的計算速度，但它們最終還是會像如今的計算機一樣採取暴力破解手段。

無論我們為協議選擇了哪種算法，我們顯然都在邁向計算高效化的未來。為此，我們必須慎重選擇最合適的工具，使之經受住時間的檢驗。

參考文獻

[1]: https://bitcoin.stackexchange.com/questions/6037/why-are-hashes-in-the-bitcoin-protocol-typically-computed-twice-double-computed

[2]: https://en.wikibooks.org/wiki/Cryptography/Breaking_Hash_Algorithms

[3]: https://learncryptography.com/hash-functions/hash-collision-attack

[4]: https://github.com/zcash/zcash/issues/2233

[5]: https://crypto.stackexchange.com/questions/18612/how-is-sha1-different-from-md5

[6]: https://en.wikipedia.org/wiki/Birthday_attack

[7]: https://keccak.team/

[8]: https://en.wikipedia.org/wiki/Cryptographic_hash_function

[9]: https://crypto.stackexchange.com/questions/44386/are-cryptographic-hash-functions-quantum-secure

（完）

（文內有許多超鏈接，可點擊左下”閱讀原文“ 從EthFans 網站上獲取）

原文鏈接:

https://medium.com/@rauljordan/the-state-of-hashing-algorithms-the-why-the-how-and-the-future-b21d5c0440de

作者: Raul Jordan

翻譯&校對:

閔敏 & 阿劍

作者：PA荐读
本文為PANews入駐專欄作者的觀點，不代表PANews立場，不承擔法律責任。文章及觀點也不構成投資意見。
圖片來源： PA荐读如有侵權，請聯繫作者刪除。

深度

評論

科普| 哈希函數的過去、現在與未來

熱門

精選專題更多

追蹤CZ在美被告案

比特幣現貨ETF：老錢通道一旦打開，牛市狂歡隨之而來？

超越數位黃金：BRC-20與銘文，開啟比特幣嶄新篇章

新項目精選：捕捉Web3新敘事

科普| 哈希函數的過去、現在與未來

熱門

精選專題 更多

追蹤CZ在美被告案

比特幣現貨ETF：老錢通道一旦打開，牛市狂歡隨之而來？

超越數位黃金：BRC-20與銘文，開啟比特幣嶄新篇章

新項目精選：捕捉Web3新敘事

精選專題更多