阿里云：新突破！存算一體芯片，來(lái)了

來(lái)源：阿里云

作者：阿里云

時(shí)間：2021-12-03

這是全球首款基于DRAM的3D鍵合堆疊存算一體芯片。它可突破馮·諾依曼架構(gòu)的性能瓶頸，滿足人工智能等場(chǎng)景對(duì)高帶寬、高容量?jī)?nèi)存和極致算力的需求。在特定AI場(chǎng)景中，該芯片性能提升10倍以上，效能比提升高達(dá)300倍。

分享一個(gè)好消息——達(dá)摩院成功研發(fā)存算一體芯片！

01為什么要研發(fā)存算一體芯片？

隨著人工智能應(yīng)用場(chǎng)景的爆發(fā)，現(xiàn)有的計(jì)算機(jī)系統(tǒng)架構(gòu)的短板逐漸顯露，例如功耗墻、性能墻、內(nèi)存墻等問(wèn)題。

其主要癥結(jié)在于：

一是數(shù)據(jù)搬運(yùn)帶來(lái)了巨大的能量消耗。在傳統(tǒng)架構(gòu)下，數(shù)據(jù)從內(nèi)存單元傳輸?shù)接?jì)算單元需要的功耗是計(jì)算本身的約200倍，因此真正用于計(jì)算的能耗和時(shí)間占比很低。

二是內(nèi)存的發(fā)展遠(yuǎn)遠(yuǎn)滯后于處理器的發(fā)展。目前，處理器的算力以每?jī)赡?.1倍的速度增長(zhǎng)，而內(nèi)存的性能每?jī)赡曛挥?.4倍的提升。后者的性能極大地影響了數(shù)據(jù)傳輸?shù)乃俣?，這也被認(rèn)為是傳統(tǒng)計(jì)算機(jī)的阿克琉斯之踵。

存算一體芯片是目前解決以上問(wèn)題的最佳途徑——它類似于人腦，將數(shù)據(jù)存儲(chǔ)單元和計(jì)算單元融合為一體，大幅減少數(shù)據(jù)搬運(yùn)，從而極大提高計(jì)算并行度和能效。

這一技術(shù)早在90年代就被提出，但受限于技術(shù)的復(fù)雜度、高昂的設(shè)計(jì)成本以及應(yīng)用場(chǎng)景的匱乏，過(guò)去幾十年業(yè)界對(duì)存算一體芯片的研究進(jìn)展緩慢。如今，達(dá)摩院希望通過(guò)自研創(chuàng)新技術(shù)解決算力瓶頸這一業(yè)界難題。

此外，存算一體芯片在終端、邊緣端以及云端都有廣闊的應(yīng)用前景。例如VR/AR、無(wú)人駕駛、天文數(shù)據(jù)計(jì)算、遙感影像數(shù)據(jù)分析等場(chǎng)景中，存算一體芯片都可以發(fā)揮高帶寬、低功耗的優(yōu)勢(shì)。

從長(zhǎng)遠(yuǎn)來(lái)看，存算一體技術(shù)還將成為類腦計(jì)算的關(guān)鍵技術(shù)。

02 實(shí)現(xiàn)存算一體的三種路線

實(shí)現(xiàn)存算一體有三種技術(shù)路線：

近存儲(chǔ)計(jì)算（Processing Near Memory）：計(jì)算操作由位于存儲(chǔ)芯片外部的獨(dú)立計(jì)算芯片完成。

內(nèi)存儲(chǔ)計(jì)算（Processing In Memory）：計(jì)算操作由位于存儲(chǔ)芯片內(nèi)部的獨(dú)立計(jì)算單元完成，存儲(chǔ)單元和計(jì)算單元相互獨(dú)立存在。

內(nèi)存執(zhí)行計(jì)算（Processing With Memory）：存儲(chǔ)芯片內(nèi)部的存儲(chǔ)單元完成計(jì)算操作，存儲(chǔ)單元和計(jì)算單元完全融合，沒(méi)有一個(gè)獨(dú)立的計(jì)算單元。

其中，近存計(jì)算通過(guò)將計(jì)算資源和存儲(chǔ)資源距離拉近，實(shí)現(xiàn)對(duì)能效和性能的大幅度提升，被認(rèn)為是現(xiàn)階段解決內(nèi)存墻問(wèn)題的最佳途徑。達(dá)摩院本次也是沿著這一方向進(jìn)行突破。

03 近存計(jì)算架構(gòu)&3D混合鍵合

為了拉近計(jì)算資源和存儲(chǔ)資源的距離，達(dá)摩院計(jì)算技術(shù)實(shí)驗(yàn)室創(chuàng)新性采用混合鍵合(Hybrid Bonding)的3D堆疊技術(shù)進(jìn)行芯片封裝——將計(jì)算芯片和存儲(chǔ)芯片face-to-face地用特定金屬材質(zhì)和工藝進(jìn)行互聯(lián)。

比起業(yè)內(nèi)常見(jiàn)的封裝方案HBM，混合鍵合3D堆疊技術(shù)擁有高帶寬、低成本等特點(diǎn)，被認(rèn)為是低功耗近存計(jì)算的完美載體之一。

此外，內(nèi)存單元采用異質(zhì)集成嵌入式DRAM （SeDRAM），擁有超大內(nèi)存容量和超大帶寬優(yōu)勢(shì)。

同時(shí)在計(jì)算芯片方面，達(dá)摩院研發(fā)設(shè)計(jì)了流式的定制化加速器架構(gòu)，對(duì)推薦系統(tǒng)進(jìn)行“端到端”加速，包括匹配、粗排序、神經(jīng)網(wǎng)絡(luò)計(jì)算、細(xì)排序等任務(wù)。

這種近存架構(gòu)有效解決了帶寬受限的問(wèn)題，最終內(nèi)存、算法以及計(jì)算模塊的完美融合，大幅提升帶寬的同時(shí)還實(shí)現(xiàn)了超低功耗，展示了近存計(jì)算在數(shù)據(jù)中心場(chǎng)景的潛力。

最終的測(cè)試芯片顯示，這種存算技術(shù)和架構(gòu)的優(yōu)勢(shì)明顯：

能通過(guò)拉近存儲(chǔ)單元與計(jì)算單元的距離增加帶寬，降低數(shù)據(jù)搬運(yùn)的代價(jià)，緩解由于數(shù)據(jù)搬運(yùn)產(chǎn)生的瓶頸，而且與數(shù)據(jù)中心的推薦系統(tǒng)對(duì)于帶寬/內(nèi)存的需求完美匹配。

得益于技術(shù)的創(chuàng)新性，該芯片的研究成果已被芯片領(lǐng)域頂級(jí)會(huì)議ISSCC 2022收錄。

未來(lái)，達(dá)摩院希望能進(jìn)一步攻克存內(nèi)計(jì)算技術(shù)，并逐步優(yōu)化典型應(yīng)用、生態(tài)系統(tǒng)等方面

立即登錄，閱讀全文

阿里云

上一篇：阿里云 Serverless 助力企業(yè)全面擁抱云原生

版權(quán)說(shuō)明：

本文內(nèi)容來(lái)自于阿里云，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn)，不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán)，請(qǐng)聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章