網(wǎng)站開發(fā)算前端嗎合肥網(wǎng)站建設(shè)
目錄
前言
關(guān)于存內(nèi)計算
1、常規(guī)算力局限性
2、存內(nèi)計算誕生記
3、存內(nèi)計算核心
存內(nèi)計算芯片研發(fā)歷程及商業(yè)化
1、存內(nèi)計算芯片研發(fā)歷程
2、存內(nèi)計算先驅(qū)出道
3、存內(nèi)計算商業(yè)化落地
基于知存科技存內(nèi)計算開發(fā)板ZT1的降噪驗證
(一)任務(wù)目標(biāo)以及具體步驟
1、主模塊
2、子模塊(燒錄時候需要用到)
3、主模塊設(shè)置
4、連接效果
(二)模擬及驗證結(jié)果
1、嘯叫環(huán)境模擬
2、嘯叫抑制效果
體驗與收獲
結(jié)束語
參考文獻
前言
眾所周知,人工智能的高速發(fā)展顛覆了人們傳統(tǒng)的生活和工作方式,AI已經(jīng)逐漸“滲透”到各個領(lǐng)域,與AI相關(guān)的一切也都在發(fā)生重大改變。就拿人工智能比較核心的深度學(xué)習(xí)算法來講,它讓芯片領(lǐng)域也發(fā)生了巨大的技術(shù)變革,比如在人工智能發(fā)展的早期,基于AI的芯片是使用傳統(tǒng)的馮·諾依曼計算架構(gòu)的,但是隨著芯片存儲性能的劣勢逐漸凸顯,使得AI芯片研發(fā)工程師們不得不采取其他新技術(shù)來規(guī)避這種缺點,這就使得存內(nèi)計算應(yīng)運而生。那么本文就來簡單分享一下關(guān)于存內(nèi)計算技術(shù)是如何打破常規(guī)算力局限性的,以及對應(yīng)的存內(nèi)計算芯片產(chǎn)品的體驗分享。
關(guān)于存內(nèi)計算
1、常規(guī)算力局限性
首先來了解一下馮·諾依曼計算架構(gòu),馮·諾依曼結(jié)構(gòu)也稱普林斯頓結(jié)構(gòu),它是一種將程序指令存儲器和數(shù)據(jù)存儲器合并在一起的存儲器結(jié)構(gòu),是由數(shù)學(xué)家馮·諾依曼提出的計算機制造的三個基本原則:采用二進制邏輯、程序存儲執(zhí)行以及計算機由五個部分組成(運算器、控制器、存儲器、輸入設(shè)備、輸出設(shè)備),這個理論體系被稱為馮·諾依曼體系結(jié)構(gòu)。
如果內(nèi)存的傳輸速度跟不上CPU的性能,就會導(dǎo)致計算能力受到限制,也就是出現(xiàn)“內(nèi)存墻”,比如CPU處理運算一道指令的耗時假若為1ns,但內(nèi)存讀取傳輸該指令的耗時可能就已達到10ns,這就嚴(yán)重影響了CPU的運行處理速度。另外,如果讀寫一次內(nèi)存的數(shù)據(jù)能量比計算一次數(shù)據(jù)的能量多消耗幾百倍,也就是說的存在的“功耗墻”。
隨著近幾年云計算和人工智能(AI)應(yīng)用的發(fā)展,面對計算中心的數(shù)據(jù)洪流,數(shù)據(jù)搬運慢、搬運能耗大等問題成為了計算的關(guān)鍵瓶頸。馮·諾依曼架構(gòu)由于指令和數(shù)據(jù)共享同一內(nèi)存,使得處理器不能同時取指令和數(shù)據(jù),會導(dǎo)致在程序執(zhí)行過程中可能發(fā)生數(shù)據(jù)和指令沖突,造成處理器的等待周期,這會降低系統(tǒng)的執(zhí)行效率和速度。這里不得不提一下存算一體,存算一體(Computing in Memory)其實就是在存儲器中嵌入計算能力,以新的運算架構(gòu)進行二維和三維矩陣乘法/加法運算,也為后面的新的存內(nèi)計算誕生埋下了伏筆。
2、存內(nèi)計算誕生記
在2018年的時候,Google針對自己產(chǎn)品的耗能情況做了一項研究調(diào)查,發(fā)現(xiàn)整個系統(tǒng)耗能的62.7%浪費在CPU和內(nèi)存的讀寫傳輸上,也就是傳統(tǒng)馮·諾依曼架構(gòu)導(dǎo)致的高延遲和高耗能的問題成為急需解決的問題,而其中的短板存儲器成為了制約數(shù)據(jù)處理速度提高的主要瓶頸。
但是經(jīng)過一系列的技術(shù)攻關(guān),誕生的存內(nèi)計算可以有效消除存儲單元與計算單元之間的數(shù)據(jù)傳輸耗能過高、速度有限的情況,從而有效解決馮·諾依曼架構(gòu)的瓶頸。而且存內(nèi)計算存在多種基于不同存儲介質(zhì)的技術(shù)路徑,比如SRAM、Flash及其它新型存儲器。
3、存內(nèi)計算核心
存內(nèi)計算(Computing in Memory)是指將計算單元直接嵌入到存儲器中,顧名思義就是把計算單元嵌入到內(nèi)存當(dāng)中,通常計算機運行的馮·諾依曼體系包括存儲單元和計算單元兩部分。在本質(zhì)上消除不必要的數(shù)據(jù)搬移的延遲和功耗,從而消除了傳統(tǒng)的馮·諾依曼架構(gòu)的瓶頸,打破存儲墻。據(jù)悉,存內(nèi)計算特別適用于需要大數(shù)據(jù)處理的領(lǐng)域,比如云計算、人工智能等領(lǐng)域,最重要的一點是存內(nèi)計算是基于存儲介質(zhì)的計算架構(gòu),而且存內(nèi)計算是一種新型存儲架構(gòu)且輕松打破傳統(tǒng)存儲架構(gòu)的瓶頸。
根據(jù)存儲介質(zhì)的不同,存內(nèi)計算芯片可分為基于傳統(tǒng)存儲器和基于新型非易失性存儲器兩種。傳統(tǒng)存儲器包括SRAM, DRAM和Flash等;新型非易失性存儲器包括ReRAM、PCM、FeFET、MRAM等。其中,距離產(chǎn)業(yè)化較近的是基于NOR?Flash和基于SRAM的存內(nèi)計算芯片。雖然基于各類存儲介質(zhì)的存算一體芯片研究百花齊放,但是各自在大規(guī)模產(chǎn)業(yè)化之前都仍然面臨一些問題和挑戰(zhàn)。存算一體技術(shù)在產(chǎn)業(yè)界的進展同樣十分迅速,國內(nèi)外多家企業(yè)在積極研發(fā),例如我國臺灣的臺積電,韓國三星、日本東芝、美國Mythic,國內(nèi)的知存科技等。
但是當(dāng)前最接近產(chǎn)業(yè)化的主要是臺積電、Mythic和知存科技。從2019年至今,臺積電得益于其強大的工藝能力,已基于SRAM與ReRAM發(fā)表了一系列存算一體芯片研究成果,具備量產(chǎn)代工能力。Mythic已于2021年推出基于NOR?Flash的存內(nèi)計算量產(chǎn)芯片M1076,可支持80?MB神經(jīng)網(wǎng)絡(luò)權(quán)重,單個芯片算力達到25?TOPS,主要面向邊緣側(cè)智能場景。國內(nèi)的知存科技于2021年發(fā)布基于NOR Flash的存內(nèi)計算芯片WTM2101,是率先量產(chǎn)商用的全球首顆存內(nèi)計算SoC芯片,已經(jīng)應(yīng)用于百萬級智能終端設(shè)備。
存內(nèi)計算芯片研發(fā)歷程及商業(yè)化
1、存內(nèi)計算芯片研發(fā)歷程
其實早在2012年,深度學(xué)習(xí)算法在圖像分類競賽中展現(xiàn)出的顯著性能提升,就引發(fā)了新一輪的AI熱潮。而在2015年,深度學(xué)習(xí)算法對芯片的快速增長需求引發(fā)了AI芯片的創(chuàng)業(yè)熱潮。但是擁抱AI芯片的設(shè)計者們很快就發(fā)現(xiàn),使用經(jīng)典的馮·諾依曼計算架構(gòu)AI芯片即使在運算單元算力大幅提升,但是在存儲器性能提升速度較慢的情況下,兩者的性能差距越來越明顯,這使得“內(nèi)存墻”的問題越來越顯著。
在傳統(tǒng)計算機的設(shè)定里,存儲模塊是為計算服務(wù)的,因此設(shè)計上會考慮存儲與計算的分離與優(yōu)先級。但如今存儲和計算不得不整體考慮,以最佳的配合方式為數(shù)據(jù)采集、傳輸和處理服務(wù)。存儲與計算的再分配過程就會面臨各種問題,主要體現(xiàn)為存儲墻、帶寬墻和功耗墻問題。存算一體的優(yōu)勢是打破存儲墻,消除不必要的數(shù)據(jù)搬移延遲和功耗,并使用存儲單元提升算力,成百上千倍的提高計算效率,降低成本。
其實,利用存儲器做計算在很早以前就有人研究,上世紀(jì)90年代就有學(xué)者發(fā)表過相關(guān)論文,但沒有人真正實現(xiàn)產(chǎn)業(yè)落地,究其原因,一方面是設(shè)計挑戰(zhàn)比較大,更為關(guān)鍵的是沒有殺手級應(yīng)用。但是隨著深度學(xué)習(xí)的大規(guī)模爆發(fā),存內(nèi)計算技術(shù)才開始產(chǎn)業(yè)化落地,存內(nèi)計算的產(chǎn)業(yè)化落地歷程,與知存科技創(chuàng)始人的求學(xué)創(chuàng)業(yè)經(jīng)歷關(guān)系密切。
2、存內(nèi)計算先驅(qū)出道
2011年,郭昕婕本科畢業(yè)于北大信息科學(xué)技術(shù)學(xué)院微電子專業(yè),本科畢業(yè)之后郭昕婕開始了美國加州大學(xué)圣塔芭芭拉分校(UCSB)的博士學(xué)業(yè),她的導(dǎo)師Dmitri B.Strukov教授是存內(nèi)計算領(lǐng)域的學(xué)術(shù)大牛,2008年在惠普完成了憶阻器的首次制備,2010年加入了美國加州大學(xué)圣塔芭芭拉分校。郭昕婕也成為了Dmitri B.Strukov教授的第一批博士生,開始了基于NOR FLASH存內(nèi)計算芯片的研究。
2013年,隨著深度學(xué)習(xí)的研究熱潮席卷學(xué)術(shù)界,在導(dǎo)師的支持下,郭昕婕開始嘗試基于NOR FLASH存內(nèi)計算的芯片研發(fā)。耗時4年,歷經(jīng)6次流片,郭昕婕終于在2016年研發(fā)出全球第一個3層神經(jīng)網(wǎng)絡(luò)的浮柵存內(nèi)計算深度學(xué)習(xí)芯片(PRIME架構(gòu)),首次驗證了基于浮柵晶體管的存內(nèi)計算在深度學(xué)習(xí)應(yīng)用中的效用。相較于傳統(tǒng)馮諾伊曼架構(gòu)的傳統(tǒng)方案,PRIME可以實現(xiàn)功耗降低約20倍、速度提升約50倍,引起產(chǎn)業(yè)界廣泛關(guān)注。隨著人工智能等大數(shù)據(jù)應(yīng)用的興起,存算一體技術(shù)得到國內(nèi)外學(xué)術(shù)界與產(chǎn)業(yè)界的廣泛研究與應(yīng)用。
在2017年微處理器頂級年會(Micro 2017)上,包括英偉達、英特爾、微軟、三星、加州大學(xué)圣塔芭芭拉分校等都推出了他們的存算一體系統(tǒng)原型。也就是在2017年,郭昕婕就進一步攻下7層神經(jīng)網(wǎng)絡(luò)的浮柵存內(nèi)計算深度學(xué)習(xí)芯片。
3、存內(nèi)計算商業(yè)化落地
AIoT是存內(nèi)計算技術(shù)率先落地的重點領(lǐng)域,因其強調(diào)人機交互,同時先進的存算存儲技術(shù)以及制造業(yè)能夠為其提供最短路徑支持。知存科技是目前唯一實現(xiàn)市場規(guī)?;瘧?yīng)用的存內(nèi)計算企業(yè),2021年發(fā)布的WTM2101芯片主要布局在語言喚醒語音活動檢測(Voice Activity Detection,VAD)、語音識別、通話降噪、聲紋識別等,已落地應(yīng)用在嵌入式領(lǐng)域中,包括智能手表健康監(jiān)測以及較低功耗(毫安級)的智能眼鏡語音識別。
據(jù)悉,WTM2101成功開拓市場以后,知存科技重點布局的將是AI視覺領(lǐng)域。據(jù)官方資料,知存科技將發(fā)布首個存內(nèi)計算AI視覺芯片,支持至少24Tops AI算力,支持極低功耗的圖像處理和空間計算。此外,九天睿芯產(chǎn)品主要用于語音喚醒,或者時間序列傳感器信號計算處理;定位推廣可穿戴及超低功耗IOT設(shè)備;后摩智能相關(guān)芯片應(yīng)用于無人車邊緣端以及云端推理和培訓(xùn)等場景,2022年5月,后摩智能自主研發(fā)的存算一體技術(shù)大算力AI芯片跑通智能駕駛算法模型。可以預(yù)見,存內(nèi)計算技術(shù)的商業(yè)化應(yīng)用正在呈現(xiàn)百花齊放的局面,也期待這些企業(yè)能夠推動我國AI算力的突破性發(fā)展,實現(xiàn)更多AI應(yīng)用落地。
全球首個存內(nèi)計算社區(qū)創(chuàng)立,涵蓋最豐富的存內(nèi)計算內(nèi)容,以存內(nèi)計算技術(shù)為核心,絕無僅有存內(nèi)技術(shù)開源內(nèi)容,囊括云/邊/端側(cè)商業(yè)化應(yīng)用解析以及新技術(shù)趨勢洞察等, 邀請業(yè)內(nèi)大咖定期舉辦線下存內(nèi)workshop,實戰(zhàn)演練體驗前沿架構(gòu);從理論到實踐,做為最佳窗口,存內(nèi)計算讓你觸手可及。
傳送門:https://bbs.csdn.net/forums/computinginmemory?category=10003;
社區(qū)最新活動存內(nèi)計算大使招募中,享受社區(qū)資源傾斜,打造屬于你的個人品牌,點擊下方一鍵加入。
https://bbs.csdn.net/topics/617915760
基于知存科技存內(nèi)計算開發(fā)板ZT1的降噪驗證
接下來是本文的重頭戲,也就是直接對基于存內(nèi)計算ZT1開發(fā)板的降噪驗證。在開始實際操作之前,需要進行一些準(zhǔn)備工作,本文是基于已經(jīng)有ZT1開發(fā)板來講的,主要是對開發(fā)板進行連線和配置操作。首先來看一下開發(fā)板全貌,主要分為:主模塊、子模塊、耳機三部分組成,具體如下所示。先來看一下知存ZT1開發(fā)板,另外需要注意,ZT1開發(fā)板目前只支持Windows系統(tǒng)的電腦連接關(guān)聯(lián)。
(一)任務(wù)目標(biāo)以及具體步驟
1、主模塊
主模塊的概覽,如下所示。
2、子模塊(燒錄時候需要用到)
這里的子模塊,分為正反兩面,根據(jù)模塊的提示字符,與主模塊進行關(guān)聯(lián)即可。
3、主模塊設(shè)置
這里的設(shè)置主要是把開關(guān)放在對應(yīng)的USB這個位置,具體如下圖所示:
4、連接效果
根據(jù)上面的逐一介紹,再加上官方的指導(dǎo)視頻,具體的板子關(guān)聯(lián)效果如下所示。
(二)模擬及驗證結(jié)果
在執(zhí)行完上面的板子、耳機連接,以及通過數(shù)據(jù)線連接板子和電腦的之后,就是插電驗證嘯叫抑制的效果,在耳機連接之后,會出現(xiàn)高分貝雜音嘯叫,接著再打開板子,雜音馬上消失,這就是ZT1開發(fā)板成功嘯叫抑制的結(jié)果。由于不能上傳演示視頻,這里只做圖片說明的結(jié)果展示。
1、嘯叫環(huán)境模擬
未使用ZT1開發(fā)板的,嘯叫環(huán)境下,噪音環(huán)境聲音:75db,嘯叫:85db,具體演示局部如下所示。
打開使用ZT1開發(fā)板,直接精準(zhǔn)嘯叫抑制,時間延遲<1ms,噪音環(huán)境聲音:75db,嘯叫:0db,非常快,非常專業(yè),具體演示掠影如下所示。
2、嘯叫抑制效果
最后引用一下知存科技的最后嘯叫抑制的對比效果,具體如下所示。
嘯叫抑制前:
嘯叫抑制后:
功耗驗證:

體驗與收獲
通過上面關(guān)于基于存內(nèi)計算ZT1開發(fā)版的降噪驗證體驗,顛覆了自己對AI領(lǐng)域的常規(guī)認知,也是自己距離AI最近的一次,尤其通過使用知存的ZT1開發(fā)板進行嘯叫抑制的測試體驗,徹底讓我知道存內(nèi)計算的先進性和魅力,然后通過這次近距離的操作體驗,讓自己真真切切體驗了一把AI就在我“旁邊”的無距離接觸。
對我自己來說,雖然AI已經(jīng)火了一年多了,但是我實際接觸AI的情景卻不多,除了之前對一些國內(nèi)外AI大模型的使用體驗,還有對國內(nèi)的某一個大模型進行開發(fā)使用之外,就很少接觸真正的AI相關(guān)的核心內(nèi)容。通過這次對知存的ZT1開發(fā)板使用體驗,讓我一下子就步入了AI入門水平,而且還是直接接觸了AI的核心中的核心內(nèi)容:存內(nèi)計算,以及AI芯片,個人覺得于我來說是個非常有價值的事情,也讓自己涉獵了新的核心內(nèi)容,受益匪淺。
雖然這次只做了簡單的使用體驗,沒有深度的參與開發(fā)板的燒錄等實踐,但是這已經(jīng)非常不錯了,成功的操作體驗也讓我對AI領(lǐng)域有了更濃厚的興趣,也讓我很有成就感,更重要的是這次使用體驗讓我感受到了AI對硬件領(lǐng)域的技術(shù)影響巨大,倒逼傳統(tǒng)技術(shù)模式的變革,尤其是AI芯片等領(lǐng)域的快速發(fā)展。
經(jīng)過本次的使用體驗,也讓我加深了一些人工智能知識的掌握,以及對知存的ZT1開發(fā)板的深度了解,為我后面使用知存的ZT1開發(fā)板燒錄體驗以及更多存內(nèi)計算開發(fā)奠定基礎(chǔ)。雖然我自己現(xiàn)階段關(guān)于AI的學(xué)習(xí)和掌握還停留在入門水平,但是在這次體驗實踐之后,未來可能在AI硬件和軟件領(lǐng)域都會有更深入的使用和學(xué)習(xí)。
結(jié)束語
通過上文的詳細介紹和體驗分享,想必讀者對傳統(tǒng)的馮·諾依曼計算架構(gòu)的局限性以及存內(nèi)計算技術(shù)的明顯優(yōu)勢都有了深入的體會吧。存內(nèi)計算的獨有優(yōu)勢也是給AI芯片計算帶來了不可估量的優(yōu)勢,解決了影響算力的大問題,非常值得表揚。隨著AI的快速發(fā)展,誕生的存內(nèi)計算可以有效消除存儲單元與計算單元之間的數(shù)據(jù)傳輸耗能過高、速度有限的情況,從而有效解決馮·諾依曼架構(gòu)的瓶頸。知存科技的基于存內(nèi)計算ZT1開發(fā)版的降噪驗證,也是給人工智能領(lǐng)域帶來了強心劑,從個人使用體驗來講,這是一個非常棒的經(jīng)歷,切實感受到了它的強大功能及特點。我相信,在不久的以后關(guān)于人工智能的新技術(shù)還會相繼而出,也希望人工智能領(lǐng)域繼續(xù)完善和發(fā)展,也期待存內(nèi)計算再創(chuàng)新的輝煌,也預(yù)祝知存科技的相關(guān)技術(shù)更上一層樓!
參考文獻
1、存內(nèi)計算的使用手冊:WTM2101 EVB(ZT1)用戶使用手冊V1.1
2、存內(nèi)計算芯片研究進展及應(yīng)用_郭昕婕
3、中國移動研究院完成業(yè)界首次憶阻 器存算一體芯片的端到端技術(shù)驗證 - 移動通信網(wǎng)