中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

找人做網(wǎng)站應(yīng)該注意哪些網(wǎng)店推廣的方式

找人做網(wǎng)站應(yīng)該注意哪些,網(wǎng)店推廣的方式,如何建設(shè)購物網(wǎng)站,什么網(wǎng)站可以做美食早期 對外采購mobileye EyeQ3 芯片攝像頭半集成方案,主要是為了滿足快速量產(chǎn)需求,且受制于研發(fā)資金不足限制; 中期 采用高算力NVIDIA 芯片平臺其他攝像頭供應(yīng)商的特斯拉內(nèi)部集成方案,mobileye開發(fā)節(jié)奏無法緊跟特斯拉需求&#xff…

圖片

早期 對外采購mobileye EyeQ3 芯片+攝像頭半集成方案,主要是為了滿足快速量產(chǎn)需求,且受制于研發(fā)資金不足限制;

中期 采用高算力NVIDIA 芯片平臺+其他攝像頭供應(yīng)商的特斯拉內(nèi)部集成方案,mobileye開發(fā)節(jié)奏無法緊跟特斯拉需求;

當(dāng)前:采用自研NPU(網(wǎng)絡(luò)處理器)為核心的芯片+外采Aptina攝像頭的特斯拉核心自研方案,主要原因在于市面方案無法滿足定制需求,而后期時間和資金充足,公司自研實(shí)力和開發(fā)自由度更高。

圖片

為了掌握自動駕駛話語權(quán),同時并掌握核心數(shù)據(jù)和AI算法,過去5年特斯拉經(jīng)歷了外購主控芯片到自研的道路。2014年~2016年,特斯拉配備的是基于Mobileye EyeQ3芯片的AutoPilot HW1.0計(jì)算平臺,車上包含1個前攝像頭+1個毫米波雷達(dá)+12個超聲波雷達(dá)。2016年~2019年,特斯拉采用基于英偉達(dá)的DRIVE PX 2 AI計(jì)算平臺的AutoPilot HW2.0和后續(xù)的AutoPilot HW2.5,包含8個攝像頭+1個毫米波雷達(dá)+12超聲波雷達(dá)。

圖片

2017年開始特斯拉開始啟動自研主控芯片,尤其是主控芯片中的神經(jīng)網(wǎng)絡(luò)算法和AI處理單元全部自己完成。2019年4月,AutoPilot HW3.0平臺搭載了Tesla FSD自研版本的主控芯片,這款自動駕駛主控芯片擁有高達(dá)60億的晶體管,每秒可完成144萬億次的計(jì)算,能同時處理每秒2300幀的圖像。

圖片

特斯拉的FSD HW3.0基本介紹

特斯拉Model 3自研“中央-區(qū)EEA”架構(gòu):中央計(jì)算機(jī)是自動駕駛及娛樂控制模塊(Autopilot & Infotainment Control Module),由兩塊FSD芯片承擔(dān)大量的數(shù)據(jù)計(jì)算,主要服務(wù)于自動駕駛功能。兩個區(qū)控制器分別是右車身控制器(BCM RH)和左車身控制器(BCM LH),主要服務(wù)于熱管理、扭矩控制、燈光等功能。

圖片

FSD 的 HW3.0 由兩個相同的計(jì)算單元構(gòu)成,每個計(jì)算單元上面有特斯拉自研的2 塊FSD計(jì)算芯片,每塊算力位 36 Tops,設(shè)備總算力位 4 x 36 Tops = 144 Tops。但是由于采用的是雙機(jī)冗余熱備的運(yùn)行方式,實(shí)際可用的算力為72 Top。

圖片

特斯拉板子的右側(cè)接口從上到下依次是FOV攝像頭、環(huán)視攝像頭、A柱左右攝像頭、B柱左右攝像頭、前視主攝像頭、車內(nèi)DMS攝像頭、后攝像頭、GPS同軸天線。左側(cè)從上到下依次是第二供電和I/O接口(車身LIN網(wǎng)絡(luò)等),以太網(wǎng)診斷進(jìn)/出、調(diào)試USB、燒錄、主供電和I/O(底盤CAN網(wǎng)絡(luò)等)。

而通過特斯拉在售車型的介紹和實(shí)際配置來看,主張以攝像頭視覺為核心的特斯拉安裝了一個三目攝像頭、4個環(huán)視、一個后置攝像頭、車內(nèi)DMS攝像頭、前置毫米波雷達(dá)、以及12顆超聲波雷達(dá)。

HW?3.0 PCB器件介紹

圖片

LPDDR 全稱是Low Power Double Data Rate SDRAM,是DDR SDRAM的一種,又稱為 mDDR(Mobile DDR SDRM),是目前全球范圍內(nèi)移動設(shè)備上使用最廣泛的“工作記憶”內(nèi)存。特斯拉的LPDDR4(8BD77D9WCF)是Micron美光供應(yīng)。

FSD的GPS模塊是NEO-M8L-01A-81,水平精度圓概率誤差(英文簡稱CEP- CircularError Probable)為2.5米,有SBAS輔助下是1.5米,接收GPS/QZSS/GLONASS/北斗,CEP和RMS是GPS的定位準(zhǔn)確度(俗稱精度)單位,是誤差概率單位。冷啟動26秒,熱啟動1秒,輔助啟動3秒。內(nèi)置簡易6軸IMU,刷新頻率20Hz,量大的話價格會低于300元人民幣。

UFS(Universal Flash Storage)采用THGAF9G8L2LBAB7,Toshiba 2018年中期量產(chǎn)的新產(chǎn)品,車規(guī)級標(biāo)準(zhǔn)UFS,AEC-Q100 2級標(biāo)準(zhǔn),容量32GB,由于特斯拉的算法模型占地不大倒也夠用。

MAX20025S是開關(guān)型電源穩(wěn)壓器,給內(nèi)存供電的,來自Maxim Integrated,目前查不到更多的介紹資料。

S512SD8H21應(yīng)該是Boot啟動,由Cypress(已被Infineon收購)供貨。

特斯拉用了3片TI的FPD-LINK,也就是解串器芯片,解串器芯片都是配對使用,加串行一般在攝像頭內(nèi)部,解串行在PCB上。兩片DS90UB960,與其對應(yīng)的可以是DS90UB953-Q1, DS90UB935-Q1,DS90UB933-Q1, DS90UB913A-Q1。DS90UB960擁有4條Lane,如果是MIPI CSI-2端口,每條Lane帶寬可以從400Mbps到1.6Gbps之間設(shè)置。

圖片

上圖為TI推薦的DS90UB960的典型應(yīng)用示意圖,即接4個200萬像素幀率30Hz的YUV444數(shù)據(jù),或者4個200萬像素幀率60Hz的YUV420數(shù)據(jù)。DS90UB954是DS90UB960簡化版,從4Lane減少到2Lane,與之搭配使用的是DS90UB953。

由于大部分?jǐn)z像頭的LVDS格式只能用于近距離傳輸,因此攝像頭都要配備一個解串行芯片,將并行數(shù)據(jù)轉(zhuǎn)換為串行用同軸或STP傳輸,這樣傳輸距離遠(yuǎn)且EMI電磁干擾更容易過車規(guī)。目前行業(yè)內(nèi)做解串行芯片用的較多的就是德州儀器TI以及Maxim,特斯拉用的是德州儀器,而我們做開發(fā)接觸的較多的是Maxim,可能是源于NVIDIA的AI芯片平臺設(shè)計(jì)推薦,目前智能駕駛方面用的攝像頭大部分都是Maxim方案。

(攝像頭的數(shù)據(jù)格式通常有RAWRGB、YUV兩種。YUV常見的有三種級YUV444,YUV422和YUV420。計(jì)算帶寬的公式是像素*幀率*比特*X,對RAW RGB來說X=4,比如一款攝像頭輸出30Hz,200萬像素,那么帶寬是200萬x30x8x4,即1.92Gbps。YUV444是像素X幀率X比特X3,即1.44Gbps,YUV422是像素X幀率X比特X2,即0.96Gbps,YUV420是像素X幀率X比特X1.5,即0.72Gbps。ADAS通常對色彩考慮不多,YUV420足夠。除車載外一般多采用YUV422。)

圖片

特斯拉自動駕駛主芯片詳細(xì)講解

這款FSD芯片采用14nm工藝制造,包含一個中央處理器、1個圖像處理單元、2個神經(jīng)網(wǎng)絡(luò)處理器,其中中央處理器和圖像處理器都采用了第三方設(shè)計(jì)授權(quán),以保證其性能和穩(wěn)定性,并易于開發(fā),關(guān)鍵的神經(jīng)網(wǎng)絡(luò)處理器設(shè)計(jì)是特斯拉自主研發(fā), 是現(xiàn)階段用于汽車自動駕駛領(lǐng)域最強(qiáng)大的芯片。

圖片

中央處理器是1個12核心ARM A72架構(gòu)的64位處理器,運(yùn)行頻率為2.2GHz;圖像處理器能夠提供0.6TFLOPS計(jì)算能力,運(yùn)行頻率為1GHz;2個神經(jīng)網(wǎng)絡(luò)處理器運(yùn)行在2.2GHz頻率下能提供72TOPS的處理能力。為了提升神經(jīng)網(wǎng)絡(luò)處理器的內(nèi)存存取速度以提升計(jì)算能力,每顆FSD芯片內(nèi)部還集成了32MB高速緩存。

NPU的總功耗為7.5 W,約占FSD功耗預(yù)算的21%。這使得它們的性能功率效率約為4.9TOPs/W,特斯拉在芯片設(shè)計(jì)方面充分考慮了安全性,一塊典型的自動駕駛電路板會集成兩顆Tesla FSD芯片,執(zhí)行雙神經(jīng)網(wǎng)絡(luò)處理器冗余模式,兩顆處理器相互獨(dú)立,即便一個出現(xiàn)問題另一個也能照常執(zhí)行,此外還設(shè)計(jì)了冗余的電源、重疊的攝像機(jī)視野部分、各種向后兼容的連接器和接口。

信號傳輸流程:

從攝像頭的圖像開始,根據(jù)數(shù)據(jù)流向,特斯拉解釋了整個過程。首先,數(shù)據(jù)以每秒25億像素的最大速度采集輸入,這大致相當(dāng)于以每秒60幀的速度輸入21塊全高清1080P屏幕的數(shù)據(jù)。這比目前安裝的傳感器產(chǎn)生的數(shù)據(jù)多得多。這些數(shù)據(jù)然后進(jìn)入我們前面討論的DRAM,這是SoC的第一個也是主要瓶頸之一,因?yàn)檫@是處理速度最慢的組件。然后數(shù)據(jù)返回到芯片,并通過圖像信號處理器ISP,每秒可以處理10億像素(大約8個全高清1080P屏幕,每秒60幀)。這一階段芯片將來自攝像頭傳感器的原始RGB數(shù)據(jù)轉(zhuǎn)換成除了增強(qiáng)色調(diào)和消除噪音之外實(shí)際上有用的數(shù)據(jù)。

圖片

使用的是車載龍頭鎂光的LPDDR4,具體型號是8BD77D9WCF 8表示年份2018,B 表示第 4 周,D 代表 D-Die,屬于鎂光產(chǎn)品線中性能相對一般的型號,77 分別代表芯片生產(chǎn)地和封裝地,7 代表中國臺灣(5 代表中國大陸)。所以,這是一顆美光 2018 年第二周生產(chǎn)的D-Die顆粒)D9WCF對應(yīng)型號為MT53D512M32D2DS-046AAT。53 代表這是一顆 LPDDR4 顆粒;D 代表1.1V 的工作電壓;512M 表示單顆顆粒的容量為 512MB;32 表示單顆粒位寬為 32bit。

按照容量計(jì)算單顆芯片是=512MB X 32 ÷8 = 2GB,使用量是4顆,所以DDR的總?cè)萘渴?GB。

按照LPDDR4最高頻率4266MHZ的速率計(jì)算,每顆DDR是32位的位寬,CPU的位寬是32X4=128 bit,此時DDR的帶寬=4266MBX128 ÷ 8 = 68.25G/S。

我們再來看看目前的特斯拉的信號傳輸流向。

可以看到,傳輸速度遠(yuǎn)遠(yuǎn)大于8顆攝像頭采集的圖像數(shù)據(jù),傳輸速度不是瓶頸,ISP的處理速率是10億像素/秒,如果是RGB888的位深,此時的數(shù)據(jù)量應(yīng)該是2.78GB/S,此處的LPDDR4 的帶寬是68GB/S,目前單獨(dú)處理圖像是夠的。這里說內(nèi)存帶寬可能是未來限制自動駕駛的瓶頸,原因是要處理很多除了圖像以外的數(shù)據(jù),比如雷達(dá),多線程多應(yīng)用的數(shù)據(jù)。

自動駕駛對于DDR帶寬的要求:

圖片

上圖是目前比較主流的L3+自動駕駛的架構(gòu),從這里可以看到,攝像頭那部分的處理需要的DDR的帶寬是34GB/s,ASIC的DDR帶寬為64bit,ADAS需要處理攝像頭的raw dater,這樣才是最原始的數(shù)據(jù),不是壓縮,也沒有處理過的數(shù)據(jù),這樣ADAS處理起來才比較靈活,所以ADAS的帶寬要求非常高。

可以看到除了要處理高清攝像頭的raw dater的數(shù)據(jù),還需要處理超聲波雷達(dá)和激光雷達(dá)的數(shù)據(jù),這些傳感器的作用是不同的,激光雷達(dá)主要用于3D建模、超聲波雷達(dá)用于倒車、超車,攝像頭主要用于部分ADAS功能,比如ACC自適應(yīng)巡航、AEB緊急制動等等。

圖片

由于這些傳感器的數(shù)據(jù)量非常大,處理的要求也比較高,所以對于ADAS CPU的DDR的帶寬要求非常高,需要使用到4顆32bit的LPDDR5,同時需要CPU 的DDR帶寬為128bit,同時帶寬需要達(dá)到102.4GB/s,也許你會有疑惑,為什么特斯拉的才68GB/s的帶寬就可以處理了呢?

特斯拉由于成本原因,沒有使用激光雷達(dá),下圖是特斯拉車身上不同版本的硬件的傳感器,AP3.0的硬件使用了6個攝像頭,12個超聲波雷達(dá),1個毫米波雷達(dá)。由于算法做的非常牛掰,一樣的可以使用超聲波雷達(dá)+攝像頭進(jìn)行3D數(shù)據(jù)建模。所以性能更優(yōu),成本更少,而且對于DDR的帶寬要求也下降了。

圖片

2020年市場上打造的L2級別的駕駛,都沒有使用到激光雷達(dá),只有谷歌的waymo使用了4顆激光雷達(dá)還有奧迪A8的使用了1顆激光雷達(dá)。2021年上海車展的情況來看極光雷達(dá)如雨后春筍,越來越多的智能汽車選擇使用激光雷達(dá),很多激光雷達(dá)都是安全冗余使用的目的,傳感器數(shù)據(jù)是做后融合,此時處理數(shù)據(jù)的能力要求就提高,此時對于DDR帶寬要求會變大。

圖片

圖片

特斯拉NPU介紹

圖片

上圖的型號處理過程中,該過程的第一步是將數(shù)據(jù)存儲在SRAM陣列中。現(xiàn)在很多人——甚至是那些對計(jì)算機(jī)組件略知一二的人——可能會想,“SRAM到底是什么?”嗯,最接近的比較是在計(jì)算機(jī)處理器上能找到的共享L3緩存。這意味著什么呢?這意味著存儲速度非常快,但同時也很貴。

目前,Intel最大的L3緩存是45 MB(2010年以前是16 MB, 2014年以前是24 MB)。大多數(shù)消費(fèi)級筆記本電腦和桌面處理器都有8-12 MB的L3緩存。特斯拉的神經(jīng)網(wǎng)絡(luò)處理器有一個龐大的64MB SRAM,它被分成兩個32 MB的SRAM段來支持兩個神經(jīng)網(wǎng)絡(luò)處理器。特斯拉認(rèn)為其強(qiáng)大的SRAM容量是其相對于其他類型芯片的最大優(yōu)勢之一。

NPU的算力能夠滿足很多圖像相關(guān)的識別算法:

圖片

假設(shè)此時你車上的AI圖像算法是YOLO-V3,它是一種使用深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)得的特征來檢測對象的目標(biāo)檢測器,直白點(diǎn)就是照片識別器,在機(jī)場地鐵都有批量使用,就是大量的卷積、殘差網(wǎng)絡(luò)、全連接等類型的計(jì)算,本質(zhì)是乘法和加法。對于YOLO-V3來說,如果確定了具體的輸入圖形尺寸,那么總的乘法加法計(jì)算次數(shù)是確定的。比如一萬億次。(真實(shí)的情況比這個大得多的多),用算力表示就是TOPS為單位。那么要快速執(zhí)行一次YOLO-V3,就必須執(zhí)行完一萬億次的加法乘法次數(shù)。

圖片

這個時候就來看了,比如IBM的POWER8,最先進(jìn)的服務(wù)器用超標(biāo)量CPU之一,4GHz,SIMD,128bit,假設(shè)是處理16bit的數(shù)據(jù),那就是8個數(shù),那么一個周期,最多執(zhí)行8個乘加計(jì)算。一次最多執(zhí)行16個操作。這還是理論上,其實(shí)是不大可能的。

那么CPU一秒鐘的巔峰計(jì)算次數(shù)=16* 4Gops =64Gops,當(dāng)然,以上的數(shù)據(jù)都是完全最理想的理論值。因?yàn)?#xff0c;芯片上的存儲不夠大,所以數(shù)據(jù)會存儲在DRAM中,從DRAM取數(shù)據(jù)很慢的,所以,乘法邏輯往往要等待。另外,AI算法有許多層網(wǎng)絡(luò)組成,必須一層一層的算,所以,在切換層的時候,乘法邏輯又是休息的,所以,諸多因素造成了實(shí)際的芯片并不能達(dá)到利潤的計(jì)算峰值,而且差距還極大,實(shí)際情況,能夠達(dá)到5%吧,也就3.2Gops,按照這個圖像算法,如果需要執(zhí)行YOLO-V3的計(jì)算,1W除以3.2=3125秒,也就是那么需要等待52分鐘才能計(jì)算出來。

如果是當(dāng)前的CPU去運(yùn)算,那么估計(jì)車翻到河里了還沒發(fā)現(xiàn)前方是河,這就是速度慢,對于ADAS產(chǎn)品而言,時間就是生命。

此時我們在回過頭來看看高通820A芯片的算力,CPU的算力才42K,剛剛那個是基于最先進(jìn)的服務(wù)器IBM的POWER8 CPU計(jì)算力是是3.2GPOS,車載算的上最先進(jìn)的域控制器才42K的CPU計(jì)算力,所以不能用于AI的計(jì)算。此時需要使用GPU來計(jì)算,看看GPU的算力是320Gops,此時算這個YOLO-V3圖像識別的算法需要32秒,這個成績還是非常不錯的。

此時可以看到高通820A芯片的CPU算力是不能夠用于AI的計(jì)算,GPU的算力是可以滿足一些不需要那么實(shí)時性比較高的一些AI處理。

此時可以看到高通820A芯片的CPU算力是不能夠用于AI的計(jì)算,GPU的算力是可以滿足一些不需要那么實(shí)時性比較高的一些AI處理。

此時再來看看特斯拉的NPU,這個只需要13.8ms就可以計(jì)算出來了,按照80KM/h的速度,這個響應(yīng)速度在0.3米,完全是杠杠的,實(shí)際情況下應(yīng)該沒有那么快,因?yàn)檫\(yùn)算速度沒有那么快。

神經(jīng)網(wǎng)絡(luò)處理器是一個非常強(qiáng)大的工具。很多數(shù)據(jù)都要經(jīng)過它,但有些計(jì)算任務(wù)還沒有調(diào)整到適合神經(jīng)網(wǎng)絡(luò)處理器上運(yùn)行,或者不適合這種處理器。這就是GPU的用武之地。該芯片的GPU(每輛特斯拉都有)性能適中,運(yùn)行速度為1 GHz,能夠處理600 GFLOPS數(shù)據(jù)。特斯拉表示,GPU目前正在執(zhí)行一些后處理任務(wù),其中可能包括創(chuàng)建人類可以理解的圖片和視頻。然而,從特斯拉在其演示中描述的GPU的角色來看,預(yù)計(jì)該芯片的下一次迭代將擁有一個更小的GPU。

還有一些通用的處理任務(wù)不適合由神經(jīng)網(wǎng)絡(luò)處理器處理、而由CPU來完成的。特斯拉解釋說,芯片中有12個ARM Cortex A72 64位CPU,運(yùn)行速度為2.2 GHz。盡管這樣——更準(zhǔn)確的描述應(yīng)該是有三個4核cpu——特斯拉選擇使用ARM的Cortex A72架構(gòu)有點(diǎn)令人費(fèi)解。Cortex A72是2015年的一個架構(gòu)。從那以后,A73, A75,甚至幾天前A77架構(gòu)已經(jīng)發(fā)布。埃隆和他的團(tuán)隊(duì)解釋說,這是他們兩年前開始設(shè)計(jì)芯片時就有的東西。

對于Tesla來說,這可能是一個更便宜的選擇,如果多線程性能對他們來說比單個任務(wù)性能更重要,那么這是有意義的,因此包含3個較老的處理器而不是1個或2個更新或更強(qiáng)大的處理器。多線程通常需要更多的編程工作來正確分配任務(wù),但是,嘿,我們正在談?wù)摰氖翘厮估@對它來說可能是小菜一碟。無論如何,該芯片的CPU性能比特斯拉之前版本HW 2.0的CPU性能高出2.5倍。

AI芯片加速原理:

人工智能(深度學(xué)習(xí))現(xiàn)在無處不在,衡量人工智能運(yùn)算量通常有三個名詞。

FLOPS:注意全大寫,是floating point operations per second的縮寫,意指每秒浮點(diǎn)運(yùn)算次數(shù),理解為計(jì)算速度。是一個衡量硬件性能的指標(biāo)。

FLOPs:注意s小寫,是floating point operations的縮寫(s表復(fù)數(shù)),意指浮點(diǎn)運(yùn)算數(shù),理解為計(jì)算量??梢杂脕砗饬克惴?模型的復(fù)雜度。

MACCs:是multiply-accumulate operations),也叫MAdds,意指乘-加操作(點(diǎn)積運(yùn)算),理解為計(jì)算量,也叫MAdds, 大約是 FLOPs 的一半。

人工智能中最消耗運(yùn)算量的地方是卷積,就是乘和累加運(yùn)算Multiply Accumulate,MAC。

y = w[0]*x[0] + w[1]*x[1] + w[2]*x[2] + ... + w[n-1]*x[n-1]

w 和 x 都是向量,y 是標(biāo)量。上式是全連接層或卷積層的典型運(yùn)算。一次乘-加運(yùn)算即一次乘法+一次加法運(yùn)算,所以上式的 MACCs 是n。而換到 FLOPS 的情況,點(diǎn)積做了 2n-1 FLOPS,即 n-1 次加法和 n 次乘法??梢钥吹?#xff0c;MACCs 大約是 FLOPS 的一半。實(shí)際就是MAC只需一個指令,一個運(yùn)算周期內(nèi)就可完成乘和累加。卷積運(yùn)算、點(diǎn)積運(yùn)算、矩陣運(yùn)算、數(shù)字濾波器運(yùn)算、乃至多項(xiàng)式的求值運(yùn)算都可以分解為數(shù)個 MAC 指令,人工智能運(yùn)算也可以寫成MAC運(yùn)算。

MAC指令的輸入及輸出的數(shù)據(jù)類型可以是整數(shù)、定點(diǎn)數(shù)或是浮點(diǎn)數(shù)。若處理浮點(diǎn)數(shù)時,會有兩次的數(shù)值修約(Rounding),這在很多典型的DSP上很常見。若一條MAC指令在處理浮點(diǎn)數(shù)時只有一次的數(shù)值修約,則這種指令稱為“融合乘加運(yùn)算”/“積和熔加運(yùn)算”(fused multiply-add, FMA)或“熔合乘法累積運(yùn)算”(fused multiply–accumulate,FMAC)。假設(shè)3×3卷積,128 個 filer,輸入的 feature map 是 112×112×64,stride=1,padding=same,MACCs 有:3×3×64×112×112×128=924,844,032次,即1.85TOPS算量。

?AI芯片就是簡單暴力地堆砌MAC單元。增加MAC數(shù)量,這是提升算力最有效的方法,沒有之一,而增加MAC數(shù)量意味著芯片裸晶面積即成本的大幅度增加,這也是為什么AI芯片要用到盡可能先進(jìn)的半導(dǎo)體制造工藝,越先進(jìn)的半導(dǎo)體制造工藝,就可擁有更高的晶體管密度,即同樣面積下更多的MAC單元,衡量半導(dǎo)體制造工藝最主要的指標(biāo)也就是晶體管密度而不是數(shù)字游戲的幾納米。

具體來說,臺積電初期7納米工藝,每平方毫米是9630萬個晶體管,后期7+納米可以做到每平方毫米1.158億個晶體管,三星7納米是9530萬個,落后臺積電18%,而英特爾的10納米工藝是1.0078億個晶體管,領(lǐng)先三星,落后臺積電。這也是臺積電壟斷AI芯片的原因。而5納米工藝,臺積電是1.713億個晶體管,而英特爾的7納米計(jì)劃是2億個晶體管,所以英特爾的7納米芯片一直難產(chǎn),難度比臺積電5納米還高。順便說下,臺積電平均每片晶圓價格近4000美元,三星是2500美元,中芯國際是1600美元。

除了增加數(shù)量,還有提高M(jìn)AC運(yùn)行頻率,但這意味著功耗大幅度增加,有可能造成芯片損壞或死機(jī),一般不會有人這么做。除了簡單的數(shù)量增加,再一條思路是提高M(jìn)AC的效率。

提高M(jìn)AC效率方法:

提升MAC效率最重要的就是存儲

真實(shí)值和理論值差異極大。決定算力真實(shí)值最主要因素是內(nèi)存( SRAM和DRAM)帶寬,還有實(shí)際運(yùn)行頻率( 即供電電壓或溫度),還有算法的batch尺寸。例如谷歌第一代TPU,理論值為90TOPS算力,最差真實(shí)值只有1/9,也就是10TOPS算力,因?yàn)榈谝淮鷥?nèi)存帶寬僅34GB/s。而第二代TPU下血本使用了HBM內(nèi)存,帶寬提升到600GB/s(單一芯片,TPU V2板內(nèi)存總帶寬2400GB/s)。

最新的英偉達(dá)的A100使用40GB的2代HBM,帶寬提升到1600GB/s,比V100提升大約73%。特斯拉是128 bit LPDDR4-4266 ,那么內(nèi)存的帶寬就是:2133MHz*2DDR*128bit/8/1000=68.256GB/s。比第一代TPU略好( 這些都是理論上的最大峰值帶寬)其性能最差真實(shí)值估計(jì)是2/9。也就是大約8TOPS。16GB版本的Xavier內(nèi)存峰值帶寬是137GB/s。

為什么會這樣,這就牽涉到MAC計(jì)算效率問題,如果你的算法或者說CNN卷積需要的算力是1TOPS,而運(yùn)算平臺的算力是4TOPS,那么利用效率只有25%,運(yùn)算單元大部分時候都在等待數(shù)據(jù)傳送,特別是batch尺寸較小時候,這時候存儲帶寬不足會嚴(yán)重限制性能。但如果超出平臺的運(yùn)算能力,延遲會大幅度增加,存儲瓶頸一樣很要命。效率在90-95%情況下,存儲瓶頸影響最小,但這并不意味著不影響了,影響依然存在。

然而平臺不會只運(yùn)算一種算法,運(yùn)算利用效率很難穩(wěn)定在90-95%。這就是為何大部分人工智能算法公司都想定制或自制計(jì)算平臺的主要原因,計(jì)算平臺廠家也需要推出與之配套的算法,軟硬一體,實(shí)難分開。

最為有效的方法還是減小運(yùn)算單元與存儲器之間的物理距離。也是這15年來高性能芯片封裝技術(shù)發(fā)展的主要目標(biāo),這不僅可以提高算力,還能降低功耗減少發(fā)熱。這其中最有效的技術(shù)就是HBM和CoWoS。

圖片

CPU與HBM2之間通過Micro-bump連接,線寬僅為55微米,比傳統(tǒng)的板上內(nèi)存或者說off-chip內(nèi)存要減少20倍的距離??梢源蟠缶徑鈨?nèi)存瓶頸問題。

不過HBM和CoWoS價格都很高,假設(shè)500萬的一次下單量,7納米工藝的話,純晶圓本身的硬件成本大約是每片芯片208-240美元,這個價格做訓(xùn)練用AI芯片可以承受,但是推理AI芯片用不起。再有CoWoS是臺積電壟斷的,臺積電也正是靠這種工藝完全壟斷高性能計(jì)算芯片代工。英特爾的EMIB是唯一能和CoWoS抗衡的工藝,但英特爾不代工。

退而求其次的方法是優(yōu)化指令集,盡量減少數(shù)據(jù)的訪存,CNN算法會引入大量的訪存行為,這個訪存行為的頻繁度會隨著參考取樣集合的增加而增加(原因很簡單,緩存無法裝下所有的參考取樣,所以,即便這些參考取樣會不斷地被重復(fù)訪問,也無法充分挖掘數(shù)據(jù)本地化所帶來的cache收益)。針對這種應(yīng)用類型,實(shí)際上存在成熟的優(yōu)化范式——脈動陣列。

脈動陣列

脈動陣列并不是一個新鮮的詞匯,在計(jì)算機(jī)體系架構(gòu)里面已經(jīng)存在很長時間。大家可以回憶下馮諾依曼架構(gòu),很多時候數(shù)據(jù)一定是存儲在memory里面的,當(dāng)要運(yùn)算的時候需要從memory里面?zhèn)鬏數(shù)紹uffer或者Cache里面去。

當(dāng)我們使用computing的功能來運(yùn)算的時候,往往computing消耗的時間并不是瓶頸,更多的瓶頸在于memory的存和取。所以脈動陣列的邏輯也很簡單,既然memory讀取一次需要消耗更多的時間,脈動陣列盡力在一次memory讀取的過程中可以運(yùn)行更多的計(jì)算,來平衡存儲和計(jì)算之間的時間消耗。

圖片

下面說下脈沖陣列的基本原理:

首先,圖中上半部分是傳統(tǒng)的計(jì)算系統(tǒng)的模型。一個處理單元(PE)從存儲器(memory)讀取數(shù)據(jù),進(jìn)行處理,然后再寫回到存儲器。這個系統(tǒng)的最大問題是:數(shù)據(jù)存取的速度往往大大低于數(shù)據(jù)處理的速度。因此,整個系統(tǒng)的處理能力(MOPS,每秒完成的操作)很大程度受限于訪存的能力。這個問題也是多年來計(jì)算機(jī)體系結(jié)構(gòu)研究的重要課題之一,可以說是推動處理器和存儲器設(shè)計(jì)的一大動力。而脈動架構(gòu)用了一個很簡單的方法:讓數(shù)據(jù)盡量在處理單元中多流動一會兒。

正如上圖的下半部分所描述的,第一個數(shù)據(jù)首先進(jìn)入第一個PE,經(jīng)過處理以后被傳遞到下一個PE,同時第二個數(shù)據(jù)進(jìn)入第一個PE。以此類推,當(dāng)?shù)谝粋€數(shù)據(jù)到達(dá)最后一個PE,它已經(jīng)被處理了多次。所以,脈動架構(gòu)實(shí)際上是多次重用了輸入數(shù)據(jù)。因此,它可以在消耗較小的memory帶寬的情況下實(shí)現(xiàn)較高的運(yùn)算吞吐率。

上面這張圖非常直觀的從一維數(shù)據(jù)流展示了脈動陣列的簡單邏輯。當(dāng)然,對于CNN等神經(jīng)網(wǎng)絡(luò)來說,很多時候是二維的矩陣。所以,脈動陣列從一維到二維也能夠非常契合CNN的矩陣乘加的架構(gòu)。

降低推理的量化比特精度是最常見的方法。它既可以大大降低運(yùn)算單元的精度,又可以減少存儲容量需求和存儲器的讀寫。但是,降低比特精度也意味著推斷準(zhǔn)確度的降低,這在一些應(yīng)用中是無法接受的。由此,基本運(yùn)算單元的設(shè)計(jì)趨勢是支持可變比特精度,比如BitMAC 就能支持從 1 比特到 16 比特的權(quán)重精度。大部分AI推理芯片只支持INT8位和16位數(shù)據(jù)。

除了降低精度以外,還可以結(jié)合一些數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換來減少運(yùn)算量,比如通過快速傅里葉變換(FFT)變換來減少矩陣運(yùn)算中的乘法;還可以通過查表的方法來簡化 MAC 的實(shí)現(xiàn)等。

對于使用修正線性單元(ReLU)作為激活函數(shù)的神經(jīng)網(wǎng)絡(luò),激活值為零的情況很多 ;而在對神經(jīng)網(wǎng)絡(luò)進(jìn)行的剪枝操作后,權(quán)重值也會有很多為零?;谶@樣的稀疏性特征,一方面可以使用專門的硬件架構(gòu),比如 SCNN 加速器,提高 MAC 的使用效率,另一方面可以對權(quán)重和激活值數(shù)據(jù)進(jìn)行壓縮。

圖片

還可以從體系架構(gòu)上對整個的Memory讀取來做進(jìn)一步的優(yōu)化。這里摘取的是寒武紀(jì)展示的一些科研成果。其實(shí)比較主流的方式就是盡量做Data Reuse,減少片上Memory和片外Memory的信息讀取次數(shù),增加片上memory,因?yàn)槠蠑?shù)據(jù)讀取會更快一點(diǎn),這種方式也能夠盡量降低Memory讀取所消耗的時間,從而達(dá)到運(yùn)算的加速。

圖片

對于神經(jīng)網(wǎng)絡(luò)來說,其實(shí)很多的連接并不是一定要存在的,也就是說我去掉一些連接,可能壓縮后的網(wǎng)絡(luò)精度相比壓縮之前并沒有太大的變化?;谶@樣的理念,很多剪枝的方案也被提了出來,也確實(shí)從壓縮的角度帶來了很大效果提升。

需要特別提出的是,大家從圖中可以看到,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)包括卷積層和全連接層兩大塊,剪枝對全連接層的壓縮效率是最大的。下面柱狀圖的藍(lán)色部分就是壓縮之后的系數(shù)占比,從中可以看到剪枝對全連接層的壓縮是最大的,而對卷積層的壓縮效果相比全連接層則差了很多。

所以這也是為什么,在語音的加速上很容易用到剪枝的一些方案,但是在機(jī)器視覺等需要大量卷積層的應(yīng)用中剪枝效果并不理想。

圖片

對于整個Deep Learning網(wǎng)絡(luò)來說,每個權(quán)重系數(shù)是不是一定要浮點(diǎn)的,定點(diǎn)是否就能滿足?定點(diǎn)是不是一定要32位的?很多人提出8位甚至1位的定點(diǎn)系數(shù)也能達(dá)到很不錯的效果,這樣的話從系數(shù)壓縮來看就會有非常大的效果。從下面三張人臉識別的紅點(diǎn)和綠點(diǎn)的對比,就可以看到其實(shí)8位定點(diǎn)系數(shù)在很多情況下已經(jīng)非常適用了,和32位定點(diǎn)系數(shù)相比并沒有太大的變化。所以,從這個角度來說,權(quán)重系數(shù)的壓縮也會帶來網(wǎng)絡(luò)模型的壓縮,從而帶來計(jì)算的加速。

谷歌的TPU AI計(jì)算加速介紹:

圖片

這是Google的TPU。從上邊的芯片框圖可以看到,有一個64K的乘加MAC陣列對乘加運(yùn)算進(jìn)行加速。從論文中可以看到里面已經(jīng)用到了脈動陣列的架構(gòu)方法來對運(yùn)算進(jìn)行加速,另外也有我們前面提到的大量的片上Memory 這樣的路徑。上面藍(lán)色框圖中大家可以看到有一個24MiB的片上Memory,而且有兩個高速DDR3接口能夠與片外的DDR做交互。

再來說說AI芯片。比如大名鼎鼎的谷歌的TPU1。TPU1,大約700M Hz,有256X256尺寸的脈動陣列,如下圖所示。一共256X256=64K個乘加單元,每個單元一次可執(zhí)行一個乘法和一個加法。那就是128K個操作。(乘法算一個,加法再算一個)。

圖片

另外,除了脈動陣列,還有其他模塊,比如激活等,這些里面也有乘法、加法等。

所以,看看TPU1一秒鐘的巔峰計(jì)算次數(shù)至少是=128K X 700MHz=89600Gops=大約90Tops。

對比一下CPU與TPU1,會發(fā)現(xiàn)計(jì)算能力有幾個數(shù)量級的差距,這就是為啥說CPU慢。

?當(dāng)然,以上的數(shù)據(jù)都是完全最理想的理論值,實(shí)際情況,能夠達(dá)到5%吧。因?yàn)?#xff0c;芯片上的存儲不夠大,所以數(shù)據(jù)會存儲在DRAM中,從DRAM取數(shù)據(jù)很慢的,所以,乘法邏輯往往要等待。另外,AI算法有許多層網(wǎng)絡(luò)組成,必須一層一層的算,所以,在切換層的時候,乘法邏輯又是休息的,所以,諸多因素造成了實(shí)際的芯片并不能達(dá)到利潤的計(jì)算峰值,而且差距還極大。

圖片

上圖展示的第二代TPU。從圖中可以很直觀的看到,它用到了我們前面所說到的HBM Memory。從其論文披露的信息也可以看到,二代TPU在第一代的基礎(chǔ)上增加了我們前面說到的剪枝,權(quán)重壓縮等方面做了很多嘗試,也是一個非常經(jīng)典的云端AI加速芯片的例子。

圖片

特斯拉HW4.0 將改變未來汽車的模樣

硬件層面:

我們對HW 4.0有什么期待呢?目前,我們所知道的是,它的目的是進(jìn)一步提高安全性。唯一真正告訴我們的是,它不會專注于讓一輛舊車學(xué)習(xí)新技術(shù),但這并不意味著它不會包括一些新技術(shù)。以下是我列出的HW 4.0可能帶來的潛在變化和改進(jìn),從最可能的到最具推測性的排列如下:

特斯拉很可能會使用更新的CPU版本,這取決于特斯拉什么時候開始設(shè)計(jì)基于A75的架構(gòu)。增加的處理能力讓特斯拉有機(jī)會節(jié)省芯片上的功耗和空間,為更重要的組件騰出空間。

特斯拉可能會升級到LPDDR5,這將導(dǎo)致顯著的速度提升和功耗降低。但是,如果HW 4.0芯片在設(shè)計(jì)過程中、或者為了降低成本,特斯拉可能會選擇LPDDR4X。通過使用較低的電壓平臺,LPDDR4X節(jié)省了能耗,但如果同時使用多個芯片,它仍然可以提高速度。盡管如此,與HW 3.0相比,這種配置并不會節(jié)省能耗。任何一種選擇都代表著對HW 3.0的全面改進(jìn)。

進(jìn)一步改進(jìn)具有更多SRAM的神經(jīng)網(wǎng)絡(luò)處理單元。

根據(jù)芯片上的處理能力是否能夠處理攝像頭傳輸過來的全分辨率和幀速率的數(shù)據(jù),特斯拉的HW 4,0可能會配備更高分辨率的新攝像頭和傳感器,甚至可能會有更高的幀速率。更高分辨率的圖像是至關(guān)重要的,因?yàn)楦嗟募?xì)節(jié)將幫助計(jì)算機(jī)更準(zhǔn)確地識別物體,并具備更遠(yuǎn)的識別距離。

升級的圖像信號處理器(ISP)。特斯拉想讓自己的芯片盡可能的便宜和強(qiáng)大。這就是為什么在HW 3.0中,芯片輸入的處理能力和ISP的處理能力之間存在很大的脫節(jié),因此需要一個更強(qiáng)大的或第二塊ISP,這取決于哪種解決方案需要更低的功耗、更小的空間或更低的成本。

圖片

一個更小的GPU。HW 3.0的SoC中還存在GPU的原因之一是,并不是所有的處理任務(wù)都轉(zhuǎn)移到神經(jīng)網(wǎng)絡(luò)處理器中去了。對于特斯拉來說,讓它的程序員有足夠的時間將剩余的GPU處理任務(wù)重新分配給NPU或CPU可能是一條捷徑。完全消除GPU可能是不可能的;然而,一個更小的GPU和更小的SoC占用導(dǎo)致更少的NoC,這樣可以為更關(guān)鍵的組件——如更多的SRAM——勻出預(yù)算和空間。

軟件層面:

新一代自動駕駛芯片和HW4.0即將在明年量產(chǎn),重構(gòu)AutoPilot底層架構(gòu),將推出訓(xùn)練神經(jīng)網(wǎng)絡(luò)超級計(jì)算機(jī)Dojo,瞄準(zhǔn)L5自動駕駛場景。2020年8月多家媒體報(bào)道,特斯拉正與博通合作研發(fā)新款 HW 4.0 自動駕駛芯片,有望在明年第四季度大規(guī)模量產(chǎn),未來將采用臺積電 7nm 技術(shù)進(jìn)行生產(chǎn)。同時AutoPilot 團(tuán)隊(duì)正對軟件的底層代碼進(jìn)行重寫和深度神經(jīng)網(wǎng)絡(luò)重構(gòu), 包括對數(shù)據(jù)標(biāo)注、訓(xùn)練、推理全流程的重構(gòu)。

圖片

全新的訓(xùn)練計(jì)算機(jī) Dojo 正在開發(fā)中。Dojo 將專門用于大規(guī)模的圖像和視頻數(shù)據(jù)處理,其浮點(diǎn)運(yùn)算能力將達(dá)到exaflop 級別(秒運(yùn)算百億億次),將配合無監(jiān)督學(xué)習(xí)算法,來減少特斯拉對于數(shù)據(jù)人工標(biāo)注的工作量,幫助特斯拉數(shù)據(jù)訓(xùn)練效率實(shí)現(xiàn)指數(shù)級提升。目前特斯拉已經(jīng)擁有超過82萬臺車不斷回傳數(shù)據(jù),到2020年年底將擁有51億英里駕駛數(shù)據(jù)用于自動駕駛訓(xùn)練,過去的訓(xùn)練數(shù)據(jù)依賴于人工標(biāo)注,而主動的自監(jiān)督學(xué)習(xí)配合Dojo計(jì)算機(jī)可以大幅優(yōu)化算法提升的效率。

圖片

Dojo 可以改善 Autopilot 的工作方式,從目前的2D圖像 + 內(nèi)容標(biāo)注方式訓(xùn)練,升級到可以在「4D」(3D 加上時間維度)環(huán)境下運(yùn)行。我們預(yù)計(jì)借助強(qiáng)大的自研計(jì)算平臺、全球領(lǐng)先的AI算法能力、龐大的實(shí)際駕駛數(shù)據(jù)量,特斯拉有望成為率先實(shí)現(xiàn)L5級別自動駕駛的公司。

特斯拉HW4.0為什么有勇氣對激光雷達(dá)say no:

目前還在堅(jiān)持做圖像識別為主的只有特斯拉了,Mobileye已經(jīng)開始使用了激光雷達(dá)做下一代自動駕駛平臺的關(guān)鍵器件了,只有馬教主堅(jiān)持激光雷達(dá)就像闌尾,他說:一個闌尾就夠糟了,還帶一堆,簡直荒謬。

特斯拉如此有勇氣,其實(shí)在于它的研發(fā)模式,從芯片 ,操作系統(tǒng),算法以及控制器都是自研,整個性能可以發(fā)揮到極致。

圖片

視覺方案通過攝像頭,致力于解決“拍到的是什么”問題。從工作原理來看,視覺方案以攝像頭作為主要傳感器,通過收集外界反射的光線從而進(jìn)一步呈現(xiàn)出外界環(huán)境畫面,即我們所熟悉的攝像頭功能,再進(jìn)行后續(xù)圖像分割、物體分類、目標(biāo)跟蹤、世界模型、多傳感器融合、在線標(biāo)定、視覺SLAM、ISP 等一系列步驟進(jìn)行匹配與深度學(xué)習(xí),其核心環(huán)節(jié)在于物體識別與匹配,或者運(yùn)用AI 自監(jiān)督學(xué)習(xí)來達(dá)到感知分析物體的目的,需要解決的是“我拍到的東西是什么”的問題。

圖片

視覺方案重在分類,但樣本有限度限制了視覺識別正確性,而優(yōu)化樣本對于AI 學(xué)習(xí)能力、樣本數(shù)據(jù)量要求極高。由于L3 級及以上自動駕駛需要機(jī)器應(yīng)對較為復(fù)雜的路況,要求車輛對于道路狀況有精準(zhǔn)識別能力,而視覺技術(shù)需要解決的是“攝像頭拍到的是什么物體”的問題,因而對于神經(jīng)網(wǎng)絡(luò)訓(xùn)練集要求很高。對于訓(xùn)練的方法,一種為通過機(jī)器視覺,人為設(shè)定好識別樣本,通過收集到的數(shù)據(jù)直接與樣本匹配來識別的方式,但是能否成功辨別物體高度依賴樣本的訓(xùn)練,樣本未覆蓋的物體將難以辨別;另一種為AI 學(xué)習(xí),能夠通過自學(xué)習(xí)的方式擺脫樣本限制,但是對于算法與算力要求很高,并且其學(xué)習(xí)過程是個“黑盒子”,輸出結(jié)果的過程未知,因而難以人為調(diào)試與糾錯。

而這兩個關(guān)鍵問題,對于特斯拉都可以通過提高芯片本身的算力,還有云計(jì)算平臺的大數(shù)據(jù)訓(xùn)練來解決。

圖片

特斯拉的視覺方案具有很高的算法與算力復(fù)雜度。特斯拉曾公布過自己數(shù)據(jù)流自動化計(jì)劃的終極目標(biāo)“OPERATION VACATION”,從數(shù)據(jù)收集、訓(xùn)練、評估、算力平臺到“影子模式”形成數(shù)據(jù)采集與學(xué)習(xí)循環(huán)。

數(shù)據(jù)收集:通過8 個攝像頭對車體周圍進(jìn)行無死角圖像采集;

數(shù)據(jù)訓(xùn)練:使用PyTorch 進(jìn)行網(wǎng)絡(luò)訓(xùn)練,特斯拉的網(wǎng)絡(luò)訓(xùn)練包含48 個不同的神經(jīng)網(wǎng)絡(luò),

能輸出1000 個不同的預(yù)測張量。其背后訓(xùn)練量巨大,特斯拉已耗費(fèi)70000 GPU 小時進(jìn)行深度學(xué)習(xí)模型訓(xùn)練;

背后算力支持:特斯拉自研打造了FSD 芯片,具有單片144TOPS 的高算力值。另外,

特斯拉規(guī)劃創(chuàng)造Dojo 超級計(jì)算機(jī),可在云端對大量視頻進(jìn)行無監(jiān)督學(xué)習(xí)訓(xùn)練,目前離開發(fā)出來的進(jìn)度值得期待;

影子模式:特斯拉通過獨(dú)創(chuàng)“影子模式”來降低樣本訓(xùn)練成本、提高識別準(zhǔn)確度,即特斯拉持續(xù)收集外部環(huán)境與駕駛者的行為,并與自身策略對比,如果駕駛者實(shí)際操作與自身判斷有出入,當(dāng)下數(shù)據(jù)就會上傳至特斯拉云端,并對算法進(jìn)行修正訓(xùn)練。

從數(shù)據(jù)采集,本地芯片硬件處理、圖像的軟件算法處理、再到后臺的超級計(jì)算機(jī)進(jìn)行訓(xùn)練,這個需要一系列的技術(shù)支持,最好從芯片、操作系統(tǒng)、算法、控制器都是自研,這樣才能把芯片的性能發(fā)揮最佳,從Mobileye的黑盒子開發(fā)模式,直接就讓車廠徹底放棄了這條純視覺處理的道路,不投入幾千億估計(jì)門都摸不著方向,所以目前只有特斯拉這樣的理工男對于激光雷達(dá)有勇氣say no。


?

特斯拉FSD 關(guān)鍵功能匯總

參考資料:

1、https://mp.weixin.qq.com/s/s4XzAFBVle92lKGrh8S5_A

2、https://mp.weixin.qq.com/s/YgiMNF2NxWlqxJD7vxfALg

3、https://mp.weixin.qq.com/s/IxcVhpKfDhq-85pmV-a_HA

http://www.risenshineclean.com/news/61363.html

相關(guān)文章:

  • 京京商城搜索引擎快速優(yōu)化排名
  • 做寫手一般上什么網(wǎng)站好中國紀(jì)檢監(jiān)察報(bào)
  • 紅河個舊網(wǎng)站建設(shè)網(wǎng)站關(guān)鍵字優(yōu)化軟件
  • ftp如何上傳網(wǎng)站手機(jī)建網(wǎng)站軟件
  • 韶關(guān)網(wǎng)站建設(shè)第一品牌阿里巴巴國際站運(yùn)營
  • 公司的網(wǎng)站難不難做網(wǎng)絡(luò)優(yōu)化工程師前景如何
  • 陜西省建設(shè)資質(zhì)是哪個網(wǎng)站百度用戶服務(wù)中心官網(wǎng)
  • 做網(wǎng)站鼠標(biāo)移動 鏈接變顏色百度推廣培訓(xùn)機(jī)構(gòu)
  • 怎么做域名網(wǎng)站備案網(wǎng)站建設(shè)方案推廣
  • 外協(xié)機(jī)械加工訂單sem和seo有什么區(qū)別
  • html5網(wǎng)站模板 站長網(wǎng)百度云網(wǎng)盤免費(fèi)資源
  • 網(wǎng)站開發(fā)及運(yùn)營代理協(xié)議范本友情鏈接怎么做
  • 兩學(xué)一做 網(wǎng)站網(wǎng)絡(luò)安全培訓(xùn)機(jī)構(gòu)排名
  • 神農(nóng)架網(wǎng)站建設(shè)公司阿里云建網(wǎng)站
  • 企業(yè)網(wǎng)站數(shù)防泄露怎么做開車搜索關(guān)鍵詞
  • 自建站需要多少錢中國培訓(xùn)網(wǎng)官網(wǎng)
  • 網(wǎng)站seo推廣公司靠譜嗎電商平臺推廣怎么做
  • 笑傲網(wǎng)站建設(shè)南京關(guān)鍵詞網(wǎng)站排名
  • 北京商城網(wǎng)站開發(fā)百度下載安裝2021最新版
  • 臺州cms建站系統(tǒng)百度官網(wǎng)下載安裝
  • 金溪縣建設(shè)局網(wǎng)站網(wǎng)站開發(fā)費(fèi)用
  • 國內(nèi)外貿(mào)b2c網(wǎng)站運(yùn)營seo是什么意思
  • 惠州企業(yè)建站模板百度推廣多少錢一個月
  • 優(yōu)設(shè)網(wǎng)網(wǎng)站倉山區(qū)seo引擎優(yōu)化軟件
  • 網(wǎng)站開發(fā)東莞如何推廣網(wǎng)上國網(wǎng)
  • 網(wǎng)站二級頁怎么做寧波網(wǎng)站推廣優(yōu)化公司怎么樣
  • ic外貿(mào)網(wǎng)站建設(shè)網(wǎng)絡(luò)媒體有哪些
  • 2018年網(wǎng)站建設(shè)培訓(xùn)會發(fā)言營銷互聯(lián)網(wǎng)推廣公司
  • 網(wǎng)站的關(guān)于頁面寧波seo關(guān)鍵詞
  • 免費(fèi)試用網(wǎng)站空間成都十大營銷策劃公司