wordpress 網(wǎng)站打開速度慢成都純手工seo
目錄
一、Elasticsearch
1.1 產(chǎn)品組件
1.1.1?X-Pack
1.1.2 Beats數(shù)據(jù)采集中心
1.1.3?Logstash
1.1.4 Kibana
1.2 架構(gòu)特性
1.2.1 性能
1.2.2 安全性
1.2.3 可用性
1.2.4 可擴(kuò)展性
1.2.5 可維護(hù)性
1.2.6 國(guó)際化
1.3?綜合檢索分析
1.4 全觀測(cè)
1.5 大數(shù)據(jù)檢索加速
1.6?最佳實(shí)踐 - 多模態(tài)搜索
1.6.1 需求分析
1.6.2 解決方案
1.7?最佳實(shí)踐 - 全觀測(cè)
1.7.1 需求分析
1.7.2 解決方案
1.8?最佳實(shí)踐 - 數(shù)據(jù)檢索加速
1.8.1 需求分析
1.8.2 解決方案
二、DataWorks
2.1 產(chǎn)品介紹
2.2?產(chǎn)品功能
2.2.1 數(shù)據(jù)建模
2.2.2?數(shù)據(jù)集成離線(批量)同步
2.2.3?數(shù)據(jù)集成實(shí)時(shí)同步
2.2.4?數(shù)據(jù)集成全增量同步任務(wù)
2.2.5?數(shù)據(jù)開發(fā)
2.2.6?數(shù)據(jù)分析
2.2.7?數(shù)據(jù)治理
2.2.8?數(shù)據(jù)服務(wù)
2.3?最佳實(shí)踐-調(diào)度參數(shù)在數(shù)據(jù)集成中的典型應(yīng)用場(chǎng)景
2.3.1 場(chǎng)景一:同步增量數(shù)據(jù)
2.3.2?場(chǎng)景二:同步歷史數(shù)據(jù)
2.4?常見問題
2.4.1?什么是調(diào)度依賴?
2.4.2 哪些場(chǎng)景不支持設(shè)置調(diào)度依賴?
2.4.3 數(shù)據(jù)源網(wǎng)絡(luò)聯(lián)通性測(cè)試失敗怎么辦?
2.4.4 提交節(jié)點(diǎn)報(bào)錯(cuò):當(dāng)前節(jié)點(diǎn)依賴的父節(jié)點(diǎn)輸出名不存在
三、MaxCompute
3.1 產(chǎn)品架構(gòu)
3.2 核心概念和層次結(jié)構(gòu)
3.3 功能特性
3.3.1 全托管Serverless在線服務(wù)
3.3.2?彈性能力與擴(kuò)展性
3.3.3?統(tǒng)一豐富的計(jì)算和存儲(chǔ)能力
3.3.4?數(shù)據(jù)建模、開發(fā)、治理能力
3.3.5?集成AI能力
3.3.6?深度集成Spark引擎
3.3.7?湖倉一體
3.3.8?離線實(shí)時(shí)一體
3.3.9?支持流式寫入和近實(shí)時(shí)分析
3.3.10?持續(xù)的SaaS化數(shù)據(jù)保護(hù)
3.4?MaxCompute SQL與標(biāo)準(zhǔn)SQL的基本區(qū)別
3.5 最佳實(shí)踐-數(shù)據(jù)模型架構(gòu)規(guī)范
3.5.1 數(shù)據(jù)層次劃分
3.5.2?數(shù)據(jù)分類架構(gòu)
3.6?最佳實(shí)踐 –小文件處理
3.6.1 小文件定義
3.6.2 小文件過多會(huì)帶來的影響
3.6.3 會(huì)產(chǎn)生小文件的場(chǎng)景
3.7 常見問題
3.7.1?使用MaxCompute需要具備什么專業(yè)技能?
3.7.2 MaxCompute中的項(xiàng)目(project)發(fā)揮什么作用?
3.7.3?MaxCompute的表格類型有幾種,分別是什么?
3.7.4?MaxCompute常見錯(cuò)誤信息如何理解,怎么定位問題?
總結(jié)
1、Elasticsearch
2、DataWorks
3、MaxCompute
一、Elasticsearch
1.1 產(chǎn)品組件
????????在阿里云Elastic Stack產(chǎn)品生態(tài)下,Elasticsearch作為實(shí)時(shí)分布式搜索和分析引擎,Kibana實(shí)現(xiàn)靈活的可視化分析,Beats從各個(gè)機(jī)器和系統(tǒng)采集數(shù)據(jù),Logstash采集、轉(zhuǎn)換、優(yōu)化和輸出數(shù)據(jù)。通過各個(gè)組件的結(jié)合,阿里云Elasticsearch可被廣泛應(yīng)用于實(shí)時(shí)日志處理、全文搜索和數(shù)據(jù)分析等領(lǐng)域。
1.1.1?X-Pack
????????X-Pack是Elasticsearch的一個(gè)商業(yè)版擴(kuò)展包,包含安全Security、警告 Alerting、監(jiān)控Monitoring、圖形Graph和報(bào)告Reporting、機(jī)器學(xué)習(xí) MachineLearning等多種高級(jí)功能。創(chuàng)建阿里云Elasticsearch集群時(shí),系統(tǒng)會(huì)默認(rèn)將X-Pack作為插件集成在Kibana中,為您免費(fèi)提供授權(quán)認(rèn)證、角色權(quán)限管控、實(shí)時(shí)監(jiān)控、可視化報(bào)表、機(jī)器學(xué)習(xí)等能力,實(shí)現(xiàn)更便捷的Elasticsearch運(yùn)維管理和應(yīng)用開發(fā)。
1.1.2 Beats數(shù)據(jù)采集中心
????????Beats是輕量級(jí)的數(shù)據(jù)采集工具,集合了多種單一用途的數(shù)據(jù)采集器。它們從成百上千或成千上萬臺(tái)機(jī)器和系統(tǒng)向Logstash或Elasticsearch發(fā)送數(shù)據(jù)。
????????阿里云Elasticsearch的Beats采集中心支持Filebeat、Metricbeat、Auditbeat和Heartbeat。支持在云服務(wù)器ECS(Elastic Compute Service)和容器服務(wù)ACK(Alibaba Cloud Container Service for Kubernetes)集群中一鍵部署采集器,可視化采集與配置日志文件、網(wǎng)絡(luò)數(shù)據(jù)、容器指標(biāo)等多種類型數(shù)據(jù),并集中管理多個(gè)采集器。
1.1.3?Logstash
????????Logstash作為服務(wù)器端的數(shù)據(jù)處理管道,通過輸入、過濾和輸出插件,動(dòng)態(tài)地從多個(gè)來源采集數(shù)據(jù),并加工和轉(zhuǎn)換任何類型的事件,最終將數(shù)據(jù)存儲(chǔ)到所選擇的位置。
????????阿里云提供全托管的Logstash Service,100%兼容開源。支持一鍵部署、可視化配置和集中管理數(shù)據(jù)管道,提供多種插件實(shí)現(xiàn)與OSS、MaxCompute等云產(chǎn)品的連通。
1.1.4 Kibana
????????Kibana是靈活的數(shù)據(jù)分析和可視化工具,支持多用戶登錄。在Kibana中,您可以搜索和查看Elasticsearch索引中的數(shù)據(jù),并進(jìn)行交互。創(chuàng)建阿里云Elasticsearch集群時(shí),系統(tǒng)會(huì)自動(dòng)部署獨(dú)立的Kibana節(jié)點(diǎn),您可以根據(jù)業(yè)務(wù)需求,靈活使用圖表、表格、地圖等,呈現(xiàn)多元化的數(shù)據(jù)分析報(bào)表和大盤。
1.2 架構(gòu)特性
1.2.1 性能
- 深度定制增強(qiáng)內(nèi)核引擎,提升讀寫性能。
- 提供阿里內(nèi)核增強(qiáng)版實(shí)例。基于計(jì)算存儲(chǔ)分離架構(gòu),性能更高,成本更低。
1.2.2 安全性
- 默認(rèn)在專有網(wǎng)絡(luò)環(huán)境下訪問集群。
- 免費(fèi)提供X-Pack安全組件。
- 支持字段級(jí)別的權(quán)限控制。
- 支持HTTPS加密傳輸和數(shù)據(jù)存儲(chǔ)加密。
1.2.3 可用性
- 支持?jǐn)?shù)據(jù)自動(dòng)備份。
- 數(shù)據(jù)和服務(wù)可靠性達(dá)到99.9%。
- 通過自研集群限流插件、慢查詢隔離保障集群穩(wěn)定性。
- 支持多可用區(qū)部署,提供同城多活架構(gòu)。
1.2.4 可擴(kuò)展性
- 綜合檢索分析場(chǎng)景:支持ECS服務(wù)端數(shù)據(jù)、結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)如RDS、非結(jié)構(gòu)化離線數(shù)據(jù)OSS、消息隊(duì)列Kafka、流計(jì)算Flink等上游數(shù)據(jù)接入
- 全觀測(cè)場(chǎng)景:支持開源ELK組件,包括Beats采集組件、kibana 可視化、APM數(shù)據(jù)接入等
1.2.5 可維護(hù)性
- 開箱即用,彈性擴(kuò)縮,一鍵靈活調(diào)整集群配置;支持自定義插件、分詞等;
- 支持一鍵升級(jí)集群版本。
- Eyou智能運(yùn)維:支持多維度二十余個(gè)診斷項(xiàng)的健康檢測(cè),智能化地診斷并分析異常。
- 高級(jí)監(jiān)控報(bào)警服務(wù):通過Grafana提供豐富的監(jiān)控項(xiàng),實(shí)現(xiàn)ES集群日志指標(biāo)分析
1.2.6 國(guó)際化
- 國(guó)際站支持包括新加坡、美國(guó)、澳大利亞等17個(gè)地區(qū),60個(gè)可用區(qū)部署
1.3?綜合檢索分析
????????基于Elasticsearch的企業(yè)級(jí)綜合檢索解決方案,提供面向海量數(shù)據(jù)的信息檢索服務(wù),使得生活在移動(dòng)互聯(lián)網(wǎng)中的用戶能夠查詢各種各樣的結(jié)構(gòu)化和非結(jié)構(gòu)化信息,以 JSON 文檔的形式存儲(chǔ)數(shù)據(jù),每個(gè)文檔都會(huì)在一組鍵和它們對(duì)應(yīng)的值之間建立聯(lián)系,以實(shí)現(xiàn)綜合檢索能力。適用場(chǎng)景包含信息檢索、輿情分析、推薦系統(tǒng)、廣告系統(tǒng)等多種對(duì)綜合檢索&召回有需求的場(chǎng)景。
????????方案滿足綜合檢索分析場(chǎng)景核心特性需要,包括能夠?qū)崿F(xiàn)海量數(shù)據(jù)毫秒級(jí)響應(yīng),滿足數(shù)據(jù)來源多樣且字段不固定,日均億級(jí)別持續(xù)寫入數(shù)據(jù)高并發(fā)處理,且要求豪秒級(jí)別可見的數(shù)據(jù)實(shí)時(shí)性;支持復(fù)雜查詢檢索,靈活支持各類復(fù)雜組合、條件和模糊查詢,適用于全文檢索及分析類業(yè)務(wù);支持向量多模態(tài)檢索,基于向量特征相似度匹配,典型應(yīng)用于解決以圖搜圖、智能問答、推薦系統(tǒng)-向量召回鏈路等場(chǎng)景問題。
1.4 全觀測(cè)
????????基于阿里云Elasticsearch全觀測(cè)引擎日志和時(shí)序增強(qiáng)功能,將日志、指標(biāo)、應(yīng)用追蹤數(shù)據(jù)匯總于阿里云Elasticsearch平臺(tái),讓運(yùn)維、開發(fā)、業(yè)務(wù)人員對(duì)所有的數(shù)據(jù)從統(tǒng)一視角進(jìn)行觀察分析。
????????阿里云全托管ElasticStack,提供日志分析、監(jiān)控、Tracing一站式能力,針對(duì)時(shí)序場(chǎng)景優(yōu)化引擎,保證時(shí)許日志監(jiān)控和分析性能。提供Indexing service自研ES寫入托管服務(wù),及跨機(jī)房部署、同城容災(zāi)、場(chǎng)景內(nèi)核優(yōu)化提升穩(wěn)定性;采用冷熱數(shù)據(jù)分離存儲(chǔ)方式,及自研存儲(chǔ)引擎Openstore優(yōu)化存儲(chǔ)壓縮算法,降低數(shù)據(jù)存儲(chǔ)成本,以及采用時(shí)序增強(qiáng)功能TimeStream,提升時(shí)序場(chǎng)景讀寫性能并降低時(shí)序數(shù)據(jù)管理成本;基于分布式架構(gòu),以及靈活開放的RestAPI和Plugin框架,支持各種擴(kuò)展能力。?
1.5 大數(shù)據(jù)檢索加速
????????隨著數(shù)據(jù)量的激增,復(fù)雜檢索(高緯度聚合、模糊檢索等)需求和場(chǎng)景越來越復(fù)雜,傳統(tǒng)關(guān)系型數(shù)據(jù)庫越來越難以匹配業(yè)務(wù)需求。Elasticsearch借助其強(qiáng)大的檢索性能、ms級(jí)數(shù)據(jù)時(shí)效性、眾多異構(gòu)數(shù)據(jù)源對(duì)接能力完全滿足客戶多種場(chǎng)景下的訴求。
- 核心數(shù)據(jù)庫:采用云數(shù)據(jù)庫RDS作為核心業(yè)務(wù)庫,承接業(yè)務(wù)系統(tǒng)事務(wù)性寫入,作為核心主庫持久化存儲(chǔ)關(guān)鍵業(yè)務(wù)數(shù)據(jù);
- 全增量同步:全量通過標(biāo)準(zhǔn)JDBC(或ODBC)協(xié)議獲取數(shù)據(jù),通過Binlog訂閱(或OGG)同步增量;
- 數(shù)據(jù)預(yù)處理(option):基于Flink Job(或Spark Streaming Job),針對(duì)多表復(fù)雜聚合場(chǎng)景進(jìn)行流式處理;
- 索引庫:作為承接查詢流量的索引庫,提供彈性擴(kuò)縮、NLP分詞、全文檢索、多維度聚合等高階功能。?
1.6?最佳實(shí)踐 - 多模態(tài)搜索
1.6.1 需求分析
????????國(guó)內(nèi)某知名連鎖餐飲企業(yè),缺少會(huì)員、訂單、商品等多渠道數(shù)據(jù)的集中管理、分析處理能力,希望全渠道收集門店P(guān)OS、交易數(shù)據(jù)、客流數(shù)據(jù)、用戶數(shù)據(jù),并準(zhǔn)實(shí)時(shí)分析數(shù)據(jù)、搭建可視化監(jiān)控看板及報(bào)表聯(lián)動(dòng)權(quán)限管控體系,實(shí)現(xiàn)“數(shù)據(jù)化管理”,構(gòu)建新一代的會(huì)員管理、運(yùn)營(yíng)、社交、營(yíng)銷平臺(tái),為上層業(yè)務(wù)發(fā)現(xiàn)問題與機(jī)會(huì),輔助商業(yè)決策,提升業(yè)務(wù)成效。
1.6.2 解決方案
使用產(chǎn)品功能:Beats、Elasticsearch、Logstash、Kibana(或者Grafana)
接入方式:公共云產(chǎn)品
使用細(xì)節(jié):
- 使用Filebeat、Metricbeat、Pocketbeat等客戶端對(duì)存量日志進(jìn)行訂閱并投遞給Logstash。
- 借助Logstash的filter能力對(duì)日志做加工(復(fù)雜數(shù)據(jù)加工廠家可以使用Spark/Flink/E-MapReduce)。
- 加工后的數(shù)據(jù)通過Logstash的Elasticsearch-output功能導(dǎo)入Elasticsearch中持久化存儲(chǔ)。
- 使用QuickBI和DataV進(jìn)行業(yè)務(wù)數(shù)據(jù)可視化。
- 基于X-pack權(quán)限管理實(shí)現(xiàn)不同用戶的權(quán)限管控。
- 阿里云Elasticsearch集群彈性平滑伸縮快速響應(yīng)業(yè)務(wù)需求。
1.7?最佳實(shí)踐 - 全觀測(cè)
1.7.1 需求分析
????????某國(guó)內(nèi)某汽車品牌企業(yè)IT部門下,有多個(gè)內(nèi)容管理系統(tǒng)(CMS)、分銷商經(jīng)營(yíng)辦公系統(tǒng)(DMO)、運(yùn)營(yíng)質(zhì)量監(jiān)控系統(tǒng)(QIS)、營(yíng)銷經(jīng)營(yíng)分析系統(tǒng)(MMP)、BI系統(tǒng)等內(nèi)部支撐系統(tǒng)。
- 統(tǒng)一技術(shù)棧,運(yùn)維場(chǎng)景涉及日志檢索、指標(biāo)監(jiān)控、性能追蹤等;業(yè)務(wù)方眾多,海外業(yè)務(wù)場(chǎng)景快速增加,周邊應(yīng)用微服務(wù)、充電樁等車基數(shù)據(jù)、會(huì)員服務(wù)/商城/社區(qū)等;數(shù)據(jù)類型多樣,包括日志、時(shí)序、應(yīng)用鏈路追蹤等數(shù)據(jù);需要支持統(tǒng)一系統(tǒng)進(jìn)行數(shù)據(jù)攝取、存儲(chǔ)和查詢分析;
- 預(yù)期未來的日志數(shù)據(jù)規(guī)模超PB級(jí)(180天),底層技術(shù)架構(gòu)需要兼?zhèn)涞统杀敬鎯?chǔ)、快速獲取、按需檢索和分析的能力;
- IT業(yè)務(wù)系統(tǒng)復(fù)雜,既要滿足持續(xù)的業(yè)務(wù)需求,又要整體上云,需要有快速平遷、對(duì)接原有云上/云下的IT系統(tǒng)的產(chǎn)品,并能保證技術(shù)架構(gòu)的靈活、開放性,支持后續(xù)的自由拓展。
1.7.2 解決方案
使用產(chǎn)品功能:Beats、EMR、Flink、Elasticsearch、Kibana
接入方式:公共云產(chǎn)品
使用細(xì)節(jié):
- 使用Filebeat、Metricbeat、Pocketbeat等客戶端對(duì)存量日志進(jìn)行訂閱并投遞給Logstash。
- 借助Logstash的filter能力對(duì)日志做加工(復(fù)雜數(shù)據(jù)加工廠家可以使用Flink/E-MapReduce)。
- 數(shù)據(jù)通過Logstash的Elasticsearch-output功能導(dǎo)入Elasticsearch中持久化存儲(chǔ),過程中使Elasticsearch全觀測(cè)引擎的日志增強(qiáng)模塊實(shí)現(xiàn)寫入、存儲(chǔ)serverless以及場(chǎng)景化自研功能,進(jìn)一步降低數(shù)據(jù)持有成本、提升讀寫性能。
- 使用Kibana(或者Grafana)等可視化工具做可視化的監(jiān)控告警。
1.8?最佳實(shí)踐 - 數(shù)據(jù)檢索加速
1.8.1 需求分析
????????國(guó)內(nèi)某電商平臺(tái)信息技術(shù)服務(wù)供應(yīng)商有訂單處理、商品管理、分銷供應(yīng)、數(shù)據(jù)分析、營(yíng)銷打折等業(yè)務(wù)場(chǎng)景,峰值并發(fā)查詢壓力大,延遲高體驗(yàn)不好,無法達(dá)到為用戶承諾的查詢時(shí)效性。訂單字段復(fù)雜,商家用戶查詢維度多,模糊搜索意圖強(qiáng),傳統(tǒng)數(shù)據(jù)庫方案無法實(shí)現(xiàn)滿意的查詢效果和性能;數(shù)據(jù)可用性、安全、權(quán)限粒度要求高,數(shù)據(jù)敏感影響巨大。需要高并發(fā)準(zhǔn)實(shí)時(shí)搜索能力支持,查詢結(jié)果毫秒級(jí)返回,同時(shí)保障系統(tǒng)高效穩(wěn)定;需要多種數(shù)據(jù)結(jié)構(gòu)復(fù)雜查詢,集群平滑擴(kuò)縮容,變更對(duì)業(yè)務(wù)0影響,靈活應(yīng)對(duì)流量峰谷。
1.8.2 解決方案
使用產(chǎn)品功能:Elasticsearch、DTS(或者Canal+Logstash)
接入方式:公共云產(chǎn)品
使用細(xì)節(jié):
- 業(yè)務(wù)庫中的存量數(shù)據(jù)平遷至阿里云,借助DTS的遷移能力or Logstash的數(shù)據(jù)遷移能力。
- 借助DTS的訂閱能力(或者Canal的訂閱能力),將增量數(shù)據(jù)同步至Elasticsearch中。
- 借助RestAPI使用ES的強(qiáng)大聚合能力,進(jìn)行加速檢索。
二、DataWorks
2.1 產(chǎn)品介紹
????????阿里云DataWorks(也稱為大數(shù)據(jù)開發(fā)套件)是一個(gè)集數(shù)據(jù)集成、開發(fā)、治理、運(yùn)維于一體的數(shù)據(jù)中臺(tái)建設(shè)工具。它為企業(yè)提供了一個(gè)一站式的數(shù)據(jù)處理平臺(tái),幫助用戶輕松地完成數(shù)據(jù)的采集、存儲(chǔ)、處理、分析和管理等工作。
2.2?產(chǎn)品功能
2.2.1 數(shù)據(jù)建模
????????概論:DataWorks數(shù)據(jù)建模支持?jǐn)?shù)倉規(guī)劃設(shè)計(jì)、制定并沉淀企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)、維度建模、數(shù)據(jù)指標(biāo)定義,通過使用DataWorks數(shù)據(jù)建模,您可以將建模設(shè)計(jì)產(chǎn)出的維度表、明細(xì)表和匯總表物化到計(jì)算引擎中并進(jìn)一步應(yīng)用。
2.2.2?數(shù)據(jù)集成離線(批量)同步
????????數(shù)據(jù)集成主要用于離線(批量)數(shù)據(jù)同步。離線(批量)的數(shù)據(jù)通道通過定義數(shù)據(jù)來源和去向的數(shù)據(jù)源和數(shù)據(jù)集,提供一套抽象化的數(shù)據(jù)抽取插件(Reader)、數(shù)據(jù)寫入插件(Writer),并基于此框架設(shè)計(jì)一套簡(jiǎn)化版的中間數(shù)據(jù)傳輸格式,從而實(shí)現(xiàn)任意結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)源之間數(shù)據(jù)傳輸。
2.2.3?數(shù)據(jù)集成實(shí)時(shí)同步
????????數(shù)據(jù)集成的實(shí)時(shí)同步包括實(shí)時(shí)讀取、轉(zhuǎn)換和寫入三種基礎(chǔ)插件,各插件之間通過內(nèi)部定義的中間數(shù)據(jù)格式進(jìn)行交互。一個(gè)實(shí)時(shí)同步任務(wù)支持多個(gè)轉(zhuǎn)換插件進(jìn)行數(shù)據(jù)清洗,并支持多個(gè)寫入插件實(shí)現(xiàn)多路輸出功能。同時(shí)針對(duì)某些場(chǎng)景,支持整庫實(shí)時(shí)同步全增量同步任務(wù),您可以一次性實(shí)時(shí)同步多個(gè)表。
2.2.4?數(shù)據(jù)集成全增量同步任務(wù)
????????實(shí)際業(yè)務(wù)場(chǎng)景下,數(shù)據(jù)同步通常不能通過一個(gè)或多個(gè)簡(jiǎn)單離線同步或者實(shí)時(shí)同步任務(wù)完成,而是由多個(gè)離線同步、實(shí)時(shí)同步和數(shù)據(jù)處理等任務(wù)組合完成,這就會(huì)導(dǎo)致數(shù)據(jù)同步場(chǎng)景下的配置復(fù)雜度非常高。
????????為了解決上述問題,DataWorks提出了面向業(yè)務(wù)場(chǎng)景的同步任務(wù)配置化方案,支持不同數(shù)據(jù)源的一鍵同步功能,例如,“一鍵實(shí)時(shí)同步至Elasticsearch”、“一鍵實(shí)時(shí)同步至Hologres”和“一鍵實(shí)時(shí)同步至MaxCompute”功能等,通過此類功能,您只需要進(jìn)行簡(jiǎn)單的配置,就可以完成一個(gè)復(fù)雜業(yè)務(wù)場(chǎng)景。
全增量同步任務(wù)具有如下優(yōu)勢(shì):
- 全量數(shù)據(jù)初始化。
- 增量數(shù)據(jù)實(shí)時(shí)寫入。
- 增量數(shù)據(jù)和全量數(shù)據(jù)定時(shí)自動(dòng)合并寫入新的全量表分區(qū)。
數(shù)據(jù)集成支持復(fù)雜網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)源進(jìn)行異構(gòu)數(shù)據(jù)源間的數(shù)據(jù)同步,包括但不限于以下環(huán)境:
- 數(shù)據(jù)源與DataWorks工作空間在同一個(gè)阿里云主賬號(hào),并且同一個(gè)Region。
- 數(shù)據(jù)源與DataWorks工作空間不在同一個(gè)阿里云主賬號(hào)。
- 數(shù)據(jù)源與DataWorks工作空間不在同一個(gè)Region。
- 數(shù)據(jù)源在非阿里云環(huán)境。
2.2.5?數(shù)據(jù)開發(fā)
- 業(yè)務(wù)流程混合編排:可視化拖拽式多引擎任務(wù)混合編排
- 智能SQL編輯器:AI加持的SQL編輯器,智能提示,SQL算子結(jié)構(gòu)可視化展示,智能SQL診斷
- 全面的引擎能力封裝:支持計(jì)算引擎的任務(wù)、表、資源、函數(shù)管理,讓您無需接觸復(fù)雜的引擎命令行
- 自定義節(jié)點(diǎn):提供自定義節(jié)點(diǎn)插件化機(jī)制,支持您擴(kuò)展計(jì)算任務(wù)類型,自主接入自定義計(jì)算服務(wù)?
2.2.6?數(shù)據(jù)分析
- 電子表格:支持本地?cái)?shù)據(jù)上傳與在線數(shù)據(jù)源,兼容大總分Excel函數(shù)計(jì)算,支持透視分析和數(shù)據(jù)偵查
- SQL查詢:支持多種數(shù)據(jù)源,更便捷更輕量的SQL查詢工具
- SQL Notes:提供SQL Notebook交互形式,支持以文檔的形式記錄數(shù)據(jù)分析的過程,包含分析思路、SQL以及數(shù)據(jù)結(jié)果,并提供數(shù)據(jù)可視化展示
- 數(shù)據(jù)上傳:提供快捷的數(shù)據(jù)編輯上傳至MaxCompute的功能特別適用于小數(shù)據(jù)量表格編輯上傳?
2.2.7?數(shù)據(jù)治理
2.2.8?數(shù)據(jù)服務(wù)
????????數(shù)據(jù)服務(wù)采用Serverless架構(gòu),只需要關(guān)注API本身的查詢邏輯,無需關(guān)心運(yùn)行環(huán)境等基礎(chǔ)設(shè)施,數(shù)據(jù)服務(wù)會(huì)為您準(zhǔn)備好計(jì)算資源,并支持彈性擴(kuò)展,零運(yùn)維成本。
2.3?最佳實(shí)踐-調(diào)度參數(shù)在數(shù)據(jù)集成中的典型應(yīng)用場(chǎng)景
2.3.1 場(chǎng)景一:同步增量數(shù)據(jù)
????????示例1:將LogHub每十分鐘內(nèi)的增量數(shù)據(jù)同步至MaxCompute T-1分區(qū)。
????????平臺(tái)將根據(jù)定時(shí)時(shí)間,每十分鐘生成一個(gè)調(diào)度實(shí)例,目標(biāo)MaxCompute表分區(qū)名稱也以調(diào)度參數(shù)的方式指定,$bizdate表示業(yè)務(wù)日期,定時(shí)任務(wù)執(zhí)行時(shí),任務(wù)配置的分區(qū)表達(dá)式會(huì)替換為調(diào)度參數(shù)所表達(dá)的業(yè)務(wù)日期。
2.3.2?場(chǎng)景二:同步歷史數(shù)據(jù)
????????基于調(diào)度參數(shù)可根據(jù)業(yè)務(wù)時(shí)間將參數(shù)自動(dòng)替換為對(duì)應(yīng)的值這一特性,當(dāng)您創(chuàng)建任務(wù)當(dāng)天需要將歷史數(shù)據(jù)進(jìn)行補(bǔ)齊時(shí),您可使用補(bǔ)數(shù)據(jù)功能,補(bǔ)數(shù)據(jù)支持補(bǔ)歷史一段時(shí)間的數(shù)據(jù)或者未來一段時(shí)間的數(shù)據(jù),調(diào)度參數(shù)將在任務(wù)調(diào)度時(shí)根據(jù)補(bǔ)數(shù)據(jù)選擇的業(yè)務(wù)時(shí)間自動(dòng)替換為對(duì)應(yīng)的值。
2.4?常見問題
2.4.1?什么是調(diào)度依賴?
????????調(diào)度依賴就是節(jié)點(diǎn)間的上下游依賴關(guān)系,在DataWorks中,上游任務(wù)節(jié)點(diǎn)運(yùn)行完成且運(yùn)行成功,下游任務(wù)節(jié)點(diǎn)才會(huì)開始運(yùn)行。掛載依賴關(guān)系后,當(dāng)前節(jié)點(diǎn)執(zhí)行的必要條件之一為當(dāng)前節(jié)點(diǎn)依賴的父節(jié)點(diǎn)需要執(zhí)行成功。
2.4.2 哪些場(chǎng)景不支持設(shè)置調(diào)度依賴?
由于DataWorks的調(diào)度依賴主要保障的是調(diào)度節(jié)點(diǎn)定時(shí)更新的表數(shù)據(jù),通過節(jié)點(diǎn)調(diào)度依賴保障下游取數(shù)無誤。因此,不是DataWorks平臺(tái)上調(diào)度更新的表,平臺(tái)無法監(jiān)控。
當(dāng)存在非周期性調(diào)度生產(chǎn)數(shù)據(jù)的表,有節(jié)點(diǎn)select該類表數(shù)據(jù)時(shí),需手動(dòng)刪除通過select自動(dòng)生成的依賴上游節(jié)點(diǎn)配置。非周期性調(diào)度生產(chǎn)數(shù)據(jù)的表包括:
- 從本地上傳到DataWorks的表
- 維表
- 非DataWorks調(diào)度產(chǎn)出的表
- 手動(dòng)任務(wù)產(chǎn)出的表
2.4.3 數(shù)據(jù)源網(wǎng)絡(luò)聯(lián)通性測(cè)試失敗怎么辦?
錯(cuò)誤現(xiàn)象:添加數(shù)據(jù)源PolarDB時(shí),網(wǎng)絡(luò)連通性測(cè)試失敗。
如何處理:切換到j(luò)dbc連接串,同時(shí)檢查白名單配置,以及獨(dú)享資源組的VPC配置。
2.4.4 提交節(jié)點(diǎn)報(bào)錯(cuò):當(dāng)前節(jié)點(diǎn)依賴的父節(jié)點(diǎn)輸出名不存在
可能原因1:沒有節(jié)點(diǎn)產(chǎn)出這個(gè)表
可能原因2:有節(jié)點(diǎn)產(chǎn)出該表數(shù)據(jù),但是該表沒有添加為該節(jié)點(diǎn)的輸出
可能原因3:存在同名的節(jié)點(diǎn)輸出
三、MaxCompute
3.1 產(chǎn)品架構(gòu)
- 存儲(chǔ)引擎:MaxCompute為您提供MaxCompute存儲(chǔ)引擎(內(nèi)部存儲(chǔ))用于存儲(chǔ)MaxCompute表、資源等,同時(shí)您也可以通過外表的方式直接讀取存儲(chǔ)在OSS、TableStore、RDS等其他產(chǎn)品中的數(shù)據(jù)。 其中MaxCompute存儲(chǔ)引擎主要采用列壓縮存儲(chǔ)格式,通常情況下可達(dá)到5倍壓縮比。
- 計(jì)算引擎:MaxCompute為您提供MaxCompute SQL計(jì)算引擎和CUPID計(jì)算平臺(tái)。可直接運(yùn)行MaxCompute SQL任務(wù)。可運(yùn)行Spark任務(wù)、Mars任務(wù)等三方引擎的任務(wù)。
- 云服務(wù)層:MaxCompute支持創(chuàng)建不同的任務(wù)隊(duì)列,并為每個(gè)隊(duì)列配置不同的資源和優(yōu)先級(jí),以便對(duì)任務(wù)執(zhí)行進(jìn)行更精細(xì)的控制。MaxCompute也提供數(shù)據(jù)安全性的多層保護(hù),包括項(xiàng)目空間隔離、權(quán)限控制、數(shù)據(jù)加密,確保數(shù)據(jù)的安全和隱私。
- 統(tǒng)一元數(shù)據(jù)及安全體系:MaxCompute的離線租戶級(jí)別元數(shù)據(jù)信息會(huì)通過Information Schema提供服務(wù),可以對(duì)作業(yè)的運(yùn)行情況,例如資源消耗、運(yùn)行時(shí)長(zhǎng)、數(shù)據(jù)處理量等指標(biāo)進(jìn)行分析。MaxCompute還提供了完善的安全管理體系,例如訪問控制、數(shù)據(jù)加密、動(dòng)態(tài)脫敏等為數(shù)據(jù)安全性提供保障
- 用戶接口與開放性:包括tunnel,api與sdk,jdbc,connecotr以及開放存儲(chǔ) 數(shù)據(jù)生態(tài)支持 與dataworks深度結(jié)合,實(shí)現(xiàn)數(shù)據(jù)湖,數(shù)據(jù)集成,治理可視化等需求。?
3.2 核心概念和層次結(jié)構(gòu)
核心概念 | 說明 |
Project(項(xiàng)目) | 項(xiàng)目是MaxCompute的基本組織單元,類似于傳統(tǒng)數(shù)據(jù)庫的Database或Schema的概念 |
Table(表) | 表是MaxCompute的數(shù)據(jù)存儲(chǔ)單元 |
Partition(分區(qū)) | 分區(qū)Partition是指一張表下,根據(jù)分區(qū)字段對(duì)數(shù)據(jù)存儲(chǔ)進(jìn)行劃分。如果表有分區(qū),每個(gè)分區(qū)對(duì)應(yīng)表下的一個(gè)目錄,數(shù)據(jù)是分別存儲(chǔ)在不同的分區(qū)目錄下 |
View(視圖) | 視圖是在表之上建立的虛擬表,它的結(jié)構(gòu)和內(nèi)容都來自表。如果想保留查詢結(jié)果,但不想創(chuàng)建表占用存儲(chǔ),可以通過視圖實(shí)現(xiàn) |
User(用戶) | MaxCompute支持通過阿里云賬號(hào)、RAM用戶或RAM角色訪問MaxCompute |
Role(角色) | 角色是MaxCompute安全功能中的概念,可以理解為擁有相同權(quán)限的用戶的集合 |
Resource(資源) | 資源是MaxCompute中特有的概念。當(dāng)您使用MaxCompute的自定義函數(shù)(UDF)或MapReduce功能時(shí),需要依賴資源來完成 |
Function(函數(shù)) | MaxCompute提供函數(shù)功能,包括內(nèi)建函數(shù)和UDF |
Instance(實(shí)例) | 即實(shí)際運(yùn)行作業(yè)的一個(gè)具體實(shí)例,類同Hadoop中Job的概念 |
Networklink(網(wǎng)絡(luò)連接) | 當(dāng)使用外部表、UDF或湖倉一體功能時(shí),MaxCompute默認(rèn)未建立與外網(wǎng)或VPC網(wǎng)絡(luò)間的網(wǎng)絡(luò)連接,需要開通網(wǎng)絡(luò)連接 |
通常MaxCompute的各層級(jí)概念的組織模式如下:
- 一個(gè)企業(yè)可以在不同地域開通MaxCompute服務(wù)
- 企業(yè)內(nèi)的各個(gè)部門在開通服務(wù)的地域內(nèi)創(chuàng)建和管理自己的項(xiàng)目(Project),用于存儲(chǔ)該部門的數(shù)據(jù)。項(xiàng)目?jī)?nèi)可以存儲(chǔ)多種類型對(duì)象,例如表(Table)、資源(Resource)、函數(shù)(Function)和實(shí)例(Instance)等
- 各部門可以在項(xiàng)目?jī)?nèi)通過用戶與角色的管控,對(duì)項(xiàng)目?jī)?nèi)的各類數(shù)據(jù)進(jìn)行權(quán)限控制?
3.3 功能特性
3.3.1 全托管Serverless在線服務(wù)
- 對(duì)外以API方式訪問的在線服務(wù),開箱即用。
- 預(yù)鋪設(shè)大規(guī)模集群資源,可以按需使用、按量計(jì)費(fèi)。
- 無需平臺(tái)運(yùn)維,最小化運(yùn)維投入。
3.3.2?彈性能力與擴(kuò)展性
- 存儲(chǔ)和計(jì)算獨(dú)立擴(kuò)展,支持企業(yè)將全部數(shù)據(jù)資產(chǎn)在一個(gè)平臺(tái)上進(jìn)行聯(lián)動(dòng)分析,消除數(shù)據(jù)孤島。
- 支持實(shí)時(shí)根據(jù)業(yè)務(wù)峰谷變化分配資源。
3.3.3?統(tǒng)一豐富的計(jì)算和存儲(chǔ)能力
- MaxCompute支持多種計(jì)算模型和豐富的UDF。
- 采用列壓縮存儲(chǔ)格式,通常情況下具備5倍壓縮能力,可以大幅節(jié)省存儲(chǔ)成本。
3.3.4?數(shù)據(jù)建模、開發(fā)、治理能力
- 借助一站式數(shù)據(jù)開發(fā)與治理平臺(tái)DataWorks,可實(shí)現(xiàn)全域數(shù)據(jù)匯聚、融合加工和治理。
- DataWorks支持對(duì)MaxCompute項(xiàng)目進(jìn)行管理以及Web端查詢編輯。
3.3.5?集成AI能力
- 與人工智能平臺(tái) PAI無縫集成,提供強(qiáng)大的機(jī)器學(xué)習(xí)處理能力。
- 可以使用熟悉的Spark-ML開展智能分析。
- 使用Python機(jī)器學(xué)習(xí)三方庫。
3.3.6?深度集成Spark引擎
- 內(nèi)建Apache Spark引擎,提供完整的Spark功能。
- 與MaxCompute計(jì)算資源、數(shù)據(jù)和權(quán)限體系深度集成。
3.3.7?湖倉一體
- 集成對(duì)數(shù)據(jù)湖的訪問分析,支持通過外部表映射、Spark直接訪問方式開展數(shù)據(jù)湖分析。
- 在一套數(shù)據(jù)倉庫服務(wù)和用戶接口下,實(shí)現(xiàn)數(shù)據(jù)湖與數(shù)據(jù)倉庫的關(guān)聯(lián)分析。
3.3.8?離線實(shí)時(shí)一體
- 與實(shí)時(shí)數(shù)倉Hologres深度融合,支持外部表關(guān)聯(lián)查詢,支持存儲(chǔ)層直讀,查詢效率相比其他類型外部表高5倍以上。
3.3.9?支持流式寫入和近實(shí)時(shí)分析
- 支持流式數(shù)據(jù)實(shí)時(shí)寫入并在數(shù)據(jù)倉庫中開展分析。
- 與云上主要流式服務(wù)深度集成,輕松接入各種來源的流式數(shù)據(jù)。
- 支持高性能秒級(jí)彈性并發(fā)查詢,滿足近實(shí)時(shí)分析場(chǎng)景需求。
3.3.10?持續(xù)的SaaS化數(shù)據(jù)保護(hù)
- 為云上企業(yè)提供基礎(chǔ)設(shè)施、數(shù)據(jù)中心、網(wǎng)絡(luò)、供電、平臺(tái)安全能力、用戶權(quán)限管理、隱私保護(hù)等保三級(jí)超20項(xiàng)安全功能,兼具開源大數(shù)據(jù)與托管數(shù)據(jù)庫的安全能力。
3.4?MaxCompute SQL與標(biāo)準(zhǔn)SQL的基本區(qū)別
主要區(qū)別 | 問題現(xiàn)象 | 解決方法 |
應(yīng)用場(chǎng)景 | 不支持事務(wù)(不支持Commit和Rollback,不推薦使用INSERT?INTO)。 | 建議代碼具備冪等性,支持重新執(zhí)行。推薦您使用INSERT?OVERWRITE寫數(shù)據(jù)。 |
不支持索引和主鍵約束。 | 無。 | |
部分字段不支持默認(rèn)值或默認(rèn)函數(shù)。 | 如果字段有默認(rèn)值,您可以在數(shù)據(jù)寫入時(shí)自行賦值。MaxCompute支持在創(chuàng)建表時(shí),對(duì)BIGINT、DOUBLE、BOOLEAN和STRING類型的字段添加默認(rèn)值。 | |
不支持自增字段。 | 無。 | |
表分區(qū) | 單表最多支持6萬個(gè)分區(qū)。超過6萬個(gè)分區(qū)會(huì)報(bào)錯(cuò)。 | 選擇合適的分區(qū)列,減少分區(qū)數(shù)。 |
一次查詢輸入的分區(qū)不能超過1萬個(gè),否則會(huì)報(bào)錯(cuò)。如果是2級(jí)分區(qū)且查詢時(shí)只根據(jù)2級(jí)分區(qū)進(jìn)行過濾,總的分區(qū)數(shù)大于1萬也可能導(dǎo)致報(bào)錯(cuò)。 | 解決方法請(qǐng)參見執(zhí)行INSERT INTO或INSERT OVERWRITE操作時(shí),報(bào)錯(cuò)a single instance cannot output data to more than 10000 partitions,如何解決?。 | |
精度 | DOUBLE類型存在精度問題。 | 不建議直接使用等于號(hào)(=)關(guān)聯(lián)兩個(gè)DOUBLE字段。建議將兩個(gè)數(shù)相減,如果差距小于一個(gè)預(yù)設(shè)的值,則認(rèn)為兩個(gè)數(shù)是相同的。例如ABS(a1-a2)<0.000000001。 |
雖然MaxCompute支持高精度類型DECIMAL,但是有更高精度的要求。 | 如果有更高的精度要求,您可以先把數(shù)據(jù)存儲(chǔ)為STRING類型,然后使用UDF實(shí)現(xiàn)對(duì)應(yīng)的計(jì)算。 | |
數(shù)據(jù)類型轉(zhuǎn)換 | 出現(xiàn)各種預(yù)期外的錯(cuò)誤,代碼維護(hù)問題。 | 如果有2個(gè)不同的字段類型需要執(zhí)行JOIN操作,建議您先轉(zhuǎn)換字段類型再執(zhí)行JOIN操作。 |
日期類型和字符串的隱式轉(zhuǎn)換。 | 如果在需要傳入日期類型的函數(shù)中傳入一個(gè)字符串,字符串和日期類型根據(jù)yyyy-mm-dd?hh:mi:ss格式進(jìn)行轉(zhuǎn)換。 |
3.5 最佳實(shí)踐-數(shù)據(jù)模型架構(gòu)規(guī)范
3.5.1 數(shù)據(jù)層次劃分
- ODS:Operational Data Store,操作數(shù)據(jù)層,在結(jié)構(gòu)上其與源系統(tǒng)的增量或者全量數(shù)據(jù)基本保持一致。它相當(dāng)于一個(gè)數(shù)據(jù)準(zhǔn)備區(qū),同時(shí)又記錄基礎(chǔ)數(shù)據(jù)及歷史變化。其主要作用是把基礎(chǔ)數(shù)據(jù)引入到MaxCompute。
- CDM:Common Data Model,公共維度模型層,又細(xì)分為DWD和DWS。它的主要作用是完成數(shù)據(jù)加工與整合、建立一致性的維度、構(gòu)建可復(fù)用的面向分析和統(tǒng)計(jì)的明細(xì)事實(shí)表以及匯總公共粒度的指標(biāo)。
- DWD:Data Warehouse Detail,明細(xì)數(shù)據(jù)層。
- DWS:Data Warehouse Summary,匯總數(shù)據(jù)層。
- ADS:Application Data Service,應(yīng)用數(shù)據(jù)層。
3.5.2?數(shù)據(jù)分類架構(gòu)
- 該數(shù)據(jù)分類架構(gòu)在ODS層分為三部分:數(shù)據(jù)準(zhǔn)備區(qū)、離線數(shù)據(jù)和準(zhǔn)實(shí)時(shí)數(shù)據(jù)區(qū)。在進(jìn)入到CDM層后,由以下幾部分組成:公共維度層:基于維度建模理念思想,建立整個(gè)企業(yè)的一致性維度。
- 明細(xì)粒度事實(shí)層:以業(yè)務(wù)過程為建模驅(qū)動(dòng),基于每個(gè)具體業(yè)務(wù)過程的特點(diǎn),構(gòu)建最細(xì)粒度的明細(xì)層事實(shí)表。您可以結(jié)合企業(yè)的數(shù)據(jù)使用特點(diǎn),將明細(xì)事實(shí)表的某些重要維度屬性字段做適當(dāng)?shù)娜哂?#xff0c;即寬表化處理。
- 公共匯總粒度事實(shí)層:以分析的主題對(duì)象為建模驅(qū)動(dòng),基于上層的應(yīng)用和產(chǎn)品的指標(biāo)需求,構(gòu)建公共粒度的匯總指標(biāo)事實(shí)表,以寬表化手段來物理化模型。
3.6?最佳實(shí)踐 –小文件處理
3.6.1 小文件定義
MaxCompute使用盤古分布式文件系統(tǒng)是按塊(Block)存放的,通常文件大小比塊大小小的文件(默認(rèn)塊大小為64MB),被稱為小文件。
3.6.2 小文件過多會(huì)帶來的影響
- 影響啟動(dòng)Map Instance,默認(rèn)情況下一個(gè)小文件對(duì)應(yīng)一個(gè)Instance,造成浪費(fèi)資源,影響整體的執(zhí)行性能。
- 過多的小文件給盤古文件系統(tǒng)帶來壓力,且影響空間的有效利用,嚴(yán)重的會(huì)直接導(dǎo)致盤古文件系統(tǒng)不可服務(wù)。
3.6.3 會(huì)產(chǎn)生小文件的場(chǎng)景
- Reduce計(jì)算過程會(huì)產(chǎn)生大量小文件。
- Tunnel數(shù)據(jù)采集過程中會(huì)生成小文件。
- Job執(zhí)行過程中生成的各種臨時(shí)文件、回收站保留的過期的文件等
3.7 常見問題
3.7.1?使用MaxCompute需要具備什么專業(yè)技能?
????????MaxCompute支持多種計(jì)算模型數(shù)據(jù)通道,滿足多場(chǎng)景需求。所以您只需要會(huì)使用SQL、Python、Java等開發(fā)語言就可以使用MaxCompute進(jìn)行湖倉數(shù)據(jù)開發(fā)與數(shù)據(jù)分析。
3.7.2 MaxCompute中的項(xiàng)目(project)發(fā)揮什么作用?
????????項(xiàng)目(Project)是MaxCompute的基本組織單元,類似于傳統(tǒng)數(shù)據(jù)庫的Database或Schema的概念,是進(jìn)行多用戶隔離和訪問控制的主要邊界。項(xiàng)目中包含多個(gè)對(duì)象,例如表(Table)、資源(Resource)、函數(shù)(Function)和實(shí)例(Instance)等。一個(gè)用戶可以同時(shí)擁有多個(gè)項(xiàng)目的權(quán)限。通過安全授權(quán),可以在一個(gè)項(xiàng)目訪問另一個(gè)項(xiàng)目中的對(duì)象。
3.7.3?MaxCompute的表格類型有幾種,分別是什么?
????????MaxCompute的表格有兩種類型:內(nèi)部表和外部表(MaxCompute 2.0版本開始支持外部表)。
????????對(duì)于內(nèi)部表,所有的數(shù)據(jù)都存儲(chǔ)在MaxCompute中,表中列的數(shù)據(jù)類型可以是MaxCompute支持的任意一種數(shù)據(jù)類型。
????????對(duì)于外部表,MaxCompute并不真正持有數(shù)據(jù),表格的數(shù)據(jù)可以存放在OSS或OTS中。MaxCompute僅會(huì)記錄表格的Meta信息,您可以通過MaxCompute的外部表機(jī)制處理OSS或OTS上的非結(jié)構(gòu)化數(shù)據(jù),例如視頻、音頻、基因、氣象、地理信息等。
3.7.4?MaxCompute常見錯(cuò)誤信息如何理解,怎么定位問題?
????????MaxCompute的常見報(bào)錯(cuò)信息編號(hào)有規(guī)范定義,格式為:異常編號(hào):通用描述 - 上下文相關(guān)說明。其中SQL、MapReduce、Tunnel的錯(cuò)誤信息是不一樣的。
總結(jié)
1、Elasticsearch
- 組件:X-Pack提供高級(jí)功能,Beats采集數(shù)據(jù),Logstash處理數(shù)據(jù),Kibana可視化分析。
- 特性:高性能、安全性好、可用性高、可擴(kuò)展性強(qiáng)、易于維護(hù)。
2、DataWorks
- 功能:支持?jǐn)?shù)據(jù)建模、集成、開發(fā)、分析和治理。
- 實(shí)踐:通過調(diào)度參數(shù)實(shí)現(xiàn)增量和歷史數(shù)據(jù)同步。
- 問題:解決調(diào)度依賴和數(shù)據(jù)源網(wǎng)絡(luò)聯(lián)通性測(cè)試失敗等問題。
3、MaxCompute
- 架構(gòu):提供存儲(chǔ)和計(jì)算引擎,支持多種計(jì)算模型和UDF。
- 特性:全托管Serverless服務(wù),彈性擴(kuò)展,集成AI能力,支持湖倉一體和實(shí)時(shí)分析。