中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网

當(dāng)前位置: 首頁 > news >正文

商城平臺(tái)系統(tǒng)谷歌seo優(yōu)化中文章

商城平臺(tái)系統(tǒng),谷歌seo優(yōu)化中文章,網(wǎng)站建設(shè)找美橙互聯(lián),個(gè)人網(wǎng)站怎么做銀行卡支付寶目錄 一、DataX 概覽 1.1 DataX 是什么 1.2 DataX 3.0 概覽 設(shè)計(jì)理念 當(dāng)前使用現(xiàn)狀 二、DataX 詳解 2.1 DataX 3.0 框架設(shè)計(jì) 2.2 DataX 3.0 插件體系 2.3 DataX 3.0 核心架構(gòu) 2.3.1 核心模塊介紹 2.3.2 DataX 調(diào)度流程 2.4 DataX 3.0 的六大核心優(yōu)勢(shì) 2.4.1 可靠的…

目錄

一、DataX 概覽

1.1?DataX 是什么

1.2?DataX 3.0 概覽

設(shè)計(jì)理念

當(dāng)前使用現(xiàn)狀

二、DataX 詳解?

2.1?DataX 3.0 框架設(shè)計(jì)

2.2 DataX 3.0 插件體系

2.3?DataX 3.0 核心架構(gòu)

2.3.1 核心模塊介紹

2.3.2?DataX 調(diào)度流程

2.4?DataX 3.0 的六大核心優(yōu)勢(shì)

2.4.1 可靠的數(shù)據(jù)質(zhì)量監(jiān)控

2.4.2 豐富的數(shù)據(jù)轉(zhuǎn)換功能

2.4.3 精準(zhǔn)的速度控制

2.4.4 強(qiáng)勁的同步性能

2.4.5 健壯的容錯(cuò)機(jī)制

2.5.6 極簡(jiǎn)的使用體驗(yàn)


一、DataX 概覽

????????用戶在互聯(lián)網(wǎng)上進(jìn)行的所有的操作,都會(huì)留下很多的數(shù)據(jù)。有些是用戶的行為數(shù)據(jù),例如用戶在什么時(shí)間點(diǎn)啟動(dòng)了 APP、什么時(shí)間點(diǎn)點(diǎn)擊了某一個(gè)按鈕、在某一個(gè)商品的詳情頁停留了 30 秒時(shí)間、收藏了某一篇文章、點(diǎn)贊了某一個(gè)評(píng)論等。這些數(shù)據(jù)會(huì)以服務(wù)器日志的形式記錄下來。而有些數(shù)據(jù)是記錄的業(yè)務(wù)數(shù)據(jù),例如用戶下單購買了什么商品等,這些數(shù)據(jù)一般會(huì)存儲(chǔ)與關(guān)系型數(shù)據(jù)庫中,例如 MySQL 或者 Oracle。

????????對(duì)于大數(shù)據(jù)開發(fā)來說,我們需要處理的數(shù)據(jù)來自于很多的渠道,有一些是服務(wù)器的日志文件,有一些是服務(wù)端的業(yè)務(wù)數(shù)據(jù)。我們要做的第一件事情,就是將這些數(shù)據(jù)導(dǎo)入到我們的大數(shù)據(jù)平臺(tái),然后再對(duì)其進(jìn)行計(jì)算、處理,得出我們希望的結(jié)果。而在數(shù)據(jù)采集的時(shí)候,我們可以自己開發(fā)采集的程序、腳本來實(shí)現(xiàn),也可以使用一些開源的第三方的程序。例如:使用 flume 可以實(shí)現(xiàn)將服務(wù)器日志文件采集到 HDFS 進(jìn)行存儲(chǔ),而對(duì)于關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)的采集同步,我們可以采用 DataX 來實(shí)現(xiàn)。

1.1?DataX 是什么

????????DataX 是阿里巴巴集團(tuán)內(nèi)被廣泛使用的離線數(shù)據(jù)同步工具/平臺(tái),實(shí)現(xiàn)了包括 MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各種異構(gòu)數(shù)據(jù)源之間高效的數(shù)據(jù)同步功能。

????????DataX 本身作為數(shù)據(jù)同步框架,將不同數(shù)據(jù)源的同步抽象為從源頭數(shù)據(jù)源讀取數(shù)據(jù)的 Reader 插件,以及向目標(biāo)端寫入數(shù)據(jù)的 Writer 插件。理論上 DataX 框架可以支持任意數(shù)據(jù)源類型的數(shù)據(jù)同步工作。同時(shí) DataX 插件體系作為一套生態(tài)系統(tǒng),每接入一套新數(shù)據(jù)源時(shí),這個(gè)新加入的數(shù)據(jù)源即可實(shí)現(xiàn)和現(xiàn)有的數(shù)據(jù)源互通。

1.2?DataX 3.0 概覽

????????DataX 是一個(gè)異構(gòu)數(shù)據(jù)源離線同步工具,致力于實(shí)現(xiàn)包括關(guān)系型數(shù)據(jù)庫(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能。

設(shè)計(jì)理念

????????為了解決異構(gòu)數(shù)據(jù)源同步的問題,DataX 將復(fù)雜的網(wǎng)狀的同步鏈路變成了星型的鏈路。DataX 作為中間傳輸載體,負(fù)責(zé)連接各種數(shù)據(jù)源。當(dāng)需要接入一個(gè)新的數(shù)據(jù)源的時(shí)候,只需要將此數(shù)據(jù)源對(duì)接到 DataX,便能跟已有的數(shù)據(jù)源做到無縫數(shù)據(jù)同步。

當(dāng)前使用現(xiàn)狀

????????DataX 在阿里巴巴集團(tuán)內(nèi)被廣泛使用,承擔(dān)了所有大數(shù)據(jù)的離線同步業(yè)務(wù),并已持續(xù)穩(wěn)定運(yùn)行了 7 年之久。目前每天完成同步 8W 多道作業(yè),每日傳輸數(shù)據(jù)量超過 300TB。

GitHub主頁地址: GitHub - alibaba/DataX: DataX是阿里云DataWorks數(shù)據(jù)集成的開源版本。 ?

二、DataX 詳解?

2.1?DataX 3.0 框架設(shè)計(jì)

????????DataX 本身作為離線數(shù)據(jù)同步框架,采用 FrameWork+plugin 架構(gòu)構(gòu)建。將數(shù)據(jù)源讀取和寫入抽象成為 Reader/Writer 插件,納入到整個(gè)同步框架中。

  • Reader: Reader 為數(shù)據(jù)采集模塊,負(fù)責(zé)采集數(shù)據(jù)源的數(shù)據(jù),將數(shù)據(jù)發(fā)送給 FrameWork。

  • Writer: Writer 為數(shù)據(jù)寫入模塊,負(fù)責(zé)不斷從 FrameWork 取數(shù)據(jù),并將數(shù)據(jù)寫入到目的端。

  • FrameWork: FrameWork 用于連接 Reader 和 Writer,作為兩者的數(shù)據(jù)傳輸通道,并處理緩沖、流控、并發(fā)、數(shù)據(jù)轉(zhuǎn)換等核心技術(shù)問題。

2.2 DataX 3.0 插件體系

????????DataX 將數(shù)據(jù)源讀取和寫入抽象成為 Reader/Writer 插件,經(jīng)過幾年積累,DataX 目前已經(jīng)有了比較全面的插件體系,主流的 RDBMS 數(shù)據(jù)庫、NOSQL、大數(shù)據(jù)存儲(chǔ)系統(tǒng)都已經(jīng)接入。DataX 目前支持的數(shù)據(jù)源如下,詳情請(qǐng)點(diǎn)擊:DataX數(shù)據(jù)源參考指南:

類型數(shù)據(jù)源Reader(讀)Writer(寫)文檔
RDBMS 關(guān)系型數(shù)據(jù)庫MySQL讀?、寫
Oracle讀?、寫
OceanBase讀?、寫
SQLServer讀?、寫
PostgreSQL讀?、寫
DRDS讀?、寫
Kingbase讀?、寫
通用RDBMS(支持所有關(guān)系型數(shù)據(jù)庫)讀?、寫
阿里云數(shù)倉數(shù)據(jù)存儲(chǔ)ODPS讀?、寫
ADB
ADS
OSS讀?、寫
OCS
Hologres
AnalyticDB For PostgreSQL
阿里云中間件datahub讀 、寫
SLS讀 、寫
圖數(shù)據(jù)庫阿里云 GDB讀?、寫
Neo4j
NoSQL數(shù)據(jù)存儲(chǔ)OTS讀?、寫
Hbase0.94讀?、寫
Hbase1.1讀?、寫
Phoenix4.x讀?、寫
Phoenix5.x讀?、寫
MongoDB讀?、寫
Cassandra讀?、寫
數(shù)倉數(shù)據(jù)存儲(chǔ)StarRocks讀 、寫
ApacheDoris
ClickHouse讀?、寫
Databend
Hive讀?、寫
kudu
selectdb
無結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)TxtFile讀?、寫
FTP讀?、寫
HDFS讀?、寫
Elasticsearch
時(shí)間序列數(shù)據(jù)庫OpenTSDB
TSDB讀?、寫
TDengine讀?、寫

????????DataX FrameWork 提供了簡(jiǎn)單的接口與插件交互,提供簡(jiǎn)單的插件接入機(jī)制,只需要任意加上一種插件,就能無縫對(duì)接其他數(shù)據(jù)源。

2.3?DataX 3.0 核心架構(gòu)

????????DataX 3.0 開源版本支持單機(jī)多線程模式完成同步作業(yè)運(yùn)行,本小節(jié)按一個(gè) DataX 作業(yè)生命周期的時(shí)序圖,從整體架構(gòu)設(shè)計(jì),非常簡(jiǎn)要說明 DataX 各個(gè)模塊相互關(guān)系。

2.3.1 核心模塊介紹

  1. DataX 完成單個(gè)數(shù)據(jù)同步的作業(yè),我們稱之為 Job。DataX 接受到一個(gè) Job 之后,將啟動(dòng)一個(gè)進(jìn)程來完成整個(gè)作業(yè)同步過程。DataX Job 模塊是單個(gè)作業(yè)的中樞管理節(jié)點(diǎn),承擔(dān)了數(shù)據(jù)清洗、子任務(wù)切分(將單一作業(yè)計(jì)算轉(zhuǎn)化為多個(gè)子 Task)、TaskGroup 管理等功能。

  2. DataX Job 啟動(dòng)之后,會(huì)根據(jù)不同的源端切分策略,將 Job 切分成多個(gè)小的 Task(子任務(wù)),以便于并發(fā)執(zhí)行。Task 便是 DataX 作業(yè)的最小單元,每一個(gè) Task 都會(huì)負(fù)責(zé)一部分?jǐn)?shù)據(jù)的同步工作。

  3. 切分多個(gè) Task 之后,DataX Job 會(huì)調(diào)用 Scheduler 模塊,根據(jù)配置的并發(fā)數(shù)據(jù)量,將拆分成的 Task 重新組合,組裝成 TaskGroup(任務(wù)組)。每一個(gè) TaskGroup 負(fù)責(zé)以一定的并發(fā)度運(yùn)行完畢分配好的所有 Task,默認(rèn)單個(gè)任務(wù)組的并發(fā)數(shù)量為 5。

  4. 每一個(gè) Task 都由 TaskGroup 負(fù)責(zé)啟動(dòng),Task 啟動(dòng)后,會(huì)固定啟動(dòng) Reader->Channel->Writer 的線程來完成任務(wù)同步工作。

  5. DataX 作業(yè)運(yùn)行起來之后,Job 監(jiān)控并等待多個(gè) TaskGroup 模塊任務(wù)完成,等待所有 TaskGroup 任務(wù)完成后,Job 成功退出。否則,異常退出,進(jìn)程退出值非 0。

2.3.2?DataX 調(diào)度流程

????????舉例來說,用戶提交了一個(gè) DataX 作業(yè),并且配置了 20 個(gè)并發(fā),目的是將一個(gè) 100 張分表的 mysql 數(shù)據(jù)同步到 ODPS 里面。DataX 的調(diào)度決策思路是:

  1. DataX Job 根據(jù)分庫分表切分成了 100 個(gè) Task。

  2. 根據(jù) 20 個(gè)并發(fā),DataX 計(jì)算共需要分配 4 個(gè) TaskGroup。

  3. 4個(gè) TaskGroup 平分切分好的 100 個(gè)Task,每一個(gè) TaskGroup 負(fù)責(zé)以 5 個(gè)并發(fā),共計(jì)運(yùn)行 25 個(gè)Task。

    理論上是每一個(gè) TaskGroup 負(fù)責(zé) 25 個(gè)Task,但實(shí)際執(zhí)行的過程中,每一個(gè) Task 所需要處理的數(shù)據(jù)量是不同的,執(zhí)行耗時(shí)也是不同的,所以有可能有的 TaskGroup 會(huì)分配的多一些,有些會(huì)分配的少一些。

2.4?DataX 3.0 的六大核心優(yōu)勢(shì)

2.4.1 可靠的數(shù)據(jù)質(zhì)量監(jiān)控

  • 完美解決數(shù)據(jù)傳輸個(gè)別類型失真問題

    ????????DataX 舊版對(duì)于部分?jǐn)?shù)據(jù)類型(比如時(shí)間戳)傳輸一直存在毫秒階段等數(shù)據(jù)失真情況,新版本 DataX 3.0 已經(jīng)做到支持所有的強(qiáng)數(shù)據(jù)類型,每一種插件都有自己的數(shù)據(jù)類型轉(zhuǎn)換策略,讓數(shù)據(jù)可以完整無損的傳輸?shù)侥康亩恕?/p>

  • 提供作業(yè)全鏈路的流量、數(shù)據(jù)量運(yùn)行時(shí)監(jiān)控

????????????????DataX 3.0 運(yùn)行過程中可以將作業(yè)本身狀態(tài)、數(shù)據(jù)流量、數(shù)據(jù)速度、執(zhí)行進(jìn)度等信息進(jìn)行全面的展示,讓用戶可以實(shí)時(shí)了解作業(yè)狀態(tài)。并可在作業(yè)執(zhí)行過程中智能判斷源端和目的端的速度對(duì)比情況,給予用戶更多性能排查信息。

  • 提供臟數(shù)據(jù)探測(cè)

    ????????在大量數(shù)據(jù)的傳輸過程中,必定會(huì)由于各種原因?qū)е潞芏鄶?shù)據(jù)傳輸報(bào)錯(cuò)(比如類型轉(zhuǎn)換錯(cuò)誤),這種數(shù)據(jù) DataX 認(rèn)為就是臟數(shù)據(jù)。DataX 目前可以實(shí)現(xiàn)臟數(shù)據(jù)精確過濾、識(shí)別、采集、展示,為用戶提供多種的臟數(shù)據(jù)處理模式,讓用戶準(zhǔn)確把控?cái)?shù)據(jù)質(zhì)量大關(guān)!

2.4.2 豐富的數(shù)據(jù)轉(zhuǎn)換功能

????????DataX 作為一個(gè)服務(wù)于大數(shù)據(jù)的 ETL 工具,除了提供數(shù)據(jù)快照搬遷功能之外,還提供了豐富數(shù)據(jù)轉(zhuǎn)換的功能,讓數(shù)據(jù)在傳輸過程中可以輕松完成數(shù)據(jù)脫敏,補(bǔ)全,過濾等數(shù)據(jù)轉(zhuǎn)換功能,另外還提供了自動(dòng) groovy 函數(shù),讓用戶自定義轉(zhuǎn)換函數(shù)。詳情請(qǐng)看 DataX3 的 transformer 詳細(xì)介紹。

2.4.3 精準(zhǔn)的速度控制

????????還在為同步過程對(duì)在線存儲(chǔ)壓力影響而擔(dān)心嗎?新版本 DataX 3.0 提供了包括通道(并發(fā))、記錄流、字節(jié)流三種流控模式,可以隨意控制你的作業(yè)速度,讓你的作業(yè)在庫可以承受的范圍內(nèi)達(dá)到最佳的同步速度。

"speed": {"channel": 5,"byte": 1048576,"record": 10000
}

2.4.4 強(qiáng)勁的同步性能

????????DataX 3.0 每一種讀插件都有一種或多種切分策略,都能將作業(yè)合理切分成多個(gè) Task 并行執(zhí)行,單機(jī)多線程執(zhí)行模型可以讓 DataX 速度隨并發(fā)成線性增長。在源端和目的端性能都足夠的情況下,單個(gè)作業(yè)一定可以打滿網(wǎng)卡。另外,DataX 團(tuán)隊(duì)對(duì)所有的已經(jīng)接入的插件都做了極致的性能優(yōu)化,并且做了完整的性能測(cè)試。性能測(cè)試相關(guān)詳情可以參照每單個(gè)數(shù)據(jù)源的詳細(xì)介紹:DataX數(shù)據(jù)源指南

2.4.5 健壯的容錯(cuò)機(jī)制

????????DataX 作業(yè)是極易受外部因素的干擾,網(wǎng)絡(luò)閃斷、數(shù)據(jù)源不穩(wěn)定等因素很容易讓同步到一半的作業(yè)報(bào)錯(cuò)停止。因此穩(wěn)定性是 DataX 的基本要求,在 DataX 3.0 的設(shè)計(jì)中,重點(diǎn)完善了框架和插件的穩(wěn)定性。目前 DataX 3.0 可以做到線程級(jí)別、進(jìn)程級(jí)別(暫時(shí)未開放)、作業(yè)級(jí)別多層次局部/全局的重試,保證用戶的作業(yè)穩(wěn)定運(yùn)行。

  • 線程內(nèi)部重試

    DataX 的核心插件都經(jīng)過團(tuán)隊(duì)的全盤 review,不同的網(wǎng)絡(luò)交互方式都有不同的重試策略。

  • 線程級(jí)別重試

    目前 DataX 已經(jīng)可以實(shí)現(xiàn) TaskFailover,針對(duì)于中間失敗的 Task,DataX 框架可以做到整個(gè) Task 級(jí)別的重新調(diào)度。

2.5.6 極簡(jiǎn)的使用體驗(yàn)

  • 易用

    下載即可用,支持 linux、windows、macOS,只需要短短幾步驟就可以完成數(shù)據(jù)的傳輸。請(qǐng)點(diǎn)擊:Quick Start

  • 詳細(xì)

    DataX 在運(yùn)行日志中打印了大量信息,其中包括傳輸速度,Reader、Writer 性能,進(jìn)程 CPU,JVM 和 GC 情況等等。

    • 傳輸過程中打印傳輸速度、進(jìn)度等

    • 傳輸過程中會(huì)打印進(jìn)程相關(guān)的 CPU、JVM 等

    • 在任務(wù)結(jié)束之后,打印總體運(yùn)行情況

下一篇文章:大數(shù)據(jù) DataX 詳細(xì)安裝教程-CSDN博客?

http://www.risenshineclean.com/news/64252.html

相關(guān)文章:

  • 自己建設(shè)網(wǎng)站怎么做山西seo優(yōu)化公司
  • 建設(shè)網(wǎng)站的企業(yè)是什么策劃公司
  • 順德企業(yè)手機(jī)網(wǎng)站建設(shè)怎么上百度推廣產(chǎn)品
  • wordpress建中文網(wǎng)站西安百度推廣運(yùn)營
  • 網(wǎng)站建設(shè)及推廣百度論壇首頁
  • 網(wǎng)站說服力營銷型網(wǎng)站策劃公司seo
  • 網(wǎng)站圖片做多大網(wǎng)站流量統(tǒng)計(jì)系統(tǒng)
  • 沈陽中小企業(yè)網(wǎng)站制作站長之家官網(wǎng)登錄入口
  • 無錫做百度網(wǎng)站軟文代寫接單平臺(tái)
  • 一鍵做網(wǎng)站廊坊百度關(guān)鍵詞優(yōu)化怎么做
  • 好的作文網(wǎng)站網(wǎng)站搭建模板
  • 合肥網(wǎng)站制作公司排名個(gè)人網(wǎng)站源碼免費(fèi)下載
  • 建網(wǎng)站素材短視頻平臺(tái)推廣
  • 上海專業(yè)網(wǎng)站建設(shè)網(wǎng)站沈陽網(wǎng)站制作
  • 域名過期的網(wǎng)站怎么看seo點(diǎn)擊排名軟件哪里好
  • 360軟件商店衡陽seo優(yōu)化報(bào)價(jià)
  • 網(wǎng)站建設(shè)施工方案如何百度收錄自己的網(wǎng)站
  • 網(wǎng)站 ip修改備案流程西安搜建站科技網(wǎng)站
  • 新手學(xué)做網(wǎng)站編程微信搜一搜seo
  • 網(wǎng)站開發(fā)工作簡(jiǎn)歷搜索引擎哪個(gè)好用
  • 看市場(chǎng)行情用什么軟件秦皇島網(wǎng)站seo
  • django 網(wǎng)站開發(fā)論文優(yōu)化網(wǎng)站服務(wù)
  • 合肥市建設(shè)網(wǎng)站市場(chǎng)信息價(jià)廣州網(wǎng)站制作實(shí)力樂云seo
  • 濱州做網(wǎng)站公司網(wǎng)絡(luò)建站
  • 做網(wǎng)站怎么做寧波網(wǎng)站推廣專業(yè)服務(wù)
  • 網(wǎng)站建設(shè)有利點(diǎn)谷歌seo需要做什么的
  • 手機(jī)網(wǎng)站建設(shè)平臺(tái)保定seo推廣公司
  • 自學(xué)做網(wǎng)站的書搜索引擎優(yōu)化的流程是什么
  • 學(xué)校部門網(wǎng)站建設(shè)網(wǎng)絡(luò)商城應(yīng)該如何推廣
  • 想做一個(gè)網(wǎng)站平臺(tái)怎么做的seo營銷專員