當前位置：首頁 > news >正文

中英文網(wǎng)站asp怎么做搜狗搜圖

news 2025/7/4 17:40:13

中英文網(wǎng)站asp怎么做,搜狗搜圖,日韓片在線觀看,系統(tǒng)開發(fā)板價格1. HDFS HDFS（Hadoop Distributed File System）–Hadoop分布式文件存儲系統(tǒng) 源自于Google的GFS論文，HDFS是GFS的克隆版 HDFS是Hadoop中數(shù)據(jù)存儲和管理的基礎他是一個高容錯的系統(tǒng)，能夠自動解決硬件故障，eg&#xff1a…

1. HDFS

HDFS（Hadoop Distributed File System）–Hadoop分布式文件存儲系統(tǒng)
源自于Google的GFS論文，HDFS是GFS的克隆版
HDFS是Hadoop中數(shù)據(jù)存儲和管理的基礎
他是一個高容錯的系統(tǒng)，能夠自動解決硬件故障，eg：硬盤損壞，HDFS可以自動修復，可以運行于低成本的通用硬件上（低廉的硬盤，4TB是1200元左右）
【Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構(gòu)?！?/p>

2. YARN

Hadoop中另一個核心組件YARN，這個組件對Hadoop的發(fā)展起到了至關(guān)重要的作用。YARN （Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者），Hadoop2中新增加的一種資源管理器。
YARN是一種通用資源管理系統(tǒng)和調(diào)度平臺，可以為上層應用提供統(tǒng)一的資源管理和調(diào)度。
YARN的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大的好處。
hadoop1.0中的資源調(diào)度管理由MapReduce來負責，為了降低MR的工作復雜度，在2.0中新增了YARN組件，來專門負責資源的調(diào)度和管理。

另一個搜索結(jié)果：
Yarn 是一個軟件包管理器，還可以作為項目管理工具。無論你是小型項目還是大型單體倉庫（monorepos），無論是業(yè)余愛好者還是企業(yè)用戶，Yarn 都能滿足你的需求。
npm（Node Package Manager）和 yarn 是兩個常用的包管理工具，用于在 Node.js 項目中安裝、管理和更新依賴項。
npm（全稱 Node Package Manager）是一個軟件包管理系統(tǒng)，專門管理用 JavaScript 編寫的軟件包?？梢悦赓M下載別人寫好的 js軟件包，并用到項目中，當然也可以上傳共享自己寫的 js軟件包。安裝及使用，看這里！
yarn 也是一個軟件包管理系統(tǒng)，同樣用于管理用 JavaScript 編寫的軟件包，yarn 的出現(xiàn)是為了彌補 npm 的一些缺陷。

3. hive

hive是基于Hadoop的一個數(shù)據(jù)倉庫工具，用來進行數(shù)據(jù)提取、轉(zhuǎn)化、加載，這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。hive數(shù)據(jù)倉庫工具能將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表，并提供SQL查詢功能，能將SQL語句轉(zhuǎn)變成MapReduce任務來執(zhí)行。Hive的優(yōu)點是學習成本低，可以通過類似SQL語句實現(xiàn)快速MapReduce統(tǒng)計，使MapReduce變得更加簡單，而不必開發(fā)專門的MapReduce應用程序。
最初，Hive是由Facebook開發(fā)，后來移交由Apache軟件基金會開發(fā)，并作為一個Apache開源項目。

4. HBase

Hbase是一個開源的非關(guān)系型分布式數(shù)據(jù)庫，它參考了谷歌的BigTable建模，實現(xiàn)的編程語言為Java。它是Apache軟件基金會Hadoop項目的一部分，運行于HDFS文件系統(tǒng)之上，為Hadoop提供類似于BigTable規(guī)模的服務。
HBase 是一個面向列式存儲的分布式數(shù)據(jù)庫，其設計思想來源于 Google 的 BigTable 論文。HBase 底層存儲基于 HDFS 實現(xiàn)，集群的管理基于 ZooKeeper 實現(xiàn)。

5.ZooKeeper

ZooKeeper是一個分布式的，開放源碼的分布式應用程序協(xié)調(diào)服務，是Google的Chubby一個開源的實現(xiàn)，是Hadoop和Hbase的重要組件。它是一個為分布式應用提供一致性服務的軟件，提供的功能包括：配置維護、域名服務、分布式同步、組服務等。

簡單來說，zookeeper = 文件系統(tǒng) + 監(jiān)聽通知機制

6.Spark

Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用并行框架，Spark，擁有Hadoop MapReduce所具有的優(yōu)點；但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。

Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越，換句話說，Spark 啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負載。

7.Flink

Apache Flink是由Apache軟件基金會開發(fā)的開源流處理框架，其核心是用Java和Scala編寫的分布式流數(shù)據(jù)流引擎。Flink以數(shù)據(jù)并行和流水線方式執(zhí)行任意流數(shù)據(jù)程序，Flink的流水線運行時系統(tǒng)可以執(zhí)行批處理和流處理程序。此外，Flink的運行時本身也支持迭代算法的執(zhí)行。
Flink是一個批處理和流處理結(jié)合的統(tǒng)一計算框架，其核心是一個提供了數(shù)據(jù)分發(fā)以及并行化計算的流數(shù)據(jù)處理引擎。它的最大亮點是流處理，是業(yè)界最頂級的開源流處理引擎。
Flink最適合的應用場景是低時延的數(shù)據(jù)處理（Data Processing）場景：高并發(fā)pipeline處理數(shù)據(jù)，時延毫秒級，且兼具可靠性。

8.Kafka

Kafka是由Apache軟件基金會開發(fā)的一個開源流處理平臺，是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)，由Scala和Java編寫。

Kafka可以處理消費者在網(wǎng)站中的所有動作流數(shù)據(jù)，這種動作（網(wǎng)頁瀏覽，搜索和其他用戶的行動）是在現(xiàn)代網(wǎng)絡上的許多社會功能的一個關(guān)鍵因素，這些數(shù)據(jù)通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。對于像Hadoop一樣的日志數(shù)據(jù)和離線分析系統(tǒng)，但又要求實時處理的限制，這是一個可行的解決方案，Kafka的目的是通過Hadoop的并行加載機制來統(tǒng)一線上和離線的消息處理，也是為了通過集群來提供實時的消息。Kafka具有高吞吐量，支持通過kafka服務器和消費機集群來分區(qū)消息，支持 Hadoop并行數(shù)據(jù)加載等特點。

9.ELK

ELK是三個軟件的統(tǒng)稱，即Elasticsearch、Logstash和Kibana三個開源軟件的縮寫。這三款軟件都是開源軟件，通常配合使用，并且都先后歸于Elastic.co企業(yè)名下，故被簡稱為ELK協(xié)議棧。ELK主要用于部署在企業(yè)架構(gòu)中，收集多臺設備上多個服務的日志信息，并將其統(tǒng)一整合后提供給用戶。ELK官網(wǎng)網(wǎng)址如下：https://www.elastic.co/cn/

10.ansible

ansible是新出現(xiàn)的自動化運維工具，基于Python開發(fā)。ansible是基于模塊工作的，本身沒有批量部署的能力。真正具有批量部署的是ansible所運行的模塊，ansible只是提供一種框架。https://zhuanlan.zhihu.com/p/387360214
在這里插入圖片描述

hadoop的概念

網(wǎng)上會經(jīng)常遇到各種hadoop的概念，Hive，HBase，Hdfs都各是什么呢？首先從hdfs說起，hdfs是分布式文件系統(tǒng)，它把集群當作單機一樣做文件操作，文件可能存在于多個機器上，具體的存儲細節(jié)會對使用者隱藏。map_reduce是一個計算框架，google提出的，用于大規(guī)模數(shù)據(jù)計算，它們的主要思想，是從函數(shù)式編程中借來的特性。hdfs和map_reduce統(tǒng)稱為我們常說的Hadoop架構(gòu)，這個架構(gòu)能存儲PB級別的數(shù)據(jù)，也能進行成千上萬的獨立計算。好，現(xiàn)在已經(jīng)有了這個框架了，這個框架包含了底層的存儲結(jié)構(gòu)，但是卻并不是那么好用，我們大家還是擅長于使用sql語句來進行數(shù)據(jù)精煉，查詢和分析的。這個時候，就出現(xiàn)了Hive。Hive的功能是把sql語句解析成map_reduce的計算任務，當然這樣的拆分會導致查詢變慢，可能一個sql查詢需要分鐘甚至小時級別的，不像mysql那樣秒級以內(nèi)查詢出結(jié)果?；贖adoop框架，Powerset公司提出了另外一種非關(guān)系行分布式數(shù)據(jù)庫HBase。它是使用JAVA實現(xiàn)的，最大的特點是基于列存儲的。列存儲的好處是什么？列存儲就是把不同行相同的數(shù)據(jù)存儲在一起，這樣比如有的行沒有的屬性，在行存儲中還需要留空余空間，但是在列存儲中就完全不需要。列存儲也能把相同屬性的字段存儲在一起，這樣對數(shù)據(jù)壓縮也有好處。所以列存儲很適合大數(shù)據(jù)領域。我們經(jīng)?？吹轿恼卤容^HBase和Hive，一般都是比較他們的查詢效率，其實他們并不是一個維度的東西。HBase的查詢效率會優(yōu)于Hive，而Hive一般用于做離線的數(shù)據(jù)分析。

本文轉(zhuǎn)自軒脈刃博客園博客，原文鏈接：http://www.cnblogs.com/yjf512/p/5166296.html，如需轉(zhuǎn)載請自行聯(lián)系原作者

查看全文

http://www.risenshineclean.com/news/38178.html

中文亚洲精品无码_熟女乱子伦免费_人人超碰人人爱国产_亚洲熟妇女综合网