西安php網(wǎng)站開發(fā)培訓(xùn)班信息流廣告哪個(gè)平臺(tái)好
如今,圖表比以往任何時(shí)候都更加相關(guān)和有用。由于目前正在發(fā)生的人工智能革命,工程師們正在考慮圍繞 Gen-AI 的機(jī)會(huì),利用具有動(dòng)態(tài)提示、數(shù)據(jù)基礎(chǔ)和屏蔽功能的開放 Gen-AI 解決方案,這進(jìn)一步促使他們思考知識(shí)圖譜等有效的解決方案。
工程師 Mary 正在研究數(shù)據(jù)基礎(chǔ)問題,并正在考慮?為人工智能解決方案構(gòu)建知識(shí)圖,以在工作中提供個(gè)性化產(chǎn)品推薦,并開始想知道
- 如何構(gòu)建這些圖表,
- 將它們存放在哪里,
- 如何與我們從數(shù)據(jù)庫、倉庫和湖房等廣泛來源獲得的大量數(shù)據(jù)集成?
Mary 的擔(dān)憂似乎很合理,如果她現(xiàn)在必須編寫應(yīng)用程序邏輯來生成圖,連接到新的圖數(shù)據(jù)庫來存儲(chǔ)它們,這會(huì)帶來集成、安全性、成本、可靠性和技術(shù)學(xué)習(xí)等挑戰(zhàn)。
Mary 可以通過簡單而強(qiáng)大的本機(jī)圖形分析引擎應(yīng)用程序來克服這些繁瑣的問題。
是的,今天可以實(shí)現(xiàn)對(duì)現(xiàn)有數(shù)據(jù)的圖形查詢,而無需具體化圖形或使用圖形數(shù)據(jù)庫。
想知道如何在數(shù)據(jù)庫、倉庫和湖泊中的現(xiàn)有數(shù)據(jù)上本地實(shí)現(xiàn)圖形分析和圖形查詢!讓我們先睹為快。
讓我退一步解釋什么是圖以及圖分析相對(duì)于傳統(tǒng)數(shù)據(jù)分析有何優(yōu)勢(shì)。
在軟件工程中,圖是用于建模和表示實(shí)體之間關(guān)系的數(shù)據(jù)結(jié)構(gòu)。它們由頂點(diǎn)(節(jié)點(diǎn))和連接這些頂點(diǎn)的邊(關(guān)系)組成,可以是有向的或無向的、加權(quán)的或不加權(quán)的。
圖分析是基于圖的數(shù)據(jù)的一種強(qiáng)大的新興數(shù)據(jù)分析形式,可幫助企業(yè)理解各種數(shù)據(jù)實(shí)體之間的復(fù)雜關(guān)系。它有助于理解、可視化復(fù)雜的關(guān)系并從中得出有意義的見解。
使用圖數(shù)據(jù)庫進(jìn)行圖分析比關(guān)系存儲(chǔ)上的傳統(tǒng) SQL 分析如何更好?
我們可以看到圖形分析更加高效、靈活、可擴(kuò)展、可伸縮,并且與智能|人工智能分析相關(guān)。
當(dāng)今如何實(shí)現(xiàn)圖分析
當(dāng)今大多數(shù)利用圖分析的企業(yè)都會(huì)生成圖并將其存儲(chǔ)在圖數(shù)據(jù)庫中。Neo4j、TigerGraph、Amazon Neptune 和 OrientDB 被業(yè)界廣泛采用作為圖數(shù)據(jù)庫。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 來源:作者
新范式
原生圖形分析引擎是一種新范例,我們可以直接實(shí)現(xiàn)圖形查詢以及現(xiàn)有關(guān)系/SQL 數(shù)據(jù)的可視化,而無需在中間使用圖形數(shù)據(jù)庫,并且仍然可以利用我們從圖形和傳統(tǒng)分析方法中獲得的所有優(yōu)勢(shì)。
這似乎是一個(gè)非常強(qiáng)大的工具,在圖形分析方面有很多機(jī)會(huì),并且似乎完全可以放棄使用冗余圖形數(shù)據(jù)庫并轉(zhuǎn)向這種新的本機(jī)圖形分析范例。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?從流程中刪除圖形數(shù)據(jù)庫
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?最終用戶流程圖
一槍三鳥!
如果我們可以將圖查詢應(yīng)用于現(xiàn)有的傳統(tǒng)數(shù)據(jù)存儲(chǔ)(例如關(guān)系數(shù)據(jù)庫、倉庫、湖泊或湖屋),我們可以一次性實(shí)現(xiàn)三件事:
- 零 ETL:無需從存儲(chǔ)的現(xiàn)有數(shù)據(jù)中復(fù)制、遷移或 ETL 數(shù)據(jù)來構(gòu)建和存儲(chǔ)圖形。此外,無需將基本關(guān)系數(shù)據(jù)從一個(gè)湖復(fù)制到另一個(gè)湖。您可以擁有一個(gè)可以動(dòng)態(tài)查詢的虛擬層。
- 不需要新的圖形數(shù)據(jù)庫:不需要以圖形格式具體化和存儲(chǔ)數(shù)據(jù),它們可以在運(yùn)行時(shí)動(dòng)態(tài)完成,不需要引入新的圖形數(shù)據(jù)庫,也不需要擔(dān)心集成、成本和安全性限制。
- 高性能:還可以實(shí)現(xiàn)圖形查詢對(duì)關(guān)系數(shù)據(jù)具有的所有性能優(yōu)勢(shì)。
業(yè)界正在快速跟上這種新方法,并且在這方面已經(jīng)有一些參與者。
用于開發(fā)的開源庫
Apache Spark GraphX:?GraphX是 Spark 中用于圖形和圖形并行計(jì)算的新組件,其中包括越來越多的圖形算法和構(gòu)建器,以簡化圖形分析任務(wù)。
Apache Flink Gelly:Gelly是 Apache Flink 的圖形處理 API 和庫。Flink 對(duì)迭代的原生支持使其成為大規(guī)模圖分析的合適平臺(tái)。
用于本機(jī)支持的現(xiàn)成播放器/引擎
PuppyGraph:?使用PuppyGraph,您現(xiàn)在可以通過無縫的無 ETL 集成,以以下任意開放表格式對(duì)倉庫、湖泊和湖屋中的現(xiàn)有數(shù)據(jù)進(jìn)行圖形查詢。
- 阿帕奇冰山
- 阿帕奇胡迪
- 阿帕奇蜂巢
- 三角洲湖
以及來自以下數(shù)據(jù)庫的關(guān)系數(shù)據(jù)
- MySQL
- PostgreSQL
Timbr.ai:Timbr?的語義圖平臺(tái)是一個(gè) SQL 原生知識(shí)圖,可將您的數(shù)據(jù)庫轉(zhuǎn)變?yōu)橥评頇C(jī),以便我們可以應(yīng)用優(yōu)化圖,例如對(duì)數(shù)據(jù)進(jìn)行 SQL 查詢。它支持與任何符合 SQL / ANSI SQL 標(biāo)準(zhǔn)或可以在 SQL 中查詢的關(guān)系數(shù)據(jù)庫進(jìn)行完整的后端集成。連接可以通過 JDBC 或 ODBC 連接器建立,無需 ETL。
- 關(guān)系數(shù)據(jù)庫(MySQL、MariaDb、SqlServer、PostgreSQL、SAP Hana、Aurora Oracle)
- NoSQL 數(shù)據(jù)庫 (MongoDB)
- 數(shù)據(jù)湖(S3、GCS、Microsoft ADLS)
- 倉庫(RedShift、BigQuery、Snowflake、Databricks、Synapse、Athena)
- 引擎(Apache Spark、Presto、Trino)
- 數(shù)據(jù)格式(Parquet/JSON/CSV)
總而言之,值得探索我們現(xiàn)有的這些選項(xiàng),以在不使用圖形數(shù)據(jù)庫和物化圖形的情況下實(shí)現(xiàn)圖形分析。祝你嘗試成功!!
作者:Sudheer Kandula
更多技術(shù)干貨請(qǐng)關(guān)注公號(hào)【云原生數(shù)據(jù)庫】
squids.cn,云數(shù)據(jù)庫RDS,遷移工具DBMotion,云備份DBTwin等數(shù)據(jù)庫生態(tài)工具。
irds.cn,多數(shù)據(jù)庫管理平臺(tái)(私有云)。