開源php erp管理系統(tǒng)剛哥談架構(gòu)(十三)大數(shù)據(jù)軟件開源版圖(圖)php開源 erp
2021-12-30
上一篇,剛談架構(gòu)(十三)大數(shù)據(jù)軟件開源布局由于篇幅問題,沒有詳細(xì)介紹大數(shù)據(jù)開源布局各部分的內(nèi)容。今天我們繼續(xù)上一個話題,具體看看大數(shù)據(jù)開源圖的各個部分。
我們?yōu)槊總€領(lǐng)域挑選了三個典型的選項,并為您做一個簡單的介紹。
數(shù)據(jù)攝取和轉(zhuǎn)換 Data & ETL
大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)來源多種多樣,主要包括以下幾類:
事務(wù)數(shù)據(jù)庫中存儲的業(yè)務(wù)數(shù)據(jù)()業(yè)務(wù)應(yīng)用系統(tǒng)(SAP ERP/)應(yīng)用事件應(yīng)用日志第三方系統(tǒng)開放API文件和對象存儲
大數(shù)據(jù)系統(tǒng)的第一個重要子系統(tǒng)是攝取和轉(zhuǎn)換數(shù)據(jù)源。傳統(tǒng)的定義叫做ETL(,,Load)?,F(xiàn)代數(shù)據(jù)系統(tǒng)逐漸從ETL轉(zhuǎn)換到ELT,轉(zhuǎn)換工作會交給后續(xù)的數(shù)據(jù)處理子系統(tǒng)。我們也可以稱這部分為大數(shù)據(jù)管道。
是一個由開源社區(qū)創(chuàng)建的平臺,用于以編程方式創(chuàng)作、調(diào)度和監(jiān)控工作流。用戶可以使用其預(yù)先構(gòu)建或自定義的連接器來自動化和控制數(shù)據(jù)管道。支持以您喜歡的語言構(gòu)建您自己的管道和連接器。連接器作為容器運行,開箱即可使用。用戶可以使用其 UI 和 API 進(jìn)行監(jiān)控、調(diào)度和編排。由于使用單個開源存儲庫進(jìn)行標(biāo)準(zhǔn)化和集成,這些連接器的質(zhì)量更高。它呈指數(shù)級增長,并圍繞它建立了一個充滿活力的支持社區(qū)。然而,這項技術(shù)仍然是新的,還沒有完全成熟。今年5月,它完成了2600萬美元的A輪融資。
它是一種高性能的可觀察性數(shù)據(jù)管道,允許組織控制其可觀察性數(shù)據(jù)。收集、轉(zhuǎn)換所有日志、指標(biāo)和跟蹤,并將它們路由到您需要的任何地方。
Rust 開發(fā)的數(shù)據(jù)管道速度快且內(nèi)存高效。它旨在處理最苛刻的環(huán)境。端到端旨在成為從 A 到 B 獲取數(shù)據(jù)所需的唯一工具,部署為守護進(jìn)程、邊車或服務(wù)。支持日志、指標(biāo)和事件網(wǎng)站開發(fā),可以輕松收集和處理所有可觀察的數(shù)據(jù)。不支持任何存儲、可編程轉(zhuǎn)換(T),提供可編程運行時的所有功能。無限處理復(fù)雜用例。使用自主研發(fā)的數(shù)據(jù)管道定義和轉(zhuǎn)換DSL,實現(xiàn)數(shù)據(jù)變形功能。
.io 背后的公司成立于 2016 年。這是一個與供應(yīng)商無關(guān)的高性能可觀察數(shù)據(jù)管道,允許客戶在本地和云環(huán)境中收集、豐富和轉(zhuǎn)換日志和其他可觀察數(shù)據(jù)。它是在今年 2 月收購的。在收購之前,它已從投資者和其他投資者那里籌集了 580 萬美元的風(fēng)險投資基金。
是一個由社區(qū)創(chuàng)建的平臺,用于以編程方式創(chuàng)作、調(diào)度和監(jiān)控工作流。嚴(yán)格來說,它不是專業(yè)的ETL工具,它是一個更通用的工作流平臺。但它可以用于大數(shù)據(jù)數(shù)據(jù)管道,提供定制的 ETL 功能。
使用將工作流創(chuàng)作為任務(wù)的有向無環(huán)圖 (DAG)。調(diào)度程序在遵循指定的依賴項的同時在一組工作人員上執(zhí)行您的任務(wù)。豐富的命令行實用程序可以輕松地在 DAG 上執(zhí)行復(fù)雜的操作。豐富的用戶界面使生產(chǎn)中運行的管道可視化、監(jiān)控進(jìn)度和在需要時解決問題變得容易。當(dāng)工作流被定義為代碼(作為代碼)時,它們變得更加可維護、可版本化、可測試和協(xié)作。
數(shù)據(jù)倉庫OLAP
在計算機領(lǐng)域,數(shù)據(jù)倉庫是用于報告和數(shù)據(jù)分析的系統(tǒng),被認(rèn)為是商業(yè)智能的核心組件。數(shù)據(jù)倉庫是來自一個或多個不同來源的集成數(shù)據(jù)的中央存儲庫。數(shù)據(jù)倉庫將當(dāng)前數(shù)據(jù)和歷史數(shù)據(jù)存儲在一起,用于為整個企業(yè)的員工創(chuàng)建分析報告。存儲在倉庫中的數(shù)據(jù)是從操作系統(tǒng)上傳的。
它是一個開源分析數(shù)據(jù)庫,專為高維高基數(shù)數(shù)據(jù)的亞秒級 OLAP 查詢而設(shè)計。它是由一家廣告分析公司創(chuàng)建的,已被許多公司使用,包括、、、、易趣、和。它結(jié)合了 OLAP 數(shù)據(jù)庫、時間序列數(shù)據(jù)庫和搜索系統(tǒng)的思想,創(chuàng)建了一個適用于廣泛用例的統(tǒng)一系統(tǒng)。最初于2012年獲得GPL許可,成為騰云網(wǎng)絡(luò),2015年變更為2許可,2018年作為孵化項目加入
俄羅斯搜索巨頭開發(fā)的面向列的關(guān)系型數(shù)據(jù)庫是近兩年OLAP領(lǐng)域最火爆的,2016年開源,典型用戶包括字節(jié)跳動、新浪、騰訊等知名公司。
它是一個基于 MPP 架構(gòu)的分布式(關(guān)系型 OLAP)分析引擎。每個節(jié)點都有相同的職責(zé),負(fù)責(zé)部分?jǐn)?shù)據(jù)處理(不共享任何內(nèi)容)。是一個真正的柱狀數(shù)據(jù)庫管理系統(tǒng)(DBMS)。在,數(shù)據(jù)總是存儲在列中,包括向量執(zhí)行的過程(向量或列塊)。只要有可能,操作都是基于向量而不是單個值來調(diào)度的。它開發(fā)了矢量化執(zhí)行引擎,利用日志合并樹、稀疏索引和CPU功能(如SIMD單指令多數(shù)據(jù))充分發(fā)揮硬件優(yōu)勢,可以實現(xiàn)高效計算。因此,當(dāng)面對大量數(shù)據(jù)的計算方案時,通??梢赃_(dá)到CPU性能的極限。
它是一個分布式大數(shù)據(jù)分析引擎,提供SQL接口和多維分析(OLAP),可以堆棧使用。它最初由易趣中國研發(fā)中心開發(fā)。它于 2014 年開源并為此做出了貢獻(xiàn)。具有亞秒級查詢功能和超高并發(fā)查詢功能。由美團、滴滴、攜程、殼牌、騰訊等多家大廠商制造。商業(yè)。商業(yè)采用。
是基于(多維OLAP)技術(shù)的。核心技術(shù)是OLAP Cube;與傳統(tǒng)技術(shù)不同,它運行在強大且可擴展的平臺上,可以支持大量數(shù)據(jù)(TB 到 PB)。將預(yù)先計算(或執(zhí)行)的多維立方體導(dǎo)入低延遲分布式數(shù)據(jù)庫,實現(xiàn)亞秒級查詢響應(yīng)。最近4開始用+代替,進(jìn)一步簡化架構(gòu)。由于離線任務(wù)(多維數(shù)據(jù)集構(gòu)建)期間已經(jīng)完成了大量的聚合計算,因此在執(zhí)行SQL查詢時不需要訪問原始數(shù)據(jù),而是直接使用索引將聚合結(jié)果組合起來,重新進(jìn)行計算。性能高于原始數(shù)據(jù)。一百甚至數(shù)千次;由于CPU使用率低,可以支持更高的并發(fā),
數(shù)據(jù)湖
數(shù)據(jù)湖是指以自然格式存儲數(shù)據(jù)的系統(tǒng),例如大型二進(jìn)制對象或文件。它通常以統(tǒng)一的方式存儲所有企業(yè)數(shù)據(jù),包括源系統(tǒng)中的原始副本和轉(zhuǎn)換后的數(shù)據(jù),例如用于報告、可視化、數(shù)據(jù)分析和機器學(xué)習(xí)的數(shù)據(jù)。數(shù)據(jù)湖可以包括關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和二進(jìn)制數(shù)據(jù)。
Lake 是一個開源的存儲層,可以為數(shù)據(jù)湖帶來可靠性。Data Lake 是一個集中式存儲庫,可以存儲任何大小的數(shù)據(jù)。通常,這些數(shù)據(jù)將采用原始格式。捕獲數(shù)據(jù)時未定義數(shù)據(jù)或架構(gòu)的結(jié)構(gòu)。這意味著無需精心設(shè)計或了解未來可能需要回答的問題,即可存儲所有數(shù)據(jù)。數(shù)據(jù)湖存在的問題之一是缺乏可靠性,數(shù)據(jù)湖中可能存在不良數(shù)據(jù)。Lake是Data Lake之上的存儲層。Lake 會查看來自 Data Lake 的數(shù)據(jù),并確保數(shù)據(jù)符合指定的架構(gòu)。這樣,進(jìn)入Lake的數(shù)據(jù)才會正確可靠。Lake 可以處理批處理數(shù)據(jù)和流數(shù)據(jù)。與Data相比,性能也可以優(yōu)化。
Hudi是一個快速迭代的數(shù)據(jù)湖存儲系統(tǒng),可以幫助企業(yè)構(gòu)建和管理PB級數(shù)據(jù)湖。Hudi 通過引入諸如增量查詢之類的原語,將流式處理功能引入到批處理中。這些特性使統(tǒng)一服務(wù)層能夠提供更快、更新鮮的數(shù)據(jù)。Hudi 表可以存儲在兼容的分布式文件系統(tǒng)或云對象存儲中,并且與 Hive 和. Hudi 開創(chuàng)了一種新模型(數(shù)據(jù)組織形式),將文件寫入一個更受管理的存儲層,該存儲層可以與主流查詢引擎互操作,并具有項目演化的一些有趣方面。經(jīng)驗。
Hudi等數(shù)據(jù)湖相當(dāng)于現(xiàn)有OLTP和OLAP技術(shù)之間的橋梁。它們可以將數(shù)據(jù)存儲在OLTP現(xiàn)有的數(shù)據(jù)結(jié)構(gòu)中,支持CRUD,并提供與現(xiàn)有OLAP框架(如Hive)的集成,實現(xiàn)OLAP分析Kudu,需要單獨部署集群。Hudi不需要它??梢允褂肏DFS等現(xiàn)有的大數(shù)據(jù)集群進(jìn)行數(shù)據(jù)文件存儲,再使用Hive進(jìn)行數(shù)據(jù)分析,相對更適合資源受限的環(huán)境。
它是一種用于跟蹤超大規(guī)模表的新格式。專為對象存儲(如S3). 開發(fā)開源,2018年11月16日進(jìn)入孵化器。為公司數(shù)據(jù))倉庫基礎(chǔ)。功能與Lake或Hudi類似,但各有優(yōu)缺點。
目標(biāo)包括:
成為靜態(tài)數(shù)據(jù)交換的開放規(guī)范,保持清晰的格式規(guī)范,支持多語言,支持跨項目需求等。提高可擴展性和可靠性。它可以在節(jié)點或集群上運行。所有修改都是原子的、序列化的和隔離的。原生支持云對象存儲,支持多并發(fā)寫入修復(fù)持續(xù)可用性問題,如模型進(jìn)化、分區(qū)隱藏、支持時間旅行、回滾等機器學(xué)習(xí)和運維ML&
開源的機器學(xué)習(xí)和深度學(xué)習(xí)工具有很多,其中常用的算法工具有、、、、ONNX、-、等,這些工具都非常成熟。隨著/的興起,我們更加關(guān)注一些解決大規(guī)模機器學(xué)習(xí)運維功能的平臺化開源工具。
當(dāng)前機器學(xué)習(xí)面臨的挑戰(zhàn):
總和是解決這些問題的答案。
,顧名思義就是+,是一個開源平臺,開發(fā)出來支持自己的部署。當(dāng)然,它也支持其他基于它的機器學(xué)習(xí)引擎。與其他產(chǎn)品相比,因為它建立在強大的基礎(chǔ)上,所以未來和生態(tài)系統(tǒng)更有前景。
它是一個用于管理端到端機器學(xué)習(xí)生命周期的開源平臺。它分為四個部分:跟蹤、項目、模型和模型注冊。您可以單獨使用這些組件中的每一個 — 例如,您可能希望以模型格式導(dǎo)出模型而無需跟蹤或項目 — 但它們也可以很好地協(xié)同工作。
核心理念是對工作流施加盡可能少的限制:它旨在與任何機器學(xué)習(xí)庫一起使用開源php erp管理系統(tǒng),習(xí)慣上確定有關(guān)代碼的大部分內(nèi)容,并且可以將其集成到現(xiàn)有代碼庫中中間變化最小。同時,它旨在采用以其格式編寫的任何代碼庫,并使其可被多個數(shù)據(jù)科學(xué)家復(fù)制和重用。
是華為開源的、端側(cè)云全場景按需AI計算框架,為全場景提供統(tǒng)一的API,為全場景AI的模型開發(fā)、模型運營、模型部署提供端到端的能力.
即席查詢(Ad hoc)
它是一個適用于大數(shù)據(jù)的分布式SQL查詢引擎,使SQL能夠訪問任何數(shù)據(jù)源。您可以使用具有水平擴展的查詢處理來查詢非常大的數(shù)據(jù)集。它用于對大小從 GB 到 PB 的各種數(shù)據(jù)源運行交互式分析查詢。它是專門為交互式分析而設(shè)計和編寫的,在擴展到這樣一個組織的規(guī)模的同時,可以達(dá)到商業(yè)數(shù)據(jù)倉庫的速度。雖然它理解并能有效地執(zhí)行 SQL,但它不是一個數(shù)據(jù)庫,因為它不包含自己的數(shù)據(jù)存儲系統(tǒng)。它并不意味著是一個通用的關(guān)系數(shù)據(jù)庫。它不是為處理 OLTP 場景而設(shè)計的。
SQL 查詢可以在不同的數(shù)據(jù)源上執(zhí)行。它是一個用于大數(shù)據(jù)集的低延遲分布式查詢引擎,包括結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)/嵌套。受谷歌啟發(fā),設(shè)計規(guī)模為數(shù)千個節(jié)點,可與BI或分析環(huán)境交互。與此類似,SQL 查詢可以在不同的數(shù)據(jù)源上執(zhí)行。它是一個用于大數(shù)據(jù)集的低延遲分布式查詢引擎,包括結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)/嵌套。受谷歌啟發(fā),設(shè)計規(guī)模為數(shù)千個節(jié)點,可與BI或分析環(huán)境交互。在大型數(shù)據(jù)集上,它還可以用于簡短的交互式臨時查詢??捎糜谇短撞樵?,如 JSON 格式、格式和動態(tài)執(zhí)行查詢。不需要集中的元數(shù)據(jù)倉庫。
“”的核心服務(wù)是“”,她負(fù)責(zé)接受來自客戶端的請求,處理請求,并將結(jié)果返回給客戶端。服務(wù)可以在集群上安裝和運行。當(dāng)在集群中的每個數(shù)據(jù)節(jié)點上運行時,它可以最大限度地執(zhí)行查詢,而無需網(wǎng)絡(luò)或在節(jié)點之間移動數(shù)據(jù)。用于維護集群的健康。雖然它工作在集群環(huán)境中,但它不依賴,可以運行在任何分布式集群環(huán)境中。唯一的前提是需要。
它是一個開源的集群計算框架,最初由加州大學(xué)伯克利分校開發(fā)。相比之下,中間數(shù)據(jù)會在工作完成后存儲在磁盤中,采用內(nèi)存中的算法技術(shù),可以在數(shù)據(jù)寫入硬盤之前在內(nèi)存中進(jìn)行分析和計算。它是一個大家都非常熟悉的計算引擎,這里就不再贅述了。值得注意的是,企業(yè)軟件公司是由原作者創(chuàng)建的。該公司還創(chuàng)建了 Lake,這是一個流行的開源項目,涵蓋數(shù)據(jù)工程、數(shù)據(jù)科學(xué)和機器學(xué)習(xí)。2021年2月1日,宣布完成10億美元G輪融資。
實時流媒體分析
它是一個框架和分布式處理引擎,用于對無邊界和有邊界的數(shù)據(jù)流進(jìn)行有狀態(tài)計算。它可以在所有常見的集群環(huán)境中運行,并且可以以內(nèi)存速度和任何規(guī)模執(zhí)行計算。擅長處理無界和有界數(shù)據(jù)集,精確的時間控制和狀態(tài)性使()能夠運行任何處理無界流的應(yīng)用程序。有界流由一些專門為固定大小的數(shù)據(jù)集設(shè)計的算法和數(shù)據(jù)結(jié)構(gòu)在內(nèi)部進(jìn)行處理,從而產(chǎn)生出色的性能。
是一個用于在其上構(gòu)建流處理應(yīng)用程序的數(shù)據(jù)庫。它是分布式的、可擴展的、可靠的和實時的。通過熟悉的輕量級 SQL 語法,將實時流處理的強大功能與關(guān)系數(shù)據(jù)庫的平易近人的感覺相結(jié)合。
是一個流處理庫,它的思想是從移植來的。
這背后的公司正在使用它來構(gòu)建每天處理數(shù)十億個事件的高性能分布式系統(tǒng)和實時數(shù)據(jù)管道。
提供流處理和事件處理,類似///等工具。
提供的算力比較簡單,適用于比較輕量、簡單的流式計算場景。
數(shù)據(jù)可視化和商業(yè)智能數(shù)據(jù)和BI
數(shù)據(jù)展示和數(shù)據(jù)可視化是所有數(shù)據(jù)用戶都喜歡使用的功能,也是傳統(tǒng)BI的標(biāo)準(zhǔn)配置。在這一領(lǐng)域的是騰云網(wǎng)絡(luò)。
它是一個開源的 BI 和數(shù)據(jù)可視化工具箱??焖?、輕量、直觀,并提供多種選項,所有技能的用戶都可以輕松瀏覽和可視化他們的數(shù)據(jù),從簡單的線圖到高度詳細(xì)的地理空間圖。
目前已在多家公司大規(guī)模運營。例如,它運行在內(nèi)部生產(chǎn)環(huán)境中,每天為超過 600 個活躍用戶提供服務(wù),每天查看超過 100,000 個圖表。
旨在使任何人,無論技術(shù)水平如何,都能使用數(shù)據(jù)的力量。SQL 用戶可以使用它來探索、查詢、可視化和共享來自任何數(shù)據(jù)源的數(shù)據(jù)。他們的工作反過來使組織中的任何人都可以使用數(shù)據(jù)。每天,全球數(shù)以千計的組織中的數(shù)百萬用戶使用它來獲得洞察力并做出數(shù)據(jù)驅(qū)動的決策。
其背后的公司成立于2015年,2020年將被所有公司收購。
2014年成立于美國硅谷,其產(chǎn)品理念是一種簡單、開源的方式,公司中的每個人都可以提出問題,從數(shù)據(jù)中學(xué)習(xí)。
支持中文,支持三種不同方式解決查詢問題。
支持常見的可視化類型。
以可視化的方式支持自定義查詢,避免編寫SQL。當(dāng)然,它也支持SQL編輯。
大數(shù)據(jù)搜索
是一個基于開源的搜索服務(wù)。它基于 Web 界面提供具有分布式多用戶功能的全文搜索引擎。它是用 Java 開發(fā)的,并根據(jù)許可條款作為開源發(fā)布。它是一個流行的企業(yè)搜索引擎。專為在云計算中使用而設(shè)計,可實現(xiàn)實時搜索,穩(wěn)定可靠,速度快seo優(yōu)化,安裝使用方便。
ELK 是 ELK 的縮寫,分別提供搜索、數(shù)據(jù)訪問和可視化功能,形成應(yīng)用棧。
ELK 基本上可以說是開源搜索的事實標(biāo)準(zhǔn)。有非常強大的社區(qū)支持。
.ai 是用于對大型數(shù)據(jù)集進(jìn)行低延遲計算的引擎。它存儲和索引數(shù)據(jù),以便在服務(wù)期間可以查詢、選擇和處理數(shù)據(jù)。您可以使用托管應(yīng)用程序組件來自定義和擴展功能。
支持以下功能
它是一個開源的向量數(shù)據(jù)庫,支持對TB級向量的增刪改操作和近實時查詢。具有高度靈活、穩(wěn)定可靠、查詢速度快等特點。它集成了廣泛使用的矢量索引庫,并提供了一套簡單直觀的API,讓您可以針對不同的場景選擇不同的索引類型。此外,可以過濾標(biāo)量數(shù)據(jù),進(jìn)一步提高召回率,增強搜索的靈活性。
圖數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫具有分類帳式結(jié)構(gòu)??梢酝ㄟ^大多數(shù)人都熟悉的SQL查詢。每個條目由表中的一行組成。表通過外鍵約束相關(guān)聯(lián),外鍵約束是將信息從一個表連接到另一個表(例如主鍵)的方式。在查詢關(guān)系型數(shù)據(jù)庫時,通常會涉及到慢速的多級連接。
對于圖形(尤其是散點圖),將元素視為節(jié)點或點。線圖的元素類似地由頂點表示。每個節(jié)點都有鍵值對和標(biāo)簽。節(jié)點通過關(guān)系或邊連接。關(guān)系具有類型和方向,并且可以具有屬性。圖數(shù)據(jù)庫僅由點和線組成。當(dāng)意義在于數(shù)據(jù)之間的關(guān)系時,這種類型的數(shù)據(jù)庫更簡單,功能更強大。關(guān)系數(shù)據(jù)庫可以輕松處理直接關(guān)系,但在關(guān)系數(shù)據(jù)庫中間接關(guān)系更難處理。
它是最古老的圖形數(shù)據(jù)庫。成立于2007年,被評為全球第一的圖數(shù)據(jù)庫。它是開源的,支持多種編程語言,包括:.Net,,,,,,,,,,,,, Java,, Perl, PHP, Ruby, and。服務(wù)器操作系統(tǒng)是OS X,并且。
它是一個開源的分布式圖數(shù)據(jù)庫,擅長處理千億頂點和萬億邊的超大數(shù)據(jù)集。提供高吞吐量、低延遲的讀寫能力,內(nèi)置ACL機制和用戶認(rèn)證,為用戶提供安全的數(shù)據(jù)庫訪問方式。
作為高性能、高可靠的圖數(shù)據(jù)庫,提供線性擴展能力,支持快照實現(xiàn)數(shù)據(jù)恢復(fù)。在查詢語言方面,開發(fā)團隊完全自主研發(fā)了查詢語言-nGQL。
它是一個分布式的、事務(wù)支持的、使用構(gòu)造構(gòu)建的快速圖數(shù)據(jù)庫。目標(biāo)是提供 的生產(chǎn)級規(guī)模和吞吐量,以及足夠低的延遲,以提供超過數(shù) TB 結(jié)構(gòu)化數(shù)據(jù)的實時用戶查詢。組件支持的查詢語法、響應(yīng) JSON 和協(xié)議緩沖區(qū)超過 GRPC 和 HTTP。
數(shù)據(jù)質(zhì)量和元數(shù)據(jù)
企業(yè)內(nèi)部運行的數(shù)據(jù)庫可能有很多種,可以分為大數(shù)據(jù)平臺、sql數(shù)據(jù)庫、數(shù)據(jù)庫、圖數(shù)據(jù)庫等,從具體的數(shù)據(jù)庫類型來看,可能是等等,不管什么類型的數(shù)據(jù)庫,都是一個目的,就是存儲數(shù)據(jù),對于如何管理數(shù)據(jù),每個數(shù)據(jù)庫都有一個方法,舉個例子
那么,描述數(shù)據(jù)的信息就是元數(shù)據(jù)。元數(shù)據(jù)數(shù)據(jù)庫管理有什么用?我們平時的開發(fā)中可能很少考慮這個問題。元數(shù)據(jù)管理對于保證數(shù)據(jù)庫的質(zhì)量非常重要。通過元數(shù)據(jù)管理
每個業(yè)務(wù)系統(tǒng)都可以定義自己的表和視圖,數(shù)據(jù)來自哪里開源php erp管理系統(tǒng),流向哪里,數(shù)據(jù)之間是否存在相關(guān)性,是否與其他系統(tǒng)的數(shù)據(jù)存在重復(fù)字段和矛盾字段。這些都是元數(shù)據(jù)管理要解決的問題。
它是托管在其保護傘下的元數(shù)據(jù)管理和治理產(chǎn)品。提供API和一系列插件,方便導(dǎo)入數(shù)據(jù)庫元數(shù)據(jù)信息進(jìn)行分析。它還提供了一個 Web 界面來管理元數(shù)據(jù)。通過這種方式,企業(yè)可以為數(shù)據(jù)庫元數(shù)據(jù)建立資產(chǎn)目錄,對這些資產(chǎn)進(jìn)行分類和管理,為數(shù)據(jù)分析和數(shù)據(jù)治理提供高質(zhì)量的元數(shù)據(jù)信息。
面對海量且不斷增加的數(shù)據(jù)對象種類,必須考慮數(shù)據(jù)管理的實際情況。元數(shù)據(jù)和數(shù)據(jù)治理已經(jīng)成為企業(yè)級數(shù)據(jù)湖的重要組成部分。為了尋求數(shù)據(jù)治理的開源解決方案,公司于2015年聯(lián)合其他廠商和用戶發(fā)起了數(shù)據(jù)治理倡議,包括數(shù)據(jù)分類、集中策略引擎、數(shù)據(jù)血緣關(guān)系、安全和生命周期管理。該項目是這一舉措的結(jié)果,社區(qū)合作伙伴繼續(xù)為該項目提供新的功能和特性。該項目用于管理共享元數(shù)據(jù)、數(shù)據(jù)分類、審計、安全和數(shù)據(jù)保護。它為數(shù)據(jù)訪問控制策略而努力和集成。
CKAN 是一個開源的數(shù)據(jù)管理系統(tǒng)。它是用于制作開放數(shù)據(jù)網(wǎng)站的工具。它可以幫助管理和發(fā)布數(shù)據(jù)集合。它被收集大量數(shù)據(jù)的國家和地區(qū)、研究機構(gòu)和其他組織使用。
數(shù)據(jù)發(fā)布后,用戶可以使用其分面搜索功能瀏覽和查找自己需要的數(shù)據(jù),并使用地圖、圖表和表格進(jìn)行預(yù)覽。
加拿大使用 CKAN 來管理數(shù)據(jù)。作為用戶,說實話,我覺得他的系統(tǒng)真的不好用。
.io 是一個數(shù)據(jù)發(fā)現(xiàn)和元數(shù)據(jù)引擎,用于提高數(shù)據(jù)分析師、數(shù)據(jù)科學(xué)家和工程師在與數(shù)據(jù)交互時的工作效率。今天,它通過索引數(shù)據(jù)資源(表、儀表板、流等)和支持基于使用模式的頁面排名樣式搜索(例如,高查詢表比低查詢表更早顯示)來實現(xiàn)這一點。將其視為搜索數(shù)據(jù)。該項目以挪威探險家羅爾德·阿蒙森 ( ) 的名字命名,他是第一個發(fā)現(xiàn)南極洲的人。