宜兴麻将群|宜兴麻将抢杠规则

億信華辰

連續3年穩坐商務智能應用榜首
與此同時,億信華辰在數據治理領域榮登五強
首頁行業資訊數據治理

數據質量管理策略-從產生數據的源頭開始抓

時間:2019-12-27來源:CSDN瀏覽數:23

為了改進和提高數據質量,必須從產生數據的源頭開始抓起,從管理入手,對數據運行的全過程進行監控,密切關注數據質量的發展和變化,深入研究數據質量問題所遵循的客觀規律,分析其產生的機理,探索科學有效的控制方法和改進措施;必須強化全面數據質量管理的思想觀念,把這一觀念滲透到數據生命周期的全過程。


傳統數據倉庫中ETL的環節在大數據應用中會根據實際業務需求在不同的環節存在,分別進行粗細粒度不等的數據抽取、轉換和加載,以適應容納處理不同規模、不同結構、不同流量的數據。

結合大數據的參考框架及數據處理實際需求情況,數據質量管理可以從以下幾個方面著手,以多方協作改進,最終實現系統數據處于持續高效可用的狀態。

1、建立數據質量評價體系
評估數據質量,可以從如下4個方面來考慮:①完整性:數據的記錄和信息是否完整,是否存在缺失情況;②一致性:數據的記錄是否符合規范,是否與前后及其它數據集保持統一;③準確性:數據中記錄的信息和數據是否準確,是否存在異常或者錯誤信息;④及時性:數據從產生到可以查看的時間間隔,也叫數據的延時時長。

有了評估方向,還需要使用可以量化、程序化識別的指標來衡量。通過量化指標,管理者才可能了解到當前數據質量,以及采取修正措施之后數據質量的改進程度。而對于海量數據,數據量大、處理環節多,獲取質量指標的工作不可能由人工或簡單的程序來完成,而需要程序化的制度和流程來保證,因此,指標的設計、采集與計算必須是程序可識別處理的。

完整性可以通過記錄數和唯一值來衡量。比如某類的交易數據,每天的交易量應該呈現出平穩的特點,平穩增加、平穩增長或保持一定范圍內的周期波動。如果記錄數量出現激增或激減,則需要追溯是在哪個環節出現了變動,最終定位是數據問題還是服務出現了問題。對于屬性的完整性考量,則可以通過空值占比或無效值占比來進行檢查。

一致性檢驗主要是檢驗數據和數據定義是否一致,因此可以通過合規記錄的比率來衡量。比如取值范圍是枚舉集合的數據,其實際值超出范圍之外的數據占比,比如存在特定編碼規則的屬性值不符合其編碼規則的記錄占比。還有一些存在邏輯關系的屬性之間的校驗,比如屬性A取某定值時,屬性B的值應該在某個特定的數據范圍內,都可以通過合規率來衡量。

準確性可能存在于個別記錄,也可能存在于整個數據集上。準確性和一致性的差別在于一致性關注合規,表示統一,而準確性關注數據錯誤。因此,同樣的數據表現,比如數據實際值不在定義的范圍內,如果定義的范圍準確,值完全沒有意義,那么這屬于數據錯誤。但如果值是合理且有意義的,那么可能是范圍定義不夠全面,則不能認定為數據錯誤,而是應該去補充修改數據定義。

通過建立數據質量評價體系,對整個流通鏈條上的數據質量進行量化指標輸出,后續進行問題數據的預警,使得問題一出現就可以暴露出來,便于進行問題的定位和解決,最終可以實現在哪個環節出現就在哪個環節解決,避免了將問題數據帶到后端及其質量問題擴大。

2、落實數據質量信息的采集、分析與監控
有評價體系作為參照,還需要進行數據的采集、分析和監控,為數據質量提供全面可靠的信息。在數據流轉環節的關鍵點上設置采集點,采集數據質量監控信息,按照評價體系的指標要求,輸出分析報告。

在此流程中,會有一系列的數據采集點。根據系統對數據質量的要求,配置相應的采集規則,通過在采集點處進行質量數據采集并進行統計分析,就可以得到采集點處的數據分析報告。通過對來源數據的質量分析,可以了解數據和評價接入數據的質量;通過對上下采集點的數據分析報告的對比,可以評估數據處理流程的工作質量。配合數據質量的持續改進工作機制,進行質量問題原因的定位、處理和跟蹤。

3、建立數據質量的持續改進工作機制
通過質量評價體系和質量數據采集系統,可以發現問題,之后還需要對發現的問題及時作出反應,追溯問題原因和形成機制,根據問題種類采取相應的改進措施,并持續跟蹤驗證改進之后的數據質量提升效果,形成正反饋,達到數據質量持續改良的效果。在源頭建立數據標準或接入標準,規范數據定義,在數據流轉過程中建立監控數據轉換質量的流程和體系,盡量做到在哪發現問題就在哪解決問題,不把問題數據帶到后端。

導致數據質量產生問題的原因很多。有研究表示,從問題的產生原因和來源,可以分為四大問題域:信息問題域、技術問題域、流程問題域和管理問題域。信息類問題是由于對數據本身的描述、理解及其度量標準偏差而造成的數據質量問題。產生這類數據質量問題的主要原因包括:數據標準不完善、元數據描述及理解錯誤、數據度量得不到保證和變化頻度不恰當等。技術類問題是指由于在數據處理流程中數據流轉的各技術環節異常或缺陷而造成的數據質量問題,它產生的直接原因是技術實現上的某種缺陷。技術類數據質量問題主要產生在數據創建、數據接入、數據抽取、數據轉換、數據裝載、數據使用和數據維護等環節。流程類問題是指由于數據流轉的流程設計不合理、人工操作流程不當造成的數據質量問題。所有涉及到數據流轉流程的各個環節都可能出現問題,比如接入新數據缺乏對數據檢核、元數據變更沒有考慮到歷史數據的處理、數據轉換不充分等各種流程設計錯誤、數據處理邏輯有缺陷等問題。管理類問題是指由于人員素質及管理機制方面的原因造成的數據質量問題。比如數據接入環節由于工期壓力而減少對數據檢核流程的執行和監控、缺乏反饋渠道及處理責任人、相關人員缺乏培訓和過程資產繼承隨之帶來的一系列問題等。

了解問題產生的原因和來源后,就可以對每一類問題建立起識別、反饋、處理、驗證的流程和制度。比如數據標準不完善導致的問題,這就需要有一整套數據標準問題識別、標準修正、現場實施和驗證的流程,確保問題的準確解決,不帶來新的問題。比如缺乏反饋渠道和處理責任人的問題,則屬于管理問題,則需要建立一套數據質量的反饋和響應機制,配合問題識別、問題處理、解決方案的現場實施與驗證、過程和積累等多個環節和流程,保證每一個問題都能得到有效解決并有效積累處理的過程和經驗,形成越來越完善的一個有機運作體。

當然,很多問題是相互影響的,單一地解決某一方面的問題可能暫時解決不了所發現的問題,但是當多方面的持續改進機制協同工作起來之后,互相影響,交錯前進,一點點改進,最終就會達到一個比較好的效果。

4、完善元數據管理
數據質量的采集規則和檢查規則本身也是一種數據,在元數據中定義。元數據按照官方定義,是描述數據的數據。面對龐大的數據種類和結構,如果沒有元數據來描述這些數據,使用者無法準確地獲取所需信息。正是通過元數據,海量的數據才可以被理解、使用,才會產生價值。

元數據可以按照其用途分為3類:技術元數據、業務元數據和管理元數據。技術元數據:存儲關于信息倉庫系統技術細節的數據,適用于開發和管理數據而使用的數據。主要包括數據倉庫結構的描述,包括對數據結構、數據處理過程的特征描述,存儲方式和位置覆蓋整個涉及數據的生產和消費環節。業務元數據:從業務角度描述了數據倉庫中的數據,提供了業務使用者和實際系統之間的語義層。主要包括業務術語、指標定義、業務規則等信息。

管理元數據:描述系統中管理領域相關概念、關系和規則的數據,主要包括人員角色、崗位職責、管理流程等信息。由此可見,本文提出的解決思路都需要元數據管理系統的支持。良好的元數據管理系統能為數據質量的采集、分析、監控、改進提供高效、有力的強大保障。同時,良好的數據質量管理系統也能促進元數據管理系統的持續改進,互相促進完善,共同為一個高質量和高效運轉的數據平臺提供支持。
快樂分享
? 2020 ESENSOFT 北京億信華辰軟件有限責任公司| 版權所有:京ICP備07017321號 京公網安備11010802016281號|免責聲明

聯系
電話

您好,商務咨詢請聯系

咨詢熱線:400-0011-866轉0

手機咨詢:137-0121-6790

技術
支持

您好,技術支持請聯系

QQ:400-0011-866

(工作日9:00-18:00)

宜兴麻将群 雪缘园即时培率 体彩p3开奖查询 在家做什么拿出去卖可以赚钱 通化大嘴手机版 快乐12彩票开奖查询 山西泳坛夺金开奖结果查询 北单 挂机广告浏览流量赚钱 冠城娱乐棋牌 北京时时彩开奖结果查询