新聞資訊
海量資訊實時呈現(xiàn)
有了Ta,數(shù)據(jù)清洗 so easy!
2020-01-08
主數(shù)據(jù)來源于多個業(yè)務(wù)系統(tǒng)且包含大量歷史數(shù)據(jù),不可避免地存在錯誤、沖突的數(shù)據(jù),這些錯誤的或有沖突的數(shù)據(jù)就是 "臟數(shù)據(jù)"。 數(shù)據(jù)清洗顧名思義就是對“臟數(shù)據(jù)”進行清洗,是對主數(shù)據(jù)進行重新審查和校驗的過程,包括檢查主數(shù)據(jù)一致性、處理無效值和缺失值等,是發(fā)現(xiàn)并糾正主數(shù)據(jù)文件中可識別錯誤的最后一道程序。 數(shù)據(jù)清洗按照一定的規(guī)則把零散、重復(fù)、不完整的主數(shù)據(jù)清洗干凈,得到精確、完整、一致、有效、唯一的主數(shù)據(jù),從而提高主數(shù)據(jù)質(zhì)量。 數(shù)據(jù)清洗是一個費時費力但又必不可少的工作。在數(shù)據(jù)清洗過程中,三維天地將根據(jù)客戶的需求制定清洗方案。 主數(shù)據(jù)清洗方案一般有兩種: 線下清洗 先對主數(shù)據(jù)進行清洗,導(dǎo)入系統(tǒng)后,系統(tǒng)再上線使用。在數(shù)據(jù)量不多的情況下,可以直接對數(shù)據(jù)進行清洗,對常見的幾種數(shù)據(jù)問題進行逐一排查清洗,具體步驟如下: 第一步:對重復(fù)的主數(shù)據(jù)進行去重; 第二步:對空值進行補充; 第三步:按照主數(shù)據(jù)標(biāo)準,對引用值不規(guī)范的數(shù)據(jù)進行統(tǒng)一調(diào)整; 第四步:調(diào)整主數(shù)據(jù)值的格式與標(biāo)準一致; 第五步:刪除冗余數(shù)據(jù); 第六步:檢查主數(shù)據(jù)中與標(biāo)準不一致的數(shù)據(jù)項進行逐一調(diào)整。 一般情況,線下數(shù)據(jù)清洗是一個非常龐大的工作,數(shù)據(jù)質(zhì)量越差,清洗的工作量就會越大。 為了提高工作效率,三維天地提供清洗工具來輔助清洗工作。既第二種數(shù)據(jù)清洗方式——線上數(shù)據(jù)清洗。 線上清洗 線上數(shù)據(jù)清洗先將初始化數(shù)據(jù)遷移到系統(tǒng)中,系統(tǒng)上線以后,建立數(shù)據(jù)清洗模型再對數(shù)據(jù)進行清洗。具體步驟如下: 第一步:清洗模型申請。新增一個清洗模型,選擇模型編碼,填寫關(guān)聯(lián)相似度及警告相似度。 第二步:配置清洗模型的顯示列。選擇需要參與清洗對比的列選項(參與相似對比的列必須啟用,且只能是在全文檢索索引設(shè)置中啟用),保存成功并提交清洗模型。 第三步:審核清洗模型。審核成功的清洗模型可進行清洗操作。 清洗模型建好后,將要清洗的數(shù)據(jù)關(guān)聯(lián)到清洗模型中,根據(jù)清洗模型和數(shù)據(jù)標(biāo)準對數(shù)據(jù)進行清洗。大量主數(shù)據(jù)清洗時,可以劃分階段進行,保證數(shù)據(jù)清洗范圍可控,不影響系統(tǒng)及相關(guān)業(yè)務(wù)系統(tǒng)的使用。劃分原則可參考數(shù)據(jù)的申請時間、業(yè)務(wù)發(fā)生時間段、是否有庫存等。 數(shù)據(jù)清洗過程中往往會出現(xiàn)很多判斷問題,如:數(shù)據(jù)是否合乎標(biāo)準,是否存在錯誤等,這些都可以通過相應(yīng)算法實現(xiàn)判斷。通過主數(shù)據(jù)清洗,可以保證主數(shù)據(jù)的唯一性、精確性、完整性、一致性、有效性,為各個應(yīng)用系統(tǒng)以及后續(xù)的分析決策提供高質(zhì)量的數(shù)據(jù)保障。 三維天地作為業(yè)界領(lǐng)先的信息標(biāo)準化管理解決方案供應(yīng)商,致力于為客戶提供全方位高質(zhì)量的信息標(biāo)準化管理服務(wù)。從客戶的實際需求出發(fā),以先進的技術(shù)和定制化的服務(wù)贏得客戶的信任和支持。使信息標(biāo)準化管理得到更全面的推廣,讓更多的企業(yè)體會信息標(biāo)準化管理的魅力,共創(chuàng)信息化管理新時代。
Copyright ? 2022 北京三維天地科技股份有限公司,All rights reserved. 京ICP備10208408號-2 京公網(wǎng)安備 11010602103901號