數(shù)據(jù)完整作用及優(yōu)化策略:確保數(shù)據(jù)準(zhǔn)確性與一致性
作者: 數(shù)環(huán)通發(fā)布時(shí)間: 2024-12-13 09:48:09
你是否曾不得不與客服代表溝通,去更正個(gè)人信息詳情——比如名字拼寫錯(cuò)誤(例如:“張三”寫成了“張三豐”)、門牌號(hào)順序顛倒(例如:“1/34單元”寫成了“34/1單元”),或者其他缺失或不正確的細(xì)節(jié)?這些都是數(shù)據(jù)完整性出現(xiàn)問題的情況。
與數(shù)據(jù)完整性缺失相關(guān)的其他現(xiàn)實(shí)后果包括:
由于賬號(hào)號(hào)碼出錯(cuò),難以從一筆金融交易中追回款項(xiàng)。
因嵌入了笑臉表情符號(hào),導(dǎo)致移動(dòng)支付失敗。
由于地址有誤,例如在不同省份使用了同一地址名稱但錯(cuò)誤的郵政編碼,而一直收不到包裹。
實(shí)際上,旨在保護(hù)正確數(shù)據(jù)的企業(yè)政策使得修正數(shù)據(jù)錯(cuò)誤變得棘手。而保護(hù)個(gè)人可識(shí)別信息的政府法規(guī)也讓客戶在登記后更改個(gè)人可識(shí)別信息數(shù)據(jù)變得困難且費(fèi)力。為避免像上述例子那樣影響客戶體驗(yàn),我們需要強(qiáng)有力的數(shù)據(jù)完整性保障。
數(shù)據(jù)完整性是一項(xiàng)必要的業(yè)務(wù)執(zhí)行流程,對(duì)于應(yīng)對(duì)數(shù)據(jù)在從現(xiàn)實(shí)情況及事件中錄入、復(fù)制以及以其他方式轉(zhuǎn)錄時(shí)出現(xiàn)的錯(cuò)誤至關(guān)重要。
隨著各類組織日益使用的數(shù)據(jù)驅(qū)動(dòng)型數(shù)字流程,特別是通過機(jī)器學(xué)習(xí)的運(yùn)用,有效做出數(shù)據(jù)驅(qū)動(dòng)型業(yè)務(wù)決策的能力愈發(fā)受到組織運(yùn)營(yíng)數(shù)據(jù)和分析數(shù)據(jù)完整性的影響。
本文將探討數(shù)據(jù)完整性在您所在組織中所起的作用。
什么是數(shù)據(jù)完整性?
完整性意味著數(shù)據(jù)是可信且可靠的。在會(huì)計(jì)領(lǐng)域,財(cái)務(wù)結(jié)果的報(bào)告標(biāo)準(zhǔn)意味著財(cái)務(wù)報(bào)表中所報(bào)告的數(shù)字必須準(zhǔn)確、完整且一致。
同樣的標(biāo)準(zhǔn)也適用于數(shù)據(jù)完整性。可以通過以下因素來檢驗(yàn)數(shù)據(jù)的完整性:
數(shù)據(jù)是完整的,不存在缺失的數(shù)據(jù)元素。
數(shù)據(jù)是準(zhǔn)確的,來源上不存在數(shù)據(jù)錯(cuò)誤。
數(shù)據(jù)在不同情境下是一致的。
數(shù)據(jù)是及時(shí)且最新的。
當(dāng)這四個(gè)條件未滿足時(shí),數(shù)據(jù)可能就無法通過完整性檢測(cè)。其中許多問題并不明顯,有時(shí)只有通過業(yè)務(wù)流程出現(xiàn)故障或全面的數(shù)據(jù)剖析工作才能發(fā)現(xiàn)這些問題。
數(shù)據(jù)不完整性
由于信息系統(tǒng)的歷史局限性,可能因?yàn)樽侄尾蛔愣鵁o法采集到所有數(shù)據(jù)。如今,由于數(shù)據(jù)模式具有可擴(kuò)展性,這種情況不太常見了,但它可能導(dǎo)致數(shù)據(jù)被采集到錯(cuò)誤的字段中(分類錯(cuò)誤),或者在需要多個(gè)字段時(shí)被壓縮到一個(gè)字段里。這會(huì)引入干擾因素并降低可用性。
雖然許多系統(tǒng)設(shè)有必填字段,但過多的必填字段會(huì)拖慢客戶登記流程。這種業(yè)務(wù)選擇也可能導(dǎo)致數(shù)據(jù)不完整。
數(shù)據(jù)不準(zhǔn)確
許多類型的數(shù)據(jù),如身份證號(hào)碼和駕照號(hào)碼,都由一長(zhǎng)串?dāng)?shù)字組成,容易出現(xiàn)人為錯(cuò)誤。此外,拼寫錯(cuò)誤或使用了需要在后續(xù)數(shù)據(jù)整理工作中清理的奇怪字符,也會(huì)影響數(shù)據(jù)的可用性。
其他錯(cuò)誤,比如虛報(bào)出生年份(故意把自己說得更年輕或更年長(zhǎng))則更難察覺。帶有業(yè)務(wù)邏輯錯(cuò)誤的派生或推斷字段也會(huì)影響準(zhǔn)確性。僅支持男/女性別的老舊系統(tǒng)同樣存在問題。
數(shù)據(jù)不準(zhǔn)確(以及不完整)偶爾可以通過對(duì)照權(quán)威數(shù)據(jù)源進(jìn)行追溯性的數(shù)據(jù)匹配來修復(fù)。但對(duì)于大型數(shù)據(jù)集而言,這種方法可能無效,或者會(huì)受到法規(guī)限制而無法采用。
數(shù)據(jù)不一致
另一種數(shù)據(jù)完整性問題是自然事實(shí)與將這些真實(shí)事實(shí)轉(zhuǎn)錄到企業(yè)內(nèi)部及跨企業(yè)的數(shù)據(jù)存儲(chǔ)庫和登記系統(tǒng)中的業(yè)務(wù)流程之間存在不一致。或者說,記錄系統(tǒng)與存有該數(shù)據(jù)副本的輔助系統(tǒng)之間存在不一致——輔助系統(tǒng)本身成為了一個(gè)事實(shí)來源,從而導(dǎo)致出現(xiàn)兩個(gè)不一致的權(quán)威來源。
某家大型銀行就曾出現(xiàn)過這種情況,該行新建了一個(gè)“貴賓”客戶關(guān)系管理(CRM)系統(tǒng),與原有的零售客戶CRM系統(tǒng)并行使用,新的貴賓CRM系統(tǒng)中采集到的更豐富數(shù)據(jù)從未反饋回零售CRM系統(tǒng),盡管它們共享相同的客戶記錄。
數(shù)據(jù)不及時(shí)性
即便數(shù)據(jù)是完整、準(zhǔn)確且一致的,仍可能存在完整性方面的問題。
這可能是因?yàn)閿?shù)據(jù)過時(shí)了(由于批處理/抽取、轉(zhuǎn)換、加載(ETL)流程);有效載荷的時(shí)間戳計(jì)算有誤(系統(tǒng)時(shí)間并非事件時(shí)間);或者計(jì)算生效日期的標(biāo)準(zhǔn)與實(shí)際日期不同。又或者僅僅是因?yàn)閿?shù)據(jù)陳舊,需要更新了。
當(dāng)使用發(fā)票開具日期而非采購訂單日期(采購訂單日期才是合同約定日期)時(shí),就會(huì)出現(xiàn)這種情況。這也是客戶聯(lián)絡(luò)流程為何要不斷重新確認(rèn)客戶關(guān)鍵主數(shù)據(jù)的原因。
數(shù)據(jù)不真實(shí)性
雖然與會(huì)計(jì)數(shù)據(jù)未必相關(guān),但對(duì)于個(gè)人可識(shí)別信息數(shù)據(jù)而言,我們尤其必須警惕客戶身份是否真實(shí),特別是在登記環(huán)節(jié)。隨著網(wǎng)絡(luò)釣魚和詐騙行為日益增多,企業(yè)必須盡力確保客戶身份數(shù)據(jù)首次錄入時(shí)就是準(zhǔn)確且完整的。
生產(chǎn)系統(tǒng)中存在的一種不真實(shí)數(shù)據(jù)是測(cè)試數(shù)據(jù)。盡管最佳實(shí)踐建議生產(chǎn)系統(tǒng)中不應(yīng)存在測(cè)試數(shù)據(jù),但實(shí)際情況很少如此,因?yàn)椴僮魅藛T為應(yīng)對(duì)日常業(yè)務(wù)變更被迫要在生產(chǎn)環(huán)境中進(jìn)行測(cè)試。
數(shù)據(jù)溯源對(duì)數(shù)據(jù)完整性的重要性
對(duì)數(shù)據(jù)溯源起到強(qiáng)化或削弱作用的業(yè)務(wù)流程,與那些為組織增加營(yíng)收或降低成本的業(yè)務(wù)流程一樣,都需要用心維護(hù)。
數(shù)據(jù)溯源對(duì)于確保數(shù)據(jù)的來源(事實(shí)情況)以及數(shù)據(jù)在復(fù)制及其他變更過程中所經(jīng)歷的情況(數(shù)據(jù)沿襲)未被篡改或破壞確實(shí)非常重要。而且不僅是數(shù)據(jù)本身,數(shù)據(jù)的定義(元數(shù)據(jù))也必須盡可能保持一致。
許多組織都有健全的事實(shí)錄入機(jī)制。在銀行業(yè),這被稱為“了解你的客戶”(KYC)。在醫(yī)療行業(yè),有FHIR和HL7等高度標(biāo)準(zhǔn)化的患者乃至藥品數(shù)據(jù)。在其他監(jiān)管較寬松的行業(yè),這一流程體現(xiàn)在客戶360度視圖中。
監(jiān)管較寬松的行業(yè)可能會(huì)選擇優(yōu)先考慮錄入速度,而非采集詳盡的客戶細(xì)節(jié)(這會(huì)影響完整性)。缺失或不一致的數(shù)據(jù)對(duì)下游流程的影響在于,充分挖掘客戶關(guān)系價(jià)值的能力會(huì)受到限制,例如開展高度個(gè)性化的營(yíng)銷活動(dòng)時(shí),由于數(shù)據(jù)缺失,轉(zhuǎn)化率會(huì)一直很低,因?yàn)闋I(yíng)銷活動(dòng)缺乏足夠的吸引力。
對(duì)于任何要在業(yè)務(wù)流程間的價(jià)值交換中發(fā)揮最大效力的業(yè)務(wù)數(shù)據(jù)來說,關(guān)鍵數(shù)據(jù)需要與真實(shí)(或自然)的事實(shí)及事件保持完整、準(zhǔn)確且一致,并且在組織業(yè)務(wù)范圍內(nèi)的相關(guān)數(shù)據(jù)存儲(chǔ)中也需如此。出于監(jiān)管和合規(guī)目的,面向外部世界的這些事實(shí)和事件的數(shù)據(jù)完整性同樣至關(guān)重要。
了解更多關(guān)于數(shù)環(huán)通的應(yīng)用程序接口集成平臺(tái)即服務(wù)(iPaaS)如何在進(jìn)行數(shù)據(jù)集成的同時(shí)提升并強(qiáng)化您的數(shù)據(jù)完整性工作的內(nèi)容。