鎮江航天信息有限公司官網

數據質量提升之道

發布時間:2017-11-08 20:21:02

随着高校信息化工(gōng)作的不斷深化,特别是基于數據的決策支持的重視,對數據質量的要求也漸得到各方重視。一(yī)方面,數據規模日益龐大(dà),對師生(shēng)的數據服務的要求也在不斷拓展、提高,包括數據基礎整理、查詢統計、向普通用戶提供信息咨詢、對管理層提供決策依據;另一(yī)方面,各級教育部門、全社會各行各業、高校本身管理和服務部門對高校教育統計信息都越來越重視,統計數據在政策決策、科研管理、教育質量評估等方面被廣泛應用。

003.jpg

 

數據質量的概念

圖1将數據質量的常用評估标準按照4個不同的方面進行了描述。可獲得度指用戶獲得數據的可能性和便利程度,在收集數據之前,用戶必須要考慮能否得到、怎樣得到數據。可理解度是指數據必須是用戶可以理解的,包括語法、語義等,使用戶可以理解數據,從而才可挖掘數據,這是基礎的要求。可信度是對數據的真實性的測度,可信度相對較抽象、主觀,可具體(tǐ)再劃分(fēn)爲準确性、一(yī)緻性、完整性、唯一(yī)性、可靠性等具體(tǐ)的維度進行評估。可用度是指數據對于用戶的效用的大(dà)小(xiǎo),數據是準确的但是不一(yī)定有意義,或者對某一(yī)群體(tǐ)用戶有用,對其他用戶是沒有需求和效用的,包括相關性、時效性、可比性、有效性等。同時,它們也是相輔相成的,如果數據準确性差,那麽它的可靠性、有效性也就大(dà)打折扣,如果數據能夠做到準确、一(yī)緻、有時效,那它必然也是比較有可靠性的。

001.jpg

 

高校數據質量的現況

主觀上的重視程度

越來越多的高校信息化從業者已經開(kāi)始重視起高校數據及數據質量相關問題了。在學術上,簡單地從2002至2014年度的某數據平台關于數據質量的研究趨勢上,即可直觀感受到近年對數據質量的相關研究的熱度在持續穩定的上漲。從2002~2005年間每年30篇以下(xià)的論文數量,至2012~2014年間超過150篇,年度命中(zhōng)數從20上浮至50。其中(zhōng)高校+數據質量的相關研究數量和趨勢類似,同時,高校的數據質量問題與高校信息化建設的發展進程密切相關。

目前,高校的信息化建設進程從“局部信息化”向“全面信息化”轉變,建設内容從信息化基礎建設轉變爲信息化服務建設,建設的焦點從“提供最基本的信息化服務和滿足基本管理要求”逐漸轉移到了“如何更好地向師生(shēng)提供數據服務、決策支持”。信息集成和應用集成是大(dà)勢所趨,而在信息集成的過程中(zhōng),數據質量可能會出現怎樣的問題?如何解決各類數據質量問題,有效地收集、清洗、存儲、推送、挖掘、呈現數據,每一(yī)步都值得大(dà)書(shū)特書(shū),最終使數據最終能夠滿足用戶需求。

 

客觀上數據質量的實際情況

在對高校各類業務數據的實際應用過程中(zhōng),還是能夠發現數據質量的不足。當前高校數據質量主要存在以下(xià)幾個問題:

一(yī)是數據源頭不明确,造成數據唯一(yī)性、準确性問題。一(yī)方面可能是管理職能有所重疊,一(yī)方面也可能是常用的信息在多個業務環節都進行了重複采集,例如師生(shēng)的聯系方式信息。同一(yī)個字段,可能不同的系統中(zhōng)都存在,但是存在出入,那麽以哪個爲準呢?

二是數據采集後,格式不統一(yī),不完整,造成數據完整性、語法問題。這是由于不同部門,甚至不同操作員(yuán)之間對同一(yī)數據的使用習慣和方式不一(yī)緻造成的,可能仍有部分(fēn)數據并不完整。

三是數據不及時,造成時效性、準确性等問題。由于采集周期或同步推送周期的影響,各應用端使用的數據可能并不是最新的。

四是數據共享問題,有些數據仍不能方便地獲得,或不能保障周期性地獲得準确實時的數據。

五是對曆史數據和冗餘數據尚無統一(yī)完善的處理辦法。

 

數據質量對數據服務的影響

如在實際工(gōng)作中(zhōng),發生(shēng)了上述數據質量問題,将會直接影響到各系統間的協同效率及使用效果,降低師生(shēng)的使用滿意度。

首先要保障數據的唯一(yī)、完整、準确、可靠、可理解,保障數據是可以使用的。如數據首要的這幾個屬性得不到保障,後續的相關統計報表,策略建議的可靠性也就大(dà)幅降低了。

同時要保障數據的時效性,舊(jiù)的數據即使準确可靠,但是不能滿足用戶的需求,它就是低質量的數據。例如用戶在校園卡終端想要查詢到自己當天的消費(fèi)餘額、消費(fèi)記錄用以核對自己的支出情況,如果反饋的數據明顯是若幹天前的,顯然不會讓用戶滿意。

如數據質量較差,将會給管理人員(yuán)和用戶帶來許多使用上的不便,由這些數據延伸出來的報表和策略建議往往也是充滿了矛盾、漏洞和明顯的不合理處,需要人工(gōng)再次進行糾錯、核對,增加工(gōng)作量。舉個例子,某次關于學校學生(shēng)住宿信息進行統計時,發現在校住宿學生(shēng)比學校學生(shēng)總人數還多10%,這是不合常理的。經過實地調查,發現部分(fēn)是因爲有一(yī)些老生(shēng)雖然已經退宿并離(lí)校,但其在住宿系統中(zhōng)信息還未被确認,部分(fēn)是因爲有些學生(shēng)需要進行實習,申請了另一(yī)個校區的宿舍,因此其同時有了兩條住宿信息,也有部分(fēn)是因爲學校安排輔導員(yuán)住樓,更好地開(kāi)展學生(shēng)工(gōng)作,但是在住宿系統中(zhōng)錯誤地登記爲學生(shēng)住宿。其中(zhōng),有管理上的問題,有信息系統字段管理的問題,也有統計方法的問題,但終究也是數據質量的問題,該數據的時效性、準确性、完整性很需要進行提升。

 

以華東師大(dà)爲例采取的措施

數據收集:堅持“一(yī)把手”錄入

數據源頭的梳理是華東師大(dà)信息辦日常工(gōng)作之一(yī),在各信息系統建設的前期調研工(gōng)作中(zhōng),就通過業務梳理等工(gōng)作明确數據源,在源頭上嚴把數據質量關。明确數據的每一(yī)個字段的唯一(yī)來源之後,監督和指導該業務負責部門完成其應擔負起的維護任務,及将數據推送給其他業務部門的共享任務。

當該工(gōng)作的成果推廣到全校各個業務系統後,任一(yī)信息系統需要使用某數據時,都有一(yī)個渠道得到權威、準确的數據。同時,可有效減少非數據源部門采集數據的工(gōng)作量,避免多頭采集的問題。

例如學生(shēng)的手機号信息如以在教務處登記的爲準,在學生(shēng)在報修登記時系統可直接讀取到該字段,并通知(zhī)學生(shēng)報修進度,學生(shēng)發現讀取到的聯系方式已經過時了,可以去(qù)往教務系統對應入口進行修改等。

 

數據存儲:集中(zhōng)建立數據中(zhōng)心

首先,在各數據源所在信息系統中(zhōng),進行初步數據梳理和清洗,建立有完整數據理解度較高的多個視圖、字典表等。然後,部署Oracle數據庫,将從數據源獲得的源數據通過ODI等ETL工(gōng)具,将數據進行收集、存儲在數據中(zhōng)心。

例如在教務相關系統中(zhōng),學生(shēng)相關的數據表可能就有學生(shēng)基本信息表、學生(shēng)選課信息表、學生(shēng)類型字典表、學生(shēng)成績表、課程評價表、課程基本信息表等。在對它們進行數據梳理和清洗時,要将原基礎表中(zhōng)較爲難理解的字段,替換爲字典表中(zhōng)的詳細表述,将“1”、“2”替換爲男女,将“0129”替換爲“圖書(shū)館”;也要根據需求将零散在各個表中(zhōng)的數據整理到一(yī)張表中(zhōng),比如全校學生(shēng)個人信息所有字段表,因爲原先學生(shēng)的姓名、性别、學号、身份證等在基礎信息表中(zhōng),而他的籍貫、生(shēng)源地在學生(shēng)入學信息表中(zhōng)。

數據使用:統一(yī)發出接口

根據業務信息系統的對數據的需求情況,統合、整理數據,再利用WebService、ODI等多種工(gōng)具推送到各個業務系統中(zhōng)去(qù)。

例如目前在建的新學生(shēng)住宿系統,僅需向信息化辦公室提出其建設中(zhōng)的具體(tǐ)數據需求,即可從數據中(zhōng)心通過各接口獲得學生(shēng)基礎數據、學生(shēng)-輔導員(yuán)關系數據、輔導員(yuán)基礎數據、學生(shēng)住宿費(fèi)繳費(fèi)數據、新生(shēng)興趣愛好數據等,而不需要關心數據怎麽從教務系統、研究生(shēng)系統、學工(gōng)系統、人事系統、迎新系統、财務系統等其他業務系統中(zhōng)獲取。而在後勤宿舍管理員(yuán)在實際使用中(zhōng),發現數據不準确的情況時,可以将問題反饋給信息化辦公室,數據中(zhōng)心管理人員(yuán)可據此倒推回到數據源,通知(zhī)數據源業務系統負責老師,進行進一(yī)步數據核驗、修正等。

 

建設數據流轉框架

結合現有數據中(zhōng)心建設情況,進行數據流轉優化工(gōng)作。拟建設數據流轉框架如圖2所示。

 

002.jpg 

實線部分(fēn)現已基本實現,即數據源中(zhōng)的數據經過梳理、形成視圖,通過ETL工(gōng)具抓取到WebService數據中(zhōng)心後,再行整理爲不同數據接口x、y等,有該數據讀取權限的業務系統可通過認證調用接口并獲得結果。

虛線部分(fēn)正在調研、建設中(zhōng),在擁有a、b數據修改權限的業務系統中(zhōng)(操作者可能爲該數據的“一(yī)把手”、也可能是終端用戶),可以調用反饋接口,将修正的a、b數據通過接口認證,反饋回WebService數據中(zhōng)心。數據中(zhōng)心進行數據的分(fēn)析、整理、确認後,将數據修改信息反饋回IDC數據庫,進行數據更新操作。每一(yī)個環節,都需要進行數據質量的校驗,至此,即實現數據的循環,數據質量在梳理、整合、發布、反饋、更新。

總而言之,數據質量的優劣關系着高校信息部門能否給普通師生(shēng)、管理人員(yuán)、校領導等提供有效準确、高效、有效的數據服務,決定着信息化工(gōng)作能否從數字校園的建設成功過渡到智慧校園的建設。

 

因此,在此提出幾條簡單的建設意見:

1.建設積極的數據質量管理環境

首先管理層要認識到數據質量對于高校各項業務及信息化各項工(gōng)作的重要性,推動數據質量的改進工(gōng)作。加強信息人員(yuán)隊伍的建設,提高數據管理人員(yuán)的數據質量管理意識。梳理建立完善的制度管理,确定數據質量管理的流程,建設本校數據标準、數據質量的标準。

2.集中(zhōng)力量進行一(yī)次數據整理和清洗在理論上建立了數據标準和數據質量管理制度之後,需要花較大(dà)的時間和精力對全校的各業務系統進行一(yī)次清洗,并以此次清洗後的數據爲基礎,開(kāi)展數據質量管理工(gōng)作。

3.數據質量定時核查

除了建設數據質量管理制度,還應當建設數據質量的監測制度。數據一(yī)旦産生(shēng)問題,管理上有人員(yuán)核驗、整理、彙報,技術上可追溯、清查、修正。将數據質量的核查作爲日常工(gōng)作,才能全面地、持續地維持數據質量。

鎮江航天信息有限公司官網
鎮江航天信息有限公司官網
網站地圖  丨  法律聲明  丨  隐私保護  丨  聯系我(wǒ)(wǒ)們
COPYRIGHT © 2017 版權所有 鎮江航天信息有限公司官網