教你從四方面評價數據質量

網站拜訪起源若何統計剖析
2016-05-13
網站分歧階段應若何優化
2016-05-13
Show all

教你從四方面評價數據質量

完全性

  完全性指的是數據信息是不是存在缺掉的狀態,數據缺掉的情形大概是全部數據記載缺掉,也大概是數據中某個字段信息的記載缺掉。沒有完全的數據所能鑒戒的代價就會大大下降,也是數據質量最為基本的一項評價尺度。

  數據質量的完全性比擬輕易去評價,一樣平常我們能夠經由過程數據統計中的記載值和獨一值舉行評價。比方,網站日記日拜訪量就是一個記載值,日常平凡的日拜訪量在1000閣下,忽然某一天降到100瞭,須要檢討一下數據是不是存在缺掉瞭。再比方,網站統計地區散佈情形的每個地域名就是一個獨一值,我國包含瞭32個省和直轄市,假如統計獲得的獨一值小於32,則能夠斷定數占有大概存在缺掉。

  同等性

  同等性是指數據是不是遵守瞭同一的范例,數據聚集是不是堅持瞭同一的格局。

  數據質量的同等性重要表現在數據記載的范例和數據是不是相符邏輯。范例指的是,一項數據存在它特定的格局,比方手機號碼必定是13位的數字,IP地點必定是由4個0到255間的數字加上.構成的。邏輯指的是,多項數據間存在著牢固的邏輯幹系,比方PV必定是大於即是UV的,跳出率必定是在0到1之間的。

  一樣平常的數據都有著尺度的編碼規矩,對付數據記載的同等性磨練是較為簡略的,隻要相符尺度編碼規矩便可,比方地域類的尺度編碼格局為北京而沒有是北京市,我們隻需將響應的獨一值映照到尺度的獨一值上便可以瞭。

  精確性

  精確性是指數據記載的信息是不是存在非常或毛病。和同等性紛歧樣,存在精確性題目的數據不但僅隻是規矩上的紛歧致。最為常見的數據精確性毛病就如亂碼。其次,非常的大大概小的數據也是沒有相符前提的數據。

  數據質量的精確性大概存在於個體記載,也大概存在於全部數據集,比方數目級記載毛病。這類毛病則可使用最大值和最小值的統計量去考核。

  一樣平常數據都相符正態散佈的紀律,假如一些占比少的數據存在題目,則能夠經由過程比擬其他數目少的數據比例,來做出斷定。

  固然假如統計的數據非常其實不明顯,但依舊存在著毛病,這類值的檢討是最為艱苦的,須要經由過程龐雜的統計剖析比較找到千絲萬縷,這裡能夠借助一些數據剖析對象,那末詳細的數據修改辦法就沒有在這裡先容瞭。

  實時性

  實時性是指數據從發生到能夠檢察的時光距離,也叫數據的延不時長。實時性對付數據剖析自己請求其實不高,但假如數據剖析周期加上數據樹立的時光太長,便可能致使剖析得出的結論掉去瞭鑒戒意義。

  以上所寫的四點可以或許贊助你在舉行網站優化的時刻加倍精確的評價數據的質量。

Comments are closed.