清研智談 | 經濟普查數據挖掘可視化分析探究與實現

經濟普查與人口普查、農業普查組成三大周期性全國普查項目。經濟普查每五年進行一次,分別在逢3、逢8的年份實施,我國已在2004年、2008年、2013年、2018年開展了四次全國經濟普查。今年開展的是第五次全國經濟普查。
經濟普查是國家為掌握國民經濟第二產業和第三產業的發展規模及布局,了解我國產業組織、產業結構、產業技術的現狀以及各生產要素的構成,摸清我國各類企業和單位能源消耗的基本情況,建立健全覆蓋國民經濟各行業的基本單位名錄庫、基礎信息數據庫和統計電子地理信息系統,為研究和制定國民經濟和社會發展規劃,提高決策和管理水平而進行的一項大型國情國力調查。
我國經濟普查數據研究的現狀
我國對經濟普查數據質量的控制和評估貫穿于普查工作的全過程,從事前清查、事中登記錄入匯總到事后抽查,都制訂了相應的數據質量控制和評估辦法。但現階段,我國統計機構對經濟普查數據的研究與國外存在較大的差距。歐美等大部分發達國家對經濟普查數據的研究已經進入到 Web應用、數據倉庫應用以及智能數據分析技術應用階段,我國統計機構還未能將智能數據分析技術真正應用到經濟普查數據中,仍較多的使用網絡技術和數據庫技術來獲得一些結果。在我國經濟不斷發展、普查過程中調整數量不斷增加的形勢下工作量變得不堪重負,且過多的人工操作環節存在較多的失誤機率,并會引起工作的滯后性。因此,普查工作需要依靠更高的科技進行網絡數據傳輸、科學利用智能數據分析方法或數據挖掘方法研究普查數據結果的輔助。

我國經濟普查數據挖掘需求分析
經濟普查是全國重大的大型國情、國力調查,涉及全部的法人單位、產業活動單位和個體經營戶。根據調查對象的不同,其調查內容也不盡相同。而經濟普查數據挖掘可視化分析歸根結底還是數據處理,這就離不開數據存儲的管理。
數據存儲的管理即針對經濟普查數據處理業務的需求,以數據錄入存儲和數據分析處理為兩個主要功能環節,通過數據庫存儲技術滿足其錄入需求,數據庫腳本語言技術滿足其數據表處理需求,基于此思想完成數據儲存的需求分析,并通過需求分析的逐步深入,確定用戶管理、數據錄入、數據查詢和匯總、系統導航幫助以及系統安全管理等功能點。
智能數據分析則是在數據采集、統計和匯總的基礎上,利用智能化的分析的模型挖掘和發現普查數據關系、經濟發展問題、經濟水平地域劃分、經濟指標等級狀況以及基于經濟指標的全國經濟發展布局對策建議。智能數據分析需要滿足對現有數據庫技術無法統計出的數據報表進行有效統計和聚類、需要協助數據庫技術以期更全面地發現問題從而更全面地掌握全局、需要為經濟發展的下一步規劃做好基礎分析工作和預測建議。

經濟普查數據挖掘需求分析匯總
經濟普查智能數據分析方法與實現
普查數據質量是普查工作的生命線,針對我國“五經普”調查對象數量大幅增加、查準查實普查單位難度空前加大、首次統籌開展投入產出調查等新特點,經濟普查智能數據分析方法至關重要。首先,我們對原始數據進行預處理,包括數據清洗、缺失值處理等。然后,我們利用聚類分析對產業進行分類,并利用關聯規則挖掘發現了不同產業之間的關聯關系。最后,我們利用柱狀圖、折線圖等可視化方法展示不同產業的產值、就業人數等信息,以及經濟增長、就業等隨時間變化的趨勢。
常規的智能數據分析種類繁多,比如粗糙模糊集、概率粗糙集、遺傳算法、基于決策樹的分類、貝葉斯分類、層次聚類、貝葉斯網、馬爾科夫網、影響圖決策以及增強學習型算法和數據融合分析等。結合經濟普查特點,可重點運用分類和聚類的各種方法實現對經濟普查的智能化分析,主要包括模糊聚類算法、MMD算法(又稱最大最小距離算法)、K-均值聚類法、FCM算法(又稱模糊的c-均值聚類法),這四類的基本原理、算法過程以及其于經濟普查數據分析的實踐運用于經濟普查數據分析效果良好,能很好地解決經濟普查數據分析中的問題。
模糊聚類算法
模糊聚類算法是一種廣泛應用的模糊數學方法,它根據研究對象本身的屬性來構造模糊矩陣,并模糊聚類算法是一種廣泛應用的模糊數學方法,它根據研究對象本身的屬性來構造模糊矩陣,并在此基礎上根據一定的隸屬度來確定聚類關系。聚類是無監督學習的一種重要方法,旨在將相似的樣本聚集在同一個類中,使得它們之間的距離或相似度較高,而非相似的樣本則分散在不同的類中。
模糊聚類算法通常用一個向量來表示一個數據點的歸屬,向量中哪個維度的數值更大,意味著該數據點距離該維度對應簇更近,即歸屬于該簇的概率越大。在模糊聚類分析中,每個樣本點對各個簇的隸屬度是不同的,而不僅僅是屬于某一類或不屬于某一類。
MMD(Maximum Mean Discrepancy)算法
MMD(Maximum Mean Discrepancy)算法是一種度量兩個分布之間差異的方法,尤其在遷移MMD(Maximum Mean Discrepancy)算法是一種度量兩個分布之間差異的方法,尤其在遷移學習中被廣泛用作損失函數。它是基于高斯核函數來計算兩個不同分布的樣本的均值和差值的度量方法,可以有效地判斷兩個分布的相似程度。
MMD的優勢在于其不需要借助額外的參數,而是直接利用數據本身的分布特性進行計算。此外,MMD也被視為一種基于歐式距離的模式識別算法,能夠避免聚類種子過于臨近的問題,從而具有更好的性能。
K-均值聚類法
K-均值聚類法是一種非監督學習算法,其主要目標是將數據分為K個組,使得K-均值聚類法是一種非監督學習算法,其主要目標是將數據分為K個組,使得每個組內的數據點之間的相似度盡可能高,而不同組之間的數據點的相似度盡可能低。它的基本思想是通過迭代尋找K個聚類中心,然后將每個數據點分配給最近的聚類中心,形成K個簇。
模糊聚類算法與K均值聚類算法(Kmeans)有著密切的關系。Kmeans算法是根據樣本之間的歐氏距離來進行聚類的,而模糊聚類則是基于樣本之間的相似性度量來進行聚類的。因此,在進行模糊聚類分析時,可以借鑒Kmeans算法的一些思想。
FCM算法
FCM算法,全稱為模糊C均值聚類算法,是一種基于隸屬度的軟聚類方法。它可以將數據集劃分為K個類,每個樣本都有屬于每個類的隸屬度,并且所有隸屬度之和為1。
FCM算法的目標是通過優化目標函數來確定聚類中心和隸屬度矩陣。目標函數如下:J_m(U, v)=∑_{i=1}^c ∑_{k=1}^n x_{ik}^m ‖x_k-v_i‖^2,其中v = (v1, v2,…, vc),m > 1為模糊參數,該參數決定了聚類的模糊度,也就是數據點可以成為多個類的程度,大多數情況下m=2。
經濟普查智能數據挖掘可視化分析展望
伴隨大數據時代、物聯網、人工智能等技術的到來,經濟發展形勢更加復雜,我國政府既關注發展速度,又關注發展質量,這也是衡量國家綜合實力的重要體現,做好第五次經濟普查,加強數據挖掘技術和方法研究,對提高經濟普查數據利用價值具有重要的意義。經濟普查智能數據挖掘可視化分析結合經濟普查的重點、難點,必將具備以下特點:
涵蓋經濟普查的全過程
經濟普查從數據采集到錄入數據庫系統,到對數據進行有效分析,最后產生數據報表和呈現數據分析結果,經濟普查智能數據挖掘的可視化需具備以上所有過程中涵蓋的各項功能的完整性。
數據存儲系統保障普查數據的時效性和共享性
以往的數據普查通過普查人員走訪、人工錄入電子設備,現有系統能滿足普查單位直接網上錄入,普查人員實時查看審核,時效性強;同時,普查數據網絡化能讓從上到下的各級單位 對數據進行查看和操作,避免了上級需要下級進行漫長的數據報送后才能了解數據情況的問題,系統實現了數據的共享。
智能數據分析系統應用目前熱門的數據挖掘技術
數據挖掘技術在網絡信息出現“大爆炸”現象但知識貧乏的背景下而生,目的是能從海量信息中發現潛在的規律和有效的“知識”,全國經濟普查數據滿足大而多的特點,雖然具備一些潛在規律,但依然避免不了存在很多內在的難以發現的問題,高效的可視化數據挖掘技術需有效地彌補這一缺陷。
MatLab繪圖呈現結果精準化、全面化
MatLab是一個應用非常成熟的數學軟件,其繪圖功能能夠實現各種圖形的繪制,將其運用于經濟普查數據分析結果的呈現,保障繪圖數據的精準化。同時,MatLab能相對容易地進行三維圖的 繪制,對經濟普查數據走勢的繪圖將更直觀、更全面,這是目前一般統計類軟件所不具備的功能或擁有該功能但繪圖效果沒有那么明顯。

總之,經濟普查數據的挖掘與可視化分析是大數據時代背景下的一項重要任務。通過對經濟普查數據的挖掘與可視化分析,我們可以更好地了解國民經濟的運行狀況,為政府制定宏觀經濟政策提供有力的支持。在未來的研究中,我們將繼續探索更加高效、準確的經濟普查數據挖掘與可視化分析方法,為我國經濟發展做出更大的貢獻。
撰稿 | 王秋慧 清研集團智能數據挖掘研究部研究員
編輯 | 陳澤璽
圖片 | 網絡