|
來源: 中國考古網
摘要:數據挖掘技術是在近來信息化進程的發展和人們對信息需求的快速增加的大背景下應運而生的一項新技術。考古研究的進步使得找尋考古數據之間關係、並以此爲途徑研究其背後的社會和歷史發展規律成爲主題,將數據挖掘技術引入考古研究領域正好順應了這一大趨勢。決策樹算法是典型的數據挖掘中的分類算法。爲了適應考古研究的具體要求,我們基於C4. 5算法,提出了兩點改進:增加了一個表示研究背景的參數向量以改進決策樹算法無法充分利用先驗背景的確定;改變了分裂判定準則――信息增益率的計算方法以提高算法運行速度。經過檢驗二者都獲得了較好的效果。
關鍵詞:數據挖掘;決策樹;C4. 5分類算法;領域知識;等價無窮小
一、背景
當前社會信息化程度不斷加深,更加廣泛和深刻的影響著我們生活的方方面面。隨著數據爆炸式的增加,我們熟悉、識別和利用數據的困難就越來越大,從而從中得到有用信息的開銷就越來越高。也就是所謂的『數據富裕,知識缺乏』。數據挖掘技術正是在這種背景下不斷發展和完善起來的。數據挖掘就是從大量的、無特定規律的數據中發現『有趣』模式的過程。所謂『有趣』是指易於理解的、具有某種必然性,在新的情況下可以推廣適用的、潛在有用的、新穎的或者符合用戶某種假設。
當前的考古研究也發展到了一個新的階段。之前的考古研究,更多地著眼於遺蹟和遺物的技術、功能、或者通過遺物和遺蹟將考古學文化作爲單位來考察,較少研究遺蹟和遺物之間的關係,即使研究他們之間的『總體關係』,也很少考察這種『關係』背後的文化含義和社會含義。今天的考古研究已經從之前相對的『靜態』變爲『動態』,即考古研究將不止關注單體研究對象的單獨意義,而是將其放在歷史和當時社會的大背景下,來慮研究對象的完整的考古學價值。比如希望通過與相同類型不同時期的研究對象的對比,發現歷史發展的軌跡;希望通過同一時期不同類型、地域的研究對象之間的聯繫,描繪當時的社會和文化。考古學已經不是單純的爲歷史學的發展提供證據和補充的學科了,而是具有人類學和社會學背景的一門綜合性學科。在這種情況下,根據當前技術和考古學本身的發展趨勢,我們提出將數據挖掘技術引入到考古數據的處理之中,爲實現上述目標創造條件。
正是在這雙重背景下,社科院考古所安陽考古隊同清華大學自動化系決定聯合開發一種符合當前考古研究需要、並且反映考古學發展趨勢的信息管理系統―――E-Arch系統。此系統是基於嚴謹科學的考古邏輯和研究規律,利用信息科學發展的最新成果,整合翔實完整的考古學資料,構建一個大型的、開放性的綜合考古系統,這一領域目前學術界還沒有類似的研究,我們也很希望用自己的實踐,爲後來者提供某種經驗和啟示。
……
全文閱讀下載
作者簡介:毛延輝,清華大學碩士研究生;張濤,清華大學自動化系博士生導師;唐際根,男,中國社會科學院考古研究所研究員,主要從事商代考古發掘與研究;郭志偉,中國社會科學院研究生院博士研究生
原文發表在【殷都學刊】2010年第1期
(責任編輯:孫丹)
[/td] [/tr] [tr] |
|