在線客服

          數(shù)據(jù)挖掘課程實用13篇

          引論:我們?yōu)槟砹?3篇數(shù)據(jù)挖掘課程范文,供您借鑒以豐富您的創(chuàng)作。它們是您寫作時的寶貴資源,期望它們能夠激發(fā)您的創(chuàng)作靈感,讓您的文章更具深度。

          數(shù)據(jù)挖掘課程

          篇1

          院大數(shù)據(jù);數(shù)據(jù)挖掘;教學(xué)方式;考核方式

          大數(shù)據(jù)時代的到來,給人們的生產(chǎn)和生活帶來極大的變革,由此也引起了社會各界的廣泛關(guān)注。目前,大數(shù)據(jù)已經(jīng)與我們的日常生活息息相關(guān),對各行業(yè)的發(fā)展也產(chǎn)生了至關(guān)重要的作用。數(shù)據(jù)挖掘技術(shù)是信息化的產(chǎn)物,也是現(xiàn)代企業(yè)生產(chǎn)和發(fā)展過程中需要用到的重要技術(shù)之一,因此對數(shù)據(jù)挖掘技術(shù)人才的需求越來越多,《數(shù)據(jù)挖掘》學(xué)科由此得到了快速的發(fā)展。本文將對《數(shù)據(jù)挖掘》課程的教學(xué)展開論述,希望能引起同行的共鳴。

          1大數(shù)據(jù)介紹

          1.1大數(shù)據(jù)含義大數(shù)據(jù)是網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段出現(xiàn)的新興名詞,是指數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多的數(shù)據(jù)構(gòu)成的集合,大數(shù)據(jù)是以云計算的共享平臺為基礎(chǔ),通過數(shù)據(jù)的交叉復(fù)用,形成新的智力資源和知識服務(wù)能力。大數(shù)據(jù)處理需要分布式計算機構(gòu)架才能完成,僅依靠單臺的計算機無法實現(xiàn)大數(shù)據(jù)處理,因此大數(shù)據(jù)處理就是借助云計算的分布式處理、分布式數(shù)據(jù)庫、虛擬存儲技術(shù)對大量數(shù)據(jù)進行整合處理的過程。

          1.2大數(shù)據(jù)特征大數(shù)據(jù)具有數(shù)量大(Volume)、類型多(Variety)、價值高(Value)和速度快(Velocity)的特點,簡稱為“4V”。大數(shù)據(jù)處理的數(shù)據(jù)規(guī)模不斷擴大,已經(jīng)由GB、TB級擴展到EB或ZB級,這是普通計算機硬盤容量所無法達到的;大數(shù)據(jù)對象包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),存儲對象由傳統(tǒng)的文本內(nèi)容擴展到了音頻數(shù)據(jù)、視頻數(shù)據(jù)、搜索引擎中關(guān)鍵詞等,其數(shù)據(jù)的類型繁多復(fù)雜;數(shù)據(jù)之間的關(guān)聯(lián)性不斷加強,已經(jīng)對社會經(jīng)濟、系統(tǒng)、信息學(xué)、網(wǎng)絡(luò)學(xué)以及心理學(xué)等多個領(lǐng)域產(chǎn)生了深遠影響;大數(shù)據(jù)的產(chǎn)生形式以數(shù)據(jù)流為主,能瞬時產(chǎn)生,具有很強的動態(tài)性和時效性。

          2數(shù)據(jù)挖掘曳課程教學(xué)探討

          2.1教學(xué)內(nèi)容《數(shù)據(jù)挖掘》是一門綜合性的學(xué)科,學(xué)科內(nèi)涉及的主要內(nèi)容有數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、信息檢索、計算機技術(shù)以及可視化技術(shù)等,需要不同的學(xué)科交叉學(xué)習(xí),因此,該課程具有很高的理論性和實踐性。在教學(xué)過程中,不僅要注重基礎(chǔ)理論知識的培養(yǎng),還要加強對學(xué)生創(chuàng)新能力以及問題解決能力的培養(yǎng)。課程的知識結(jié)構(gòu)可按照表1所示組建。數(shù)據(jù)挖掘前需要進行預(yù)處理,然后才能存入數(shù)據(jù)倉庫,再利用相關(guān)的挖掘工具和算法,按照挖掘流程進行數(shù)據(jù)挖掘,最后將挖掘結(jié)果以可視化的形式展示出來。在整個教學(xué)過程中,教學(xué)重點是挖掘工具和挖掘算法,其中挖掘工具主要有通用挖掘工具和專用挖掘工具兩類,而挖掘算法則包括分類法、關(guān)聯(lián)分析法、聚類法等10種方法。學(xué)生不僅要了解各類算法的相關(guān)概念,還要能利用算法對實例進行分析。

          2.2《數(shù)據(jù)挖掘》課程教學(xué)探索

          2.2.1培養(yǎng)數(shù)據(jù)意識《數(shù)據(jù)挖掘》是以數(shù)據(jù)為驅(qū)動的理論分析和應(yīng)用課程,具有抽象性和具體性,抽象性是指數(shù)據(jù)挖掘過程中的理論、技術(shù)和方法具有很強的抽象性,學(xué)生在有限的時間內(nèi)無法理解和消化;具體性是指研究內(nèi)容比較客觀,具有一定的解釋性和理解性。針對以上特點,教師在組織教學(xué)時,應(yīng)先培養(yǎng)學(xué)生的學(xué)習(xí)興趣,使學(xué)生產(chǎn)生一定的數(shù)據(jù)意識。具體安排時,可先安排2-4個學(xué)時講解數(shù)據(jù)及其主要應(yīng)用,讓學(xué)生對大數(shù)據(jù)的產(chǎn)生、影響和應(yīng)用等內(nèi)容做初步了解,使學(xué)生對該課程的學(xué)習(xí)目的和實際意義產(chǎn)生客觀認(rèn)識。

          2.2.2深化基礎(chǔ),加強理論體系大數(shù)據(jù)特征對數(shù)據(jù)分析技術(shù)提出了更高的要求,現(xiàn)有的數(shù)據(jù)分析技術(shù)難以滿足實際需求,這就說明了數(shù)據(jù)挖掘技術(shù)的應(yīng)用和發(fā)展將面臨更嚴(yán)峻的考驗。數(shù)據(jù)挖掘技術(shù)涉及的知識內(nèi)容較多,在大學(xué)課程體系中難以全部開設(shè),給學(xué)生的學(xué)習(xí)帶來很大阻礙。為解決以上問題,開封大學(xué)采取措施:將《數(shù)據(jù)挖掘》課程授課對象設(shè)定為高年級學(xué)生,經(jīng)過兩年或三年基礎(chǔ)課程的學(xué)習(xí),學(xué)生已經(jīng)具備了一定的理論基礎(chǔ),在學(xué)習(xí)《數(shù)據(jù)挖掘》課程中,就可節(jié)約大量時間學(xué)習(xí)課程的核心內(nèi)容。

          2.2.3教學(xué)方式多樣化理論來源于實踐,也可以指導(dǎo)實踐;實踐是檢驗理論的唯一途徑。《數(shù)據(jù)挖掘》具有很強的抽象性,學(xué)生無法在有限的學(xué)習(xí)時間內(nèi)對眾多概念產(chǎn)生足夠清晰的認(rèn)識,只能借助實踐教學(xué)使學(xué)生明白課程內(nèi)容的原理及其實用價值。在講解基本概念、原理或者算法時,可采取案例教學(xué)法、任務(wù)驅(qū)動教學(xué)法、項目教學(xué)法等,將理論與實踐相結(jié)合,提高學(xué)生的學(xué)習(xí)興趣和操作能力。因此教師應(yīng)在教學(xué)過程中注意教學(xué)方法的選擇和使用,充分體現(xiàn)出學(xué)生的主體地位和教師的主導(dǎo)作用,通過一系列理實一體化教學(xué)方式,提高教學(xué)效果。

          2.3改革教學(xué)考核方式《數(shù)據(jù)挖掘》是一門融合多種學(xué)科的實踐課程,因此,課程的評價方式也應(yīng)做出一定的改進。在考核時,應(yīng)包括理論基礎(chǔ)和實踐部分考核,除考查學(xué)生對基本概念、挖掘流程等內(nèi)容的掌握情況外,還應(yīng)對學(xué)生的實踐操作技能進行考核,采用多種方式對學(xué)生的學(xué)習(xí)進行評價,提高考核的有效性和公平性。

          3結(jié)語

          隨著信息化技術(shù)的不斷發(fā)展,現(xiàn)代企業(yè)生產(chǎn)運行對信息化管理系統(tǒng)的依賴性越來越高,現(xiàn)代社會已經(jīng)進入了大數(shù)據(jù)時代,在這種時代背景下,數(shù)據(jù)挖掘技術(shù)得到了社會各界的廣泛重視,企業(yè)對該專業(yè)的人才需求也越來越多,這就為《數(shù)據(jù)挖掘》課程的發(fā)展提供了有利條件。高校及任課教師應(yīng)認(rèn)清形勢,積極調(diào)整教學(xué)理念,通過優(yōu)化課程內(nèi)容,改進教學(xué)方式和考核方式,提高課程的教學(xué)效果,以培養(yǎng)高專業(yè)素養(yǎng)和高操作技能的復(fù)合型人才。

          參考文獻

          [1]范祺,朱昌杰,肖建于,沈龍鳳,李敏.以項目驅(qū)動的數(shù)據(jù)挖掘課程教學(xué)改革的研究[J].科技信息,2012(11):9-10.

          篇2

          一、前言

          近年來,數(shù)據(jù)獲取和數(shù)據(jù)存儲技術(shù)快速發(fā)展,各種數(shù)據(jù)庫、數(shù)據(jù)倉庫中存儲的數(shù)據(jù)量飛速增長。人們關(guān)注的焦點要從噪聲、模糊的隨機數(shù)據(jù)中提取重要的信息、知識,數(shù)據(jù)挖掘的出現(xiàn),提供了一種有效解決“數(shù)據(jù)豐富而知識貧乏”問題的方法。

          數(shù)據(jù)挖掘作為統(tǒng)計專業(yè)的核心課程,是學(xué)生必須掌握的職業(yè)能力課程。根據(jù)高職生的知識結(jié)構(gòu)體系和培養(yǎng)目標(biāo),我們采用案例驅(qū)動教學(xué)方法,以學(xué)生為主體,案例為主線,教師為主導(dǎo),對案例進行分析,學(xué)習(xí)案例所涉及的相關(guān)知識點,從而會利用相關(guān)軟件工具對數(shù)據(jù)進行分析,挖掘數(shù)據(jù)間的知識。

          二、數(shù)據(jù)挖掘中案例驅(qū)動教學(xué)的實施

          (一)合理高職高專統(tǒng)計專業(yè)數(shù)據(jù)挖掘課程教學(xué)目標(biāo)

          數(shù)據(jù)挖掘是集數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)習(xí)、機器學(xué)習(xí)、模式識別、可視化等學(xué)科的一個新興交叉學(xué)科,又包含了聚類分析、關(guān)聯(lián)規(guī)則分析、分類等,每一種挖掘又有不同算法,是一門理論性、實踐性及綜合性較強的課程。其知識內(nèi)容豐富,內(nèi)容深淺不一,各種方法變化快,新方法層出不窮,這對師生都提出了嚴(yán)峻的挑戰(zhàn)。

          高職高專將培養(yǎng)高等技術(shù)應(yīng)用型專門人才為根本任務(wù),以適應(yīng)社會行業(yè)發(fā)展需求為基本目標(biāo),結(jié)合本院統(tǒng)計專業(yè)學(xué)生的專業(yè)技能特點,我們將本門課程的教學(xué)目標(biāo)定位為:掌握數(shù)據(jù)挖掘課程涉及的基本概念,提高信息分析能力,能從收集到的數(shù)據(jù)信息中利用有效的軟件工具CLEMENTINE進行知識“挖掘”;要根據(jù)實際情況制定合理完整的數(shù)據(jù)模型并進行評估,這些評估要具有可視性,才能有效地解決問題,而使數(shù)據(jù)挖掘更具有合理性。

          (二)如何驅(qū)動教學(xué)來設(shè)計數(shù)據(jù)挖掘案例

          1.介紹案例驅(qū)動教學(xué)法。案例驅(qū)動法是在“哈佛大學(xué)”的情境案例教學(xué)課起源,是一種探索性和協(xié)作性學(xué)習(xí)的教學(xué)模式。整個授課過程圍繞著同一個目標(biāo)和幾項任務(wù)“教授”,學(xué)生通過對課程的學(xué)習(xí)、資料的查找和知識的整合,通過充分思考和與實踐相結(jié)合,提高自身能力。這種案例驅(qū)動的教學(xué)法可以讓學(xué)生提高學(xué)習(xí)興趣,發(fā)展學(xué)生自身的能力。同時能讓教師更好地發(fā)揮促進學(xué)生學(xué)習(xí)、引導(dǎo)學(xué)生成功的功能。

          案例驅(qū)動法是把教學(xué)內(nèi)容和目標(biāo)通過一個任務(wù)來體現(xiàn),把教材內(nèi)容重新整合,老師的授課和學(xué)生的接受都圍繞這個任務(wù)完成。

          案例驅(qū)動法可以充分發(fā)揮學(xué)生的主體地位,從而改變傳統(tǒng)的關(guān)于師生關(guān)系的觀念,讓學(xué)生從被動學(xué)習(xí)到主動學(xué)習(xí),真正愛上學(xué)習(xí),提高自己的創(chuàng)新、自學(xué)和實踐能力,同時要求老師在授課中給予學(xué)生正確的引導(dǎo)、促進、組織和控制,這樣可以增強同學(xué)間的協(xié)作精神和學(xué)生的獨立意識。通過學(xué)生的自主學(xué)習(xí)和探索,可以改變原來枯燥的學(xué)習(xí)方式。對于數(shù)據(jù)挖掘這門課程,內(nèi)容深奧,既要求學(xué)習(xí)一定的理論知識,又要求掌握數(shù)據(jù)挖掘的使用方法,因此我們引入使用案例驅(qū)動的教學(xué)方法。

          2.數(shù)據(jù)挖掘案例教學(xué)的實施規(guī)劃。利用CLEMENTINE軟件工具進行數(shù)據(jù)挖掘,將數(shù)據(jù)挖掘看成一個以數(shù)據(jù)為中心的循序漸進的螺旋式數(shù)據(jù)探索過程,該過程分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、方案評估和方案實施六大部分。因此,在教學(xué)過程中,我們圍繞數(shù)據(jù)挖掘的六大部分,在每一部分,講解基本的數(shù)據(jù)挖掘技術(shù)原理;對于數(shù)據(jù)挖掘算法,只要求掌握相關(guān)算法使用的方法和使用的場合,并會使用專業(yè)的數(shù)據(jù)挖掘工具CLEMENTINE,此應(yīng)用的前提條件要求對學(xué)生進行數(shù)據(jù)挖掘;將教學(xué)的亮點和重點放在案例分析和實際應(yīng)用上,要對學(xué)生進行動手能力的訓(xùn)練。

          在教學(xué)的過程中,最重要的是案例的選取。通過參考教學(xué)大綱和教學(xué)目標(biāo),對教學(xué)案例進行精心設(shè)計,可以提高學(xué)生的分析能力,提高學(xué)生發(fā)現(xiàn)問題和解決問題的能力,才能更好地將教案落實,并形成具體的項目。根據(jù)數(shù)據(jù)挖掘課程的特點和具體內(nèi)容,我們通過某些小案例引入一些相關(guān)知識,并且采用學(xué)生能夠接受的一個大案例讓學(xué)生使用成績數(shù)據(jù)模型組織整個教學(xué)過程。

          我們的課程內(nèi)容按數(shù)據(jù)挖掘過程分為六大部分,按照每一部分的教學(xué)目標(biāo)我們設(shè)計了多個不同的小案例如下。

          (1)藥物研究數(shù)據(jù)和學(xué)生參加社會活動數(shù)據(jù)案例:通過這兩個數(shù)據(jù)模型掌握在CLEMENTIME軟件工具中利用軟件中SOURCES選項卡的多種節(jié)點讀入多種文件類型(如TXT文件、EXCEL文件、SPSS文件等)的數(shù)據(jù),掌握讀入數(shù)據(jù)的數(shù)據(jù)類型,掌握APPEND節(jié)點、MERGE節(jié)點合并數(shù)據(jù)的方法。

          (2)移動客戶數(shù)據(jù)案例:通過利用移動數(shù)據(jù)讓學(xué)生掌握TYPE節(jié)點進行變量說明的方法,會使用該節(jié)點進行有限變量值和無效值的調(diào)整,會使用DATA AUDIT節(jié)點對數(shù)據(jù)質(zhì)量進行評估和調(diào)整;掌握數(shù)據(jù)中對離群點、極端值和缺失值的調(diào)整,對數(shù)據(jù)進行質(zhì)量管理;會使用AGGREATE對數(shù)據(jù)進行分類匯總;利用FILLER節(jié)點對變量值重新計算,會用RECLASSIFY節(jié)點實現(xiàn)變量值進行調(diào)整;會對數(shù)據(jù)進行篩選、樣本子集劃分等處理;了解數(shù)據(jù)分析特征,把握數(shù)據(jù)間相關(guān)性強弱的基本手段;利用壓縮樣本量、簡約變量值或變量降維等方法對樣本量龐大的數(shù)據(jù)進行精簡。

          (3)決策樹模型案例:了解C5.0決策樹算法,會建立決策樹模型,學(xué)會歸納和提煉現(xiàn)有數(shù)據(jù)包含的規(guī)律,建立分類預(yù)測模型,會分析結(jié)論,用于對未來新數(shù)據(jù)的預(yù)測。

          (4)人工神經(jīng)網(wǎng)絡(luò)模型案例:了解人工神經(jīng)網(wǎng)絡(luò)算法,掌握人工神經(jīng)網(wǎng)絡(luò)建立的步驟,建立B-P反向神經(jīng)網(wǎng)絡(luò)模型,預(yù)測分析結(jié)果。

          (5)貝葉斯模型案例:了解貝葉斯網(wǎng)絡(luò)算法,掌握貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的組成和構(gòu)建,會用TAN貝葉斯和馬爾科夫毯網(wǎng)絡(luò)解決從龐大數(shù)據(jù)中尋找輸入變量之間的相關(guān)性,輸入變量的組合取值對輸出變量的影響,用網(wǎng)絡(luò)結(jié)構(gòu)直觀展示它們的關(guān)系。

          在設(shè)計小案例的同時,我們還選擇學(xué)生既熟悉又感興趣的綜合項目案例選題:學(xué)生成績數(shù)據(jù)、圖書管理數(shù)據(jù)、電信服務(wù)數(shù)據(jù)等,讓學(xué)生帶著問題進一步學(xué)習(xí)課程,在學(xué)習(xí)中尋找方法解決項目中遇到的問題。當(dāng)課程結(jié)束后,各項目組呈交項目數(shù)據(jù)模型和報告,且項目組長要向所有同學(xué)按數(shù)據(jù)挖掘的六大部分講解分析報告。

          3.案例驅(qū)動教學(xué)的成效。圍繞案例進行教學(xué)的“數(shù)據(jù)挖掘”課程除了采用案例驅(qū)動教學(xué)法,還要增加學(xué)生的實際訓(xùn)練能力,都取得了明顯的效果,從以下五個方面體現(xiàn):①學(xué)生要主動提出問題,同時積極主動地參與課堂教學(xué),才能提高學(xué)生分析和處理問題的能力;②增強學(xué)生的自主學(xué)習(xí)能力,要求學(xué)生通過小組討論的形式和實際訓(xùn)練讓學(xué)生以積極主動的態(tài)度處理和解決一些技術(shù)問題,從而提高自學(xué)能力;③學(xué)生間要注意培養(yǎng)團隊合作能力的,也要具有競爭意識;④課程學(xué)習(xí)結(jié)束后,普遍反映對利用CLEMENTIME軟件工具進行數(shù)據(jù)挖掘的自信心提高,能夠進一步提高對專業(yè)的認(rèn)知,獨立解決一些數(shù)據(jù)統(tǒng)計分析的問題。

          三、結(jié)束語

          數(shù)據(jù)挖掘是統(tǒng)計專業(yè)的專業(yè)課程,其內(nèi)容繁多、深奧,把基于案例驅(qū)動的教學(xué)模式引入《數(shù)據(jù)挖掘》課程,學(xué)生在學(xué)習(xí)過程中,實現(xiàn)了整個數(shù)據(jù)挖掘的流程,在基于項目的技術(shù)應(yīng)用中深入理解了數(shù)據(jù)挖掘的理論知識。學(xué)生要將所學(xué)的理論知識和實踐相結(jié)合,從而有效提高自己的操作技能和知識水平,培養(yǎng)了自己應(yīng)用數(shù)據(jù)挖掘技術(shù)解決實際問題的應(yīng)用能力和創(chuàng)新實踐能力。

          從教學(xué)效果來看,通過將理論教學(xué)和實踐相結(jié)合,案例教學(xué)法整合了各種學(xué)習(xí)工具和教學(xué)資源,這樣才能充分發(fā)揮學(xué)生的主觀能動性,培養(yǎng)和提高學(xué)生的主觀能動性,同時增強學(xué)生分析和處理問題的能力,今后,我們將繼續(xù)完善數(shù)據(jù)挖掘的教學(xué)案例,研究和總結(jié)教學(xué)經(jīng)驗,使整個教學(xué)環(huán)節(jié)更加完善合理。

          參考文獻:

          [1]劉云霞.統(tǒng)計學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J].吉林工程技術(shù)師范學(xué)院學(xué)報,2010,(26).

          [2]覃義,楊丹江,劉憶寧.《數(shù)據(jù)挖掘》本科教學(xué)的體會與創(chuàng)新[J].科技信息,2012,(10).

          [3]李國榮.培養(yǎng)統(tǒng)計專業(yè)學(xué)生動手能力和創(chuàng)新能力的探索[J].統(tǒng)計教育,2007,(9).

          [4]白忠喜,魯越青,梁偉,等.校政企共建基地開展基于項目驅(qū)動的實踐教學(xué)改革[J].中國大學(xué)教學(xué),2011,(2).

          篇3

          Abstract: With the advent of the era of big data, data mining has become an essential technology which has important social value in the field of business, healthcare, manufacture and administrative management, etc. In many universities, the course of data mining is an important course which is integrated with other disciplinary knowledge and plays an important role in talent cultivation. According to the characters of big data, the knowledge hierarchy data mining is presented, and case teaching and new teaching evaluation method in graduate students' data mining course are discussed. The result shows that the effect is good and it is welcomed by graduate students.

          Key words: data mining; knowledge hierarchy; case teaching; teaching evaluation

          0 引言

          近年來,傳統(tǒng)科學(xué)研究(如天文物理學(xué)、生物醫(yī)學(xué)等)、電子商務(wù)、網(wǎng)絡(luò)搜索引擎(如GOOGLE和百度等)和物聯(lián)網(wǎng)等產(chǎn)生的數(shù)據(jù)已經(jīng)以PB或ZB(10的21次方)來計算。以分布式數(shù)據(jù)倉庫、流計算的實時數(shù)據(jù)倉庫技術(shù)為代表的最新數(shù)據(jù)存儲技術(shù),讓全世界的數(shù)據(jù)存儲量越來越大,由人、機、物三元素高度融合構(gòu)成的信息化的社會引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)處理模式的高度復(fù)雜化,大數(shù)據(jù)(Big Data)時代已經(jīng)到來[1]。因此,數(shù)據(jù)具有越來越強的可視性、可操作性和可用性,能夠越來越細致、精準(zhǔn)、全面和及時地反映人的思維、行為和情感,以及事物的特性和發(fā)展規(guī)律,要想讓這些大數(shù)據(jù)以更加有效的方式為提升人類各方面的生產(chǎn)力和生活質(zhì)量服務(wù),離不開以非平凡的方法發(fā)現(xiàn)蘊藏在大量數(shù)據(jù)集中的有用知識為根本目的數(shù)據(jù)挖掘技術(shù)的支撐。

          市場上對于有大數(shù)據(jù)背景知識又懂?dāng)?shù)據(jù)挖掘技術(shù)的專業(yè)人才的需求也將越來越大,作為一名高校計算機專業(yè)教師,根據(jù)自己三年來研究生數(shù)據(jù)挖掘課程的授課經(jīng)歷,結(jié)合當(dāng)前大數(shù)據(jù)的時代背景,對數(shù)據(jù)挖掘課程教學(xué)進行了新的思考和探索。

          1 明確大數(shù)據(jù)背景下學(xué)習(xí)數(shù)據(jù)挖掘知識的重要性

          1.1 大數(shù)據(jù)的定義

          “大數(shù)據(jù)”是最近幾年才出現(xiàn)的新名詞,尚無統(tǒng)一的概念,維基百科上的解釋是:大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識服務(wù)能力。

          1.2 大數(shù)據(jù)的特征

          大數(shù)據(jù)的特征可以總結(jié)為四方面,即4V。

          ⑴ 數(shù)據(jù)量浩大(Volume)――數(shù)據(jù)集合的規(guī)模不斷擴大,已從GB到TB再到PB級,甚至開始以EB和ZB來計數(shù)。例如:1立方毫米電子顯微鏡重建出的大腦突觸網(wǎng)絡(luò)的圖像數(shù)據(jù)就超過1PB。

          ⑵ 模態(tài)繁多、異構(gòu)(Variety)――大數(shù)據(jù)面向的是一切計算機可以存儲的數(shù)據(jù)格式,類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),包括互聯(lián)網(wǎng)上的各種網(wǎng)頁、圖片、音頻、視頻、文檔、報表,以及搜索引擎中輸入的關(guān)鍵詞、社交網(wǎng)絡(luò)中的留言、喜好和各種傳感器自動收集的監(jiān)控結(jié)果等等。

          ⑶ 生成快速(Velocity)――大數(shù)據(jù)往往以數(shù)據(jù)流的形式動態(tài)、快速地產(chǎn)生,具有很強的時效性,同時,數(shù)據(jù)自身的狀態(tài)與價值也往往隨時空變化而發(fā)生演變,數(shù)據(jù)的涌現(xiàn)特征明顯。

          ⑷ 價值巨大(Value)――數(shù)據(jù)顯性或隱性的網(wǎng)絡(luò)化存在使得數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)無所不在,將對信息科學(xué)、社會科學(xué)、網(wǎng)絡(luò)科學(xué)、系統(tǒng)科學(xué)、心理學(xué)、經(jīng)濟學(xué)等諸多領(lǐng)域的研究和應(yīng)用起到革命性的作用,價值巨大[2]。

          Gartner、IBM和牛津大學(xué)2012年聯(lián)合的關(guān)于大數(shù)據(jù)的研究報告指出:交易數(shù)據(jù)、記錄數(shù)據(jù)、事件和電子郵件是四大主要數(shù)據(jù);數(shù)據(jù)挖掘,數(shù)據(jù)可視化,預(yù)測,建模與數(shù)據(jù)優(yōu)化是五大數(shù)據(jù)能力[3]。大數(shù)據(jù)的潛在價值只有通過數(shù)據(jù)挖掘才能顯現(xiàn),因此,國外的Google、IBM、Amazon、Oracle、Microsoft、EMC;國內(nèi)的騰訊、百度、新浪、淘寶等知名企業(yè)已經(jīng)開始著眼大數(shù)據(jù),從不同角度進行數(shù)據(jù)挖掘,以便改善自身服務(wù),創(chuàng)造更大的商業(yè)價值。所以,作為高校教師,首先要讓學(xué)生了解大數(shù)據(jù)的基本特點,明確數(shù)據(jù)挖掘知識和技術(shù)對當(dāng)今社會的重要意義。

          2 利用概念圖,構(gòu)建數(shù)據(jù)挖掘課程的知識體系結(jié)構(gòu)

          在大學(xué)里,設(shè)置一門課程,不能只關(guān)注這門課程所含的內(nèi)容,更要考慮教育培養(yǎng)學(xué)生基本專業(yè)能力、可持續(xù)發(fā)展能力等本質(zhì)性的問題。

          數(shù)據(jù)挖掘是一門結(jié)合數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識系統(tǒng)、信息檢索、高性能計算和可視化等多門學(xué)科知識的交叉學(xué)科[4]。而且,該課程既包括各種理論知識,又離不開相關(guān)的實踐技術(shù),整個教學(xué)過程是培養(yǎng)和提高學(xué)生的創(chuàng)新能力和綜合解決問題能力的重要途徑。因此,針對計算機專業(yè)的學(xué)生,教學(xué)的首要任務(wù)是構(gòu)建起整個課程的核心知識結(jié)構(gòu)(如圖1所示),同時,簡單介紹相關(guān)的統(tǒng)計學(xué)、機器學(xué)習(xí)等計算機專業(yè)學(xué)生不太了解的非專業(yè)知識。

          課程核心知識結(jié)構(gòu)是教學(xué)的主線,是學(xué)生必須要掌握的。首先,讓學(xué)生明確數(shù)據(jù)挖掘前要先經(jīng)過預(yù)處理,再存入數(shù)據(jù)倉庫;其次,針對具體情況利用相關(guān)的挖掘工具和挖掘算法進行挖掘;最后,挖掘結(jié)果以可視化的形式有效地展示給用戶。教學(xué)的重點是挖掘算法和挖掘工具。對于挖掘算法,以數(shù)據(jù)挖掘國際會議ICDM(the IEEE International Conference on Data Mining)的專家評選出的十大經(jīng)典算法(見表1)為主[5],結(jié)合相關(guān)實例給學(xué)生介紹各種算法的基本思想和相關(guān)概念,重點介紹使用較多的分類、聚類、關(guān)聯(lián)、序列和機器學(xué)習(xí)這幾種算法,先為學(xué)生打下良好的理論基礎(chǔ)。

          3 以實例為切入點,注重理論結(jié)合實踐

          數(shù)據(jù)挖掘課程主要針對我校研究生開設(shè),考慮到學(xué)生就業(yè)和當(dāng)前市場需求,以及課程本身實踐性強的特點,在教學(xué)過程中要注重理論結(jié)合實踐,注意培養(yǎng)學(xué)生解決實際問題的能力。因此,在給學(xué)生介紹目前常用的數(shù)據(jù)挖掘工具(如IBM Intelligent Miner、SAS Enterprese Miner、SPSS Clementine、Weka等)的基礎(chǔ)上,結(jié)合市場應(yīng)用需求,以實例為切入點,分別分析數(shù)據(jù)挖掘在互聯(lián)網(wǎng)日志分析、電子郵件分析、互聯(lián)網(wǎng)廣告挖掘、電子商務(wù)、移動互聯(lián)網(wǎng)等各大領(lǐng)域中的實際應(yīng)用情況和成功案例(表2)。同時,還可以從內(nèi)容挖掘、結(jié)構(gòu)挖掘和用戶訪問模式挖掘這三個方面簡單介紹WEB挖掘的基本知識[6]。這樣,課程本身就脫離了枯燥的理論,讓學(xué)生對數(shù)據(jù)挖掘有了感性認(rèn)識,激發(fā)學(xué)習(xí)興趣。

          ⑵ 過濾垃圾郵件。\&互聯(lián)網(wǎng)廣告\&⑴ 通過大數(shù)據(jù)挖掘,精準(zhǔn)定位各類客戶的廣告形式;

          ⑵ 準(zhǔn)確評估廣告效果。\&電子商務(wù)\&用數(shù)據(jù)提升整體營銷;通過日志挖掘做客戶分析;用序列算法分析商品上架時間;用聚類算法對商品分類、提升會員管理。\&移動互聯(lián)網(wǎng)\&⑴ 鎖定用戶的數(shù)據(jù)價值,通過地理位置信息挖掘出有價值的東西;

          ⑵ 文本挖掘。\&]

          在教學(xué)過程中,貫穿以“能力培養(yǎng)為目標(biāo)”的實踐教學(xué)理念,提供有效的網(wǎng)絡(luò)資源,讓學(xué)生自己動手動腦,分析成功案例,完成教師給定的虛擬挖掘任務(wù),強化學(xué)生參與意識,教師在以學(xué)生為主體的教學(xué)過程中當(dāng)好指導(dǎo)者和激勵者,從而充分調(diào)動學(xué)生的主觀能動性,掌握不同應(yīng)用領(lǐng)域大數(shù)據(jù)的挖掘問題的基本解決方法,培養(yǎng)學(xué)生的創(chuàng)新能力。例如,給學(xué)生一個文本挖掘的分類題目,讓他們熟悉從原始數(shù)據(jù)的清洗、預(yù)處理、降維、建立模型、測試、得到結(jié)論等一系列環(huán)節(jié)。

          4 改革教學(xué)評價,實施分類化評價

          數(shù)據(jù)挖掘課程是一門融合了多個學(xué)科的實踐性很強的課程,對應(yīng)的考核方式應(yīng)該與其他專業(yè)課程有所區(qū)別,應(yīng)該更重視學(xué)生學(xué)習(xí)過程中的表現(xiàn)和能力的提升。

          理論知識的考核注重學(xué)生對數(shù)據(jù)挖掘基本概念、挖掘流程和主要挖掘算法的掌握情況,主要以試卷考核的方式為主,注意主觀題和客觀題的數(shù)量比例,采用統(tǒng)一考核方式和評判標(biāo)準(zhǔn)。對于實踐技能的考核,主要強調(diào)的是學(xué)生對不同類型數(shù)據(jù)進行挖掘時應(yīng)掌握的相關(guān)軟件使用技能的考查,考核時除了要體現(xiàn)學(xué)生對實驗原理的掌握外,更重要的是要反映出學(xué)生在實驗方法的掌握、設(shè)計、操作過程中的實際能力,我們?nèi)∠艘酝岩淮涡钥荚嚱Y(jié)果作為總成績的方法,而把學(xué)生平時課堂實驗成績作為總成績的主要部分,考核成績占課程總成績一定比例。

          教師教學(xué)質(zhì)量的評價與學(xué)生考核成績相對應(yīng),可采用單獨評價和統(tǒng)一評價兩種方式。單獨評價是指將社會實踐作為一個獨立的質(zhì)量評價過程對教師教學(xué)質(zhì)量進行考核;統(tǒng)一評價是指將教師實踐教學(xué)與理論教學(xué)綜合起來統(tǒng)一考核,以一定比例計入教師總體評價。

          無論是對學(xué)生,還是對教師,這種分類化的教學(xué)評價方式,不僅有利于學(xué)生實際能力的培養(yǎng),而且對教師的教學(xué)水平也是一種促進,有利于課程教學(xué)質(zhì)量的不斷提高。

          5 結(jié)束語

          大數(shù)據(jù)時代,誰能發(fā)掘出數(shù)據(jù)背后的巨大商業(yè)和社會價值,誰就能在激烈的市場競爭中處于優(yōu)勢。數(shù)據(jù)挖掘作為計算機應(yīng)用專業(yè)的研究生核心課程之一,也是學(xué)生今后就業(yè)必需的專業(yè)技能之一。以往的教學(xué)過程理論性強,枯燥乏味,考核形式單一,學(xué)生學(xué)習(xí)熱情普遍不高,不利于學(xué)生專業(yè)能力的培養(yǎng)。本文結(jié)合當(dāng)前大數(shù)據(jù)的時代背景,在構(gòu)架課程核心知識體系的前提下,結(jié)合實際應(yīng)用領(lǐng)域和案例,分析數(shù)據(jù)挖掘常見算法和常用工具,強調(diào)學(xué)生的參與和主觀能動性的發(fā)揮,而采用分類化的教學(xué)評價又能比較客觀、公正地評價學(xué)生對課程知識和專業(yè)實踐技能的掌握情況以及教師的教學(xué)效果。課程開設(shè)三年來的教學(xué)實踐證明,學(xué)生綜合運用計算機專業(yè)知識的能力得到提高,理論與實踐結(jié)合的創(chuàng)新能力得到鍛煉,教師在教學(xué)過程中不斷完善了自身的知識結(jié)構(gòu),提高了教學(xué)水平,實現(xiàn)了教學(xué)相長,得到了學(xué)生的好評。

          參考文獻:

          [1] Anand Rajaraman, Jeffrey David Ullman.大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理[M].人民郵電出版社,2012.

          [2] 李國杰.大數(shù)據(jù)研究的科學(xué)價值[J].中國計算機學(xué)會通訊,2012.8:8-15

          [3] Jiawei Han,Micheline Kamber,Jian Pei等.數(shù)據(jù)挖掘概念與技術(shù)(第3版)[M].機械工業(yè)出版社,2012.

          篇4

          一、引言

          大數(shù)據(jù)時代最為寶貴的資源是數(shù)據(jù),如何有效地分析利用海量數(shù)據(jù)將是數(shù)據(jù)挖掘需要解決的全新問題。數(shù)據(jù)挖掘的相關(guān)算法已非常成熟,并且在各個領(lǐng)域已取得了廣泛應(yīng)用。但是大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘理論與算法需要針對結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、多媒體數(shù)據(jù)具有更加強大的運算和處理能力。因此,數(shù)據(jù)挖掘技術(shù)及應(yīng)用等相關(guān)課程應(yīng)與時俱進地適應(yīng)大數(shù)據(jù)的要求,對數(shù)據(jù)挖掘相關(guān)課程的教學(xué)內(nèi)容進行變革。

          二、大數(shù)據(jù)環(huán)境特征

          Gartner認(rèn)為大數(shù)據(jù)是海量的、高增長率和多樣化的信息資產(chǎn),需要新的處理模式才能實現(xiàn)對其發(fā)現(xiàn)和優(yōu)化。維基百科認(rèn)為大數(shù)據(jù)所涉及的資料量規(guī)模巨大,以至于目前無法通過主流軟件工具,在一定合理的時間內(nèi)對其獲取、管理、處理并整理成為能起到?jīng)Q策支持作用的數(shù)據(jù)資源。大數(shù)據(jù)是包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)模或復(fù)雜程度超出了常用技術(shù),麥肯錫認(rèn)為大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行采集、存儲、管理和分析的數(shù)據(jù)集合,因此需要通過數(shù)據(jù)挖掘?qū)崿F(xiàn)對大量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集合進行分析,以便提供有用的數(shù)據(jù)洞察。大數(shù)據(jù)一般具有四個主要特征:①數(shù)據(jù)體量巨大(Volume),隨著時間的推移,衡量數(shù)據(jù)體量的單位從G,T,P到E。②數(shù)據(jù)種類繁多(Variety),互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、傳感網(wǎng)的發(fā)展,使數(shù)據(jù)類型變得更加復(fù)雜,不僅包括傳統(tǒng)的關(guān)系數(shù)據(jù)類型,也包括以網(wǎng)頁、視頻、音頻、E-mail等形式存在的未加工的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。③流動速度快(Velocity),面對快速動態(tài)變化的流式數(shù)據(jù),獲取、存儲及挖掘有效信息的速度都難以用傳統(tǒng)的系統(tǒng)進行處理。④價值密度低(Value),數(shù)據(jù)量呈指數(shù)增長加大了獲取有用信息的難度,如何快速高效發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的潛在有價值模式更加困難。

          三、數(shù)據(jù)挖掘系統(tǒng)

          數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、事先不知道,但又潛在有價值的信息和知識的過程。數(shù)據(jù)挖掘系統(tǒng)最初僅支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法,發(fā)展為與數(shù)據(jù)庫和數(shù)據(jù)倉庫之間存在有效接口而支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,又能進一步挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),而研究開發(fā)分布式、移動式的數(shù)據(jù)挖掘系統(tǒng)成為第四代數(shù)據(jù)挖掘系統(tǒng)的重要課題之一,使得數(shù)據(jù)挖掘系統(tǒng)與其他系統(tǒng)聯(lián)合提供決策支持的功能。根據(jù)數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫或數(shù)據(jù)倉庫的耦合程度,可以將數(shù)據(jù)挖掘系統(tǒng)分為不耦合、松散耦合、半緊耦合和緊密耦合四種結(jié)構(gòu)。面對大數(shù)據(jù)環(huán)境,半緊密耦合和緊密耦合是在性能和效率方面比較理想的。半緊密耦合是指除了將數(shù)據(jù)挖掘系統(tǒng)連接到一個數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)之外,一些基本的數(shù)據(jù)挖掘原語還可以在數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中實現(xiàn),這種設(shè)計將提高數(shù)據(jù)挖掘系統(tǒng)的性能。緊密耦合系統(tǒng)是指將數(shù)據(jù)挖掘系統(tǒng)平滑地集成到數(shù)據(jù)庫或數(shù)據(jù)倉庫系統(tǒng)中,數(shù)據(jù)挖掘子系統(tǒng)被視為信息系統(tǒng)的一個部分。根據(jù)數(shù)據(jù)挖掘的研究體系(如圖1所示),給出數(shù)據(jù)挖掘相關(guān)課程的主要講授內(nèi)容,包括:預(yù)測(Forecast),關(guān)聯(lián)規(guī)則(Association Rules),聚類分析(Clustering Analysis),粗糙集(Rough Sets),進化計算(Evolutionary Computation,EC),灰色系統(tǒng)(Grey System),模糊邏輯(Fuzzy Logic),人工智能與機器學(xué)習(xí)(Artificial Intelligence,Machine Learning),決策樹(Decision Tree),統(tǒng)計分析(Statistical Analysis),知識獲取、知識表示、知識推理和知識搜索(Knowledge Acquisition,Representation,Reasoning and Search),決策與控制(Decision and Control),可視化技術(shù)(Visual Technology),并行計算(Parallel Computing)和海量存儲(Mass Storage)等。

          四、大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘

          大數(shù)據(jù)的“4V“特征表明對海量的數(shù)據(jù)分析將更加復(fù)雜、更追求速度、更注重實效。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘應(yīng)實現(xiàn)海量數(shù)據(jù)建模,通過數(shù)理模型對海量數(shù)據(jù)進行整理與分析,發(fā)掘在海量數(shù)據(jù)之中隱藏的分析與決策所需的規(guī)律性知識。將數(shù)據(jù)挖掘作為大數(shù)據(jù)環(huán)境下重要的研究方法或發(fā)現(xiàn)新知識的技術(shù)工具,而不是把數(shù)據(jù)本身當(dāng)成研究目標(biāo),與傳統(tǒng)數(shù)據(jù)挖掘方法有密切聯(lián)系又有本質(zhì)區(qū)別。因此在大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘相關(guān)課程教學(xué)中應(yīng)注意以下變化:①數(shù)據(jù)預(yù)處理:除利用數(shù)據(jù)倉庫加載傳統(tǒng)數(shù)據(jù),針對大數(shù)據(jù)分析所涉及到的非結(jié)構(gòu)化數(shù)據(jù),應(yīng)保證輸入數(shù)據(jù)的完整性和相關(guān)的ETL(Extraction-Transformation-Loading,數(shù)據(jù)提取、轉(zhuǎn)換和加載)流程的正確性。②數(shù)據(jù)存儲機制:通過多維立方體實現(xiàn)結(jié)構(gòu)化的多維數(shù)據(jù)組織與管理,多數(shù)是建立在關(guān)系數(shù)據(jù)模型和關(guān)系數(shù)據(jù)庫基礎(chǔ)之上。而需將非結(jié)構(gòu)化數(shù)據(jù)考慮進大數(shù)據(jù)分析時,應(yīng)采用分布式文件系統(tǒng),以流的形式訪問文件系統(tǒng)中的數(shù)據(jù),提供訪問擁有超大數(shù)據(jù)集的高傳輸率的應(yīng)用程序(如Hadoop和其他開源的分布式系統(tǒng)基礎(chǔ)架構(gòu))。③數(shù)據(jù)挖掘算法處理能力:面對數(shù)據(jù)規(guī)模的增大,需解決數(shù)據(jù)挖掘算法的效率問題,提高算法的有效性和可伸縮性。④數(shù)據(jù)挖掘算法處理效率:數(shù)據(jù)規(guī)模的不斷增大導(dǎo)致分析處理的時間相應(yīng)加長,而大數(shù)據(jù)條件下對信息處理的時效性要求越來越高,應(yīng)建立簡單有效的人工智能算法和新的問題求解方法。

          五、小結(jié)

          大數(shù)據(jù)時代的到來對數(shù)據(jù)挖掘的研究和教學(xué)都提出了新的挑戰(zhàn)。應(yīng)從數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲機制、數(shù)據(jù)挖掘算法處理能力和效率等多個方面進行創(chuàng)新,以適應(yīng)大數(shù)據(jù)環(huán)境下知識管理與智能決策的需要。

          參考文獻:

          [1]陳燕.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京:清華大學(xué)出版社,2011.

          [2]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報,2013,(25):142-146.

          篇5

          文章編號:1672-5913(2007)14-0027-03

          1引言

          數(shù)據(jù)挖掘是一門綜合性的交叉學(xué)科,它融合了概率統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)、數(shù)據(jù)倉庫、人工智能、機器學(xué)習(xí)、信息檢索、數(shù)據(jù)結(jié)構(gòu)、高性能計算、數(shù)據(jù)可視化以及面向?qū)ο蠹夹g(shù)等,在保險業(yè)、電信業(yè)、交通業(yè)、零售業(yè)、銀行業(yè)正在被越來越廣泛深入地使用,同時在生物學(xué)、天文學(xué)、地理學(xué)等領(lǐng)域也逐漸顯現(xiàn)出技術(shù)優(yōu)勢,特別是在客戶關(guān)系管理系統(tǒng)、個性化網(wǎng)站設(shè)計、電子商務(wù)系統(tǒng)、搜索引擎等方面數(shù)據(jù)挖掘技術(shù)顯示出了獨特的魅力。數(shù)據(jù)挖掘技術(shù)正在以一種全新的概念改變著計算機應(yīng)用的方式。

          從最近計算機技術(shù)的發(fā)展以及學(xué)生就業(yè)方面來看,對本校的應(yīng)用性本科生開設(shè)“數(shù)據(jù)挖掘技術(shù)”課程迫在眉睫。但數(shù)據(jù)挖掘給人的感覺就是“高深莫測”,當(dāng)前數(shù)據(jù)挖掘領(lǐng)域主要是博士生、碩士生研究的領(lǐng)域,數(shù)據(jù)挖掘課程也只在一些重點大學(xué)的研究生或高年級的本科生中開設(shè),應(yīng)用型本科院校以及一些高職高專幾乎都沒有開設(shè)此類課程。這限定了數(shù)據(jù)挖掘作為一門既有理論又有實踐價值學(xué)科的應(yīng)用和推廣,筆者認(rèn)為很可惜。從計算機專業(yè)的學(xué)生的畢業(yè)設(shè)計以及就業(yè)角度分析,相當(dāng)多的同學(xué)以后會從事電子商務(wù)類軟件的開發(fā),而這類應(yīng)用目前都漸漸基于Web作為應(yīng)用平臺,面對的是海量的數(shù)據(jù)信息,因此讓學(xué)生掌握數(shù)據(jù)挖掘的思想和方法對提高計算機素養(yǎng)很有必要。即使將來從事控制、通信、游戲、圖像處理等軟件開發(fā),數(shù)據(jù)挖掘的思想和方法也很容易找到用武之地。

          2數(shù)據(jù)挖掘課程開設(shè)的可行性分析

          從計算機技術(shù)發(fā)展以及學(xué)生就業(yè)反饋的信息,筆者覺得數(shù)據(jù)挖掘的思想、方法以及算法對應(yīng)用型本科生是很重要的,并且讓學(xué)生掌握好這門課程也是完全可能的。我校從1998年以來一直在高年級本科生中開設(shè)了“人工智能”課程,但從教學(xué)效果上來看,很不理想。“數(shù)據(jù)挖掘技術(shù)”這門課程在不少地方很像“人工智能”,“數(shù)據(jù)挖掘技術(shù)”課程中的一些思想就是從“人工智能”中發(fā)展過來的,但是“數(shù)據(jù)挖掘技術(shù)”課程與“人工智能”課程有一個本質(zhì)的區(qū)別,就是數(shù)據(jù)挖掘從誕生的一開始就是面向大量的、實際的數(shù)據(jù)庫信息,因此,具有極強的應(yīng)用性,如果將“數(shù)據(jù)挖掘技術(shù)”課程看做是“數(shù)據(jù)庫技術(shù)”課程的自然延伸,同時充分利用數(shù)據(jù)結(jié)構(gòu)、人工智能、面向?qū)ο蠹夹g(shù)與方法、Web技術(shù)、概率統(tǒng)計等課程的基礎(chǔ),就能夠?qū)ⅰ皵?shù)據(jù)挖掘技術(shù)”課程開設(shè)好。于是兩年前,筆者在應(yīng)用型本科生中做了嘗試,就是取消原來的“人工智能”課程,取而代之的是“數(shù)據(jù)挖掘技術(shù)”課程,從兩年的教學(xué)實踐以及教學(xué)效果上看,行之有效。并且在教學(xué)中發(fā)現(xiàn),雖然數(shù)據(jù)挖掘技術(shù)要用到人工智能的一些思想和方法,但沒有“人工智能”課程作為前導(dǎo)課程,沒有任何影響,因為,數(shù)據(jù)挖掘中的一些人工智能思想在“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)中是自成體系的,并且是以比“人工智能”中的方法更加簡單、更加直接、更加面向應(yīng)用的方式。開設(shè)“數(shù)據(jù)挖掘技術(shù)”課程必須以下列的課程作為基礎(chǔ)(前導(dǎo)課程),當(dāng)然這些課程都是一些常規(guī)課程。

          1) 必須深入學(xué)習(xí)一門程序設(shè)計語言,通過這門語言的學(xué)習(xí)可以掌握程序設(shè)計的基礎(chǔ)知識,并且掌握面向?qū)ο笏枷腴_發(fā)的精髓,能夠進行可視化程序設(shè)計。學(xué)習(xí)程序設(shè)計絕不是記住程序設(shè)計語言的語法就行了,而要努力做到將應(yīng)用中的思想變?yōu)槌绦颉_@一點是計算機專業(yè)學(xué)生的基本素養(yǎng)。這一環(huán)節(jié)沒有做好,其余的計算機專業(yè)的專業(yè)課程,如數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)、數(shù)據(jù)庫原理、編譯原理、軟件工程等就無法學(xué)習(xí),即使學(xué)了,也不能真正掌握。筆者從計算機發(fā)展和應(yīng)用角度,推薦學(xué)習(xí)C/C++和Java,要求對C++的模板以及STL或Java的數(shù)據(jù)結(jié)構(gòu)類(在Java的util包中)能夠較好掌握。

          2) 掌握“數(shù)據(jù)結(jié)構(gòu)”課程,特別是“數(shù)據(jù)結(jié)構(gòu)”課程中的樹的特點和應(yīng)用。在“數(shù)據(jù)結(jié)構(gòu)”課程中,樹主要以二叉樹為主,對于一般的樹,在當(dāng)前的“數(shù)據(jù)結(jié)構(gòu)”課程的教學(xué)中都是將一般的樹轉(zhuǎn)化為二叉樹來進行處理的,但是在數(shù)據(jù)挖掘中這樣不太方便。數(shù)據(jù)挖掘中的很多算法都涉及到樹的應(yīng)用,并且大多都是不太規(guī)則的樹,在數(shù)據(jù)挖掘中,采用樹的思想與Java中的數(shù)據(jù)結(jié)構(gòu)類或C++中的STL相結(jié)合的方法,能夠得到很好的效果。

          3) 掌握“數(shù)據(jù)庫技術(shù)”課程中數(shù)據(jù)庫操作的特點和應(yīng)用。數(shù)據(jù)挖掘的對象主要是數(shù)據(jù)庫中的數(shù)據(jù),但作為數(shù)據(jù)挖掘?qū)ο蟮臄?shù)據(jù)庫的數(shù)據(jù)信息量往往很大,因此,為了提高挖掘的效率,需要建立數(shù)據(jù)倉庫,或者需要在算法上加工,盡量減少掃描數(shù)據(jù)庫的次數(shù)。

          4) 掌握“Web技術(shù)”。這是因為Internet已經(jīng)廣泛應(yīng)用并且深入人心,未來的軟件相當(dāng)多的都是基于Web平臺之上,因此,對于Web挖掘不僅重要,而且具有直接的應(yīng)用價值。當(dāng)前Internet上的軟件如一些知名網(wǎng)站、搜索引擎以及一些電子商務(wù)系統(tǒng),采用了數(shù)據(jù)挖掘技術(shù),得到了很多有價值的信息或提高了個性化能力,大大增強了企業(yè)的競爭力。因此,掌握“Web技術(shù)”課程對Web挖掘很有裨益。

          5) 熟悉“概率統(tǒng)計”課程中的思維方式,對各種分布以及條件概率能夠熟練掌握,在數(shù)據(jù)挖掘中的分類、關(guān)聯(lián)規(guī)則等領(lǐng)域很多挖掘方法都靈活運用了概率統(tǒng)計中的思想和方法。

          從“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)實踐中明顯看出,主要需要以上幾門課程,并且教學(xué)結(jié)束后發(fā)現(xiàn),學(xué)生不僅能夠掌握數(shù)據(jù)挖掘的思想、方法以及算法,通過對一些主要的挖掘算法的實現(xiàn),對“數(shù)據(jù)庫技術(shù)”、“程序設(shè)計語言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計”掌握得更加深刻,將“數(shù)據(jù)挖掘技術(shù)”作為“數(shù)據(jù)庫技術(shù)”的自然延伸,是“程序設(shè)計語言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計”的綜合運用得到良好效果。

          3 “數(shù)據(jù)挖掘技術(shù)”課程的設(shè)置

          一門課程的設(shè)置,不僅要根據(jù)當(dāng)前計算機技術(shù)的發(fā)展,同時也要根據(jù)當(dāng)前學(xué)生的就業(yè)需求,充分考慮到應(yīng)用型本科學(xué)生的特點。兩年前,經(jīng)過多方面的考慮以及參考了各種國內(nèi)國外數(shù)據(jù)挖掘的教材以及論文后決定,“數(shù)據(jù)挖掘技術(shù)”課程教學(xué)學(xué)時定為32課時,講課22學(xué)時,上機實驗10學(xué)時。在這個總的學(xué)時定下來之后,就是對“數(shù)據(jù)挖掘技術(shù)”課程的內(nèi)容設(shè)計,這是最重要的環(huán)節(jié)。精選出的內(nèi)容不僅要反映數(shù)據(jù)挖掘的特點以及最新發(fā)展,還要結(jié)合應(yīng)用型本科生的特點,要具有很強的針對性,重點要突出,要能夠“學(xué)以致用”。最后“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)內(nèi)容如下:

          1) 數(shù)據(jù)挖掘綜述2學(xué)時。本講側(cè)重于從兩、三個具體應(yīng)用領(lǐng)域進行分析得出采用數(shù)據(jù)挖掘技術(shù)的重要性與必要性,可以選取客戶關(guān)系管理、體育競技、信息安全和商業(yè)欺詐等作為案例,然后給出完整的數(shù)據(jù)挖掘定義和數(shù)據(jù)挖掘技術(shù)的分類,以及數(shù)據(jù)挖掘需要的一些前導(dǎo)課程的知識要點。

          2) 數(shù)據(jù)挖掘過程及當(dāng)前數(shù)據(jù)挖掘的軟件工具2學(xué)時。數(shù)據(jù)挖掘的過程是數(shù)據(jù)抽取與集成、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)的選擇與整理、數(shù)據(jù)挖掘以及結(jié)論評估。本講重點講解挖掘的過程,強調(diào)數(shù)據(jù)預(yù)處理對挖掘的重要意義,對于缺省的值、殘缺的值等的處理方法。讓學(xué)生對數(shù)據(jù)挖掘的整體過程有清楚的理解。然后介紹一下當(dāng)前流行的商品化數(shù)據(jù)挖掘軟件如IBM的IntelligentMiner和加拿大Simon Fraser 大學(xué)的DBMiner。

          3) 關(guān)聯(lián)規(guī)則挖掘與序列模式挖掘6學(xué)時。在介紹關(guān)聯(lián)規(guī)則原理的基礎(chǔ)上,主要介紹著名算法Apriori及其改進、FP_Tree算法、用于序列模式挖掘的AprioriSome算法。每個算法需要2學(xué)時,對每個算法要進行徹底分析,不僅能夠理解算法的原理、思想以及過程,還要分析算法提出人為什么會提出這種算法,在日常生活中的含義是什么,算法的優(yōu)點和缺點是什么,以及如何用Java或C++來編程實現(xiàn)該算法。最后,對多層次關(guān)聯(lián)以及數(shù)量關(guān)聯(lián)規(guī)則挖掘做個簡單介紹即可。

          4) 分類技術(shù)4學(xué)時。介紹分類的原理,主要講解ID3和C4.5、樸素貝葉斯分類,簡單介紹一下BP神經(jīng)網(wǎng)絡(luò)的分類。對于C4.5要求能夠從原理上把握整個算法,能夠進行連續(xù)值的離散化處理,理解C4.5比ID3的優(yōu)勢所在;對于樸素貝葉斯分類,要深刻理解該分類的原理以及貝葉斯信念網(wǎng)絡(luò)的工作原理。特別的,對于FP_TREE以及C4.5算法的實現(xiàn),需要用到不規(guī)則樹,提出用C++或Java解決這種不規(guī)則樹的方法。

          5) 聚類技術(shù)4學(xué)時。在介紹聚類的重要性和分類的基礎(chǔ)上主要介紹劃分聚類PAM算法思想以及基于密度聚類DBSCAN,對于當(dāng)前重要的聚類STING和CLIQUE做個簡單介紹。最后,比較聚類和分類的不同之處。

          6) Web挖掘與個性化推薦技術(shù)4學(xué)時。對于Web挖掘從內(nèi)容挖掘、訪問行為挖掘和結(jié)構(gòu)挖掘三個方面進行講解,重點講解個性化技術(shù)。對基于最小關(guān)聯(lián)規(guī)則集的個性化推薦以及基于協(xié)作篩的個性化推薦作深入剖析,并指出在當(dāng)今網(wǎng)站設(shè)計中的重要意義。

          7) 上機實驗設(shè)計。精選五個上機實驗。第一個實驗是關(guān)聯(lián)規(guī)則的Apriori算法或FP_Tree算法的實現(xiàn),兩個任選一個,如果選擇Apriori的話,需要采取一些效率改進措施;第二個實驗是序列模式挖掘中的AprioriSome算法;第三個實驗是分類技術(shù)中的ID3或C4.5算法,這兩個算法的主體相同,任做一個即可;第四個實驗是聚類中的PAM或DBSCAN算法,兩個任選一個;第五個實驗是利用協(xié)作篩進行個性化網(wǎng)站的智能推薦。以上五個實驗每個實驗2學(xué)時,建議編程語言采用Java或C++,最后挖掘結(jié)果具有可理解性。

          當(dāng)然,以上的課程內(nèi)容設(shè)計會隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,不斷進行微調(diào),以適應(yīng)不斷變化的計算機技術(shù)發(fā)展與社會需求。

          4 “數(shù)據(jù)挖掘技術(shù)”教學(xué)實踐總結(jié)

          兩年前,雖然已對“數(shù)據(jù)挖掘技術(shù)”課程作了充分準(zhǔn)備,但在剛開設(shè)這門課程的時候,很擔(dān)心這門“高深莫測”的課程的教學(xué)效果。但經(jīng)過兩年的教學(xué)實踐發(fā)現(xiàn),這門課程的教學(xué)效果比預(yù)想的還要好。通過對該門課程的學(xué)習(xí),學(xué)生不僅基本掌握了數(shù)據(jù)挖掘的基本原理和算法,同時對以前的一些主干課程如數(shù)據(jù)結(jié)構(gòu)的理解和運用有了非常深刻的認(rèn)識。更為重要的是,本課程的五個實驗都是數(shù)據(jù)挖掘領(lǐng)域中最經(jīng)典、最重要的算法,通過對這些算法的編程實現(xiàn),不僅理解了數(shù)據(jù)挖掘關(guān)鍵算法的精髓,同時,這些數(shù)據(jù)挖掘算法實現(xiàn)的程序經(jīng)過不斷改進、加工,性能不斷提高,由于都是源代碼,可以將這些算法應(yīng)用到一些實用的軟件系統(tǒng)如客戶關(guān)系管理系統(tǒng)、個性化網(wǎng)站中去,收到良好效果。此外,在網(wǎng)上的一些數(shù)據(jù)挖掘論壇中,經(jīng)常看到一些初學(xué)數(shù)據(jù)挖掘的研究生或技術(shù)人員很想看一看數(shù)據(jù)挖掘經(jīng)典算法的具體程序?qū)崿F(xiàn),我們也將這兩年不斷改進的程序源代碼作為免費資源贈送給了不少同行,也為數(shù)據(jù)挖掘的推廣應(yīng)用貢獻了微薄之力。

          5結(jié)束語

          “數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)嘗試目前主要針對的是本校應(yīng)用型計算機專業(yè)本科生,雖然收到了良好的效果,但“數(shù)據(jù)挖掘技術(shù)”絕不僅僅是計算機專業(yè)學(xué)生才需要掌握的課程,對于我校通信系、電力系、自動化系等工科專業(yè),經(jīng)濟系、管理系甚至一些文科類的學(xué)生也很有價值,因此,怎樣在非計算機專業(yè)的應(yīng)用型本科生中開設(shè)好這門新興課程,甚至在高職高專學(xué)生中也開設(shè)好這門課程,則是需要作進一步的探索和嘗試。

          參考文獻:

          [1] 毛國君. 數(shù)據(jù)挖掘原理與算法[M]. 北京:清華大學(xué)出版社,2005.

          [2] 陳文偉. 數(shù)據(jù)挖掘技術(shù)[M]. 北京工業(yè)大學(xué)出版社,2002.

          [3] 余力. 電子商務(wù)個性化[M]. 北京:清華大學(xué)出版社,2007.

          A Test to Applied College Students on Teaching Data Mining

          XU Jin-bao

          (Dept. of Computer Engineering, Nanjing Institute of Technology,

          Nanjing 211100,China)

          篇6

          隨著數(shù)據(jù)挖掘、商務(wù)智能技術(shù)的快速發(fā)展與廣泛應(yīng)用,亟需對信息管理專業(yè)的本科生加強對相關(guān)知識的介紹,此時進行課程改革,調(diào)整、增加授課學(xué)時和實踐環(huán)節(jié)有重要意義。數(shù)據(jù)挖掘是一門與多學(xué)科交叉的新興計算機專業(yè)課程,其課程內(nèi)容豐富、應(yīng)用范圍廣、實踐工具類型繁多。在有限授課時間內(nèi),如何選擇適合于信息管理專業(yè)的本科生的課程內(nèi)容、案例與軟件工具,選用何種有針對性的教學(xué)方法,是進行數(shù)據(jù)挖掘課程設(shè)計需要解決的主要問題。

          一、國內(nèi)外數(shù)據(jù)挖掘類課程建設(shè)研究分析

          近年來,數(shù)據(jù)挖掘與商務(wù)智能技術(shù)發(fā)展迅速,充分借鑒國外相關(guān)研究,尤其是ACM SIGKDD課程委員會對數(shù)據(jù)挖據(jù)課程建設(shè)建議,對進行數(shù)據(jù)挖掘類課程的教學(xué)建設(shè)研究有重要意義。ACM(美國計算機協(xié)會)于1998年成立了SIGKDD(知識發(fā)現(xiàn)興趣小組),致力于知識發(fā)現(xiàn)與數(shù)據(jù)挖掘的相關(guān)研究,ACM SIGKDD課程委員會連續(xù)多年多次更新其主要課程――數(shù)據(jù)挖據(jù)課程的建議,其中委員會將數(shù)據(jù)挖掘課程分為基礎(chǔ)部分與高級主題,基礎(chǔ)部分覆蓋了數(shù)據(jù)挖掘的基本方法,高級主題既有數(shù)據(jù)挖掘基本方法的深入研究,又有更高級算法的介紹。國外很多大學(xué)的計算機科學(xué)學(xué)院、商學(xué)院都開設(shè)了數(shù)據(jù)挖掘類課程并同時進行相關(guān)研究。波士頓大學(xué)開設(shè)了“數(shù)據(jù)管理與商務(wù)智能”課程,課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。許多國外著名大學(xué)建立了教學(xué)管理系統(tǒng),提供大量的案例、在線討論和在線輔導(dǎo)功能。國內(nèi)很多學(xué)校都開設(shè)了數(shù)據(jù)挖掘的相關(guān)課程,我國大多數(shù)高校的課程大綱內(nèi)容與國外大致相同,只是在實踐部分選用了不同的商務(wù)案例。數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域廣泛,因此可以根據(jù)開課學(xué)院和專業(yè)選擇合適的實例。

          二、根據(jù)信息管理專業(yè)本科生培養(yǎng)要求確定課程目標(biāo)

          數(shù)據(jù)挖掘課程是一門綜合性很強的前沿學(xué)科,對計算機軟硬件、數(shù)據(jù)庫、人工智能技術(shù)、統(tǒng)計學(xué)算法、優(yōu)化算法等基礎(chǔ)知識都有較高的要求。因此該門課程開設(shè)在學(xué)生大三下學(xué)期,既有相關(guān)知識的基礎(chǔ),又為大四做畢業(yè)設(shè)計提供了一種思路。信息管理專業(yè)是計算機與管理相結(jié)合的專業(yè),旨在培養(yǎng)具備信息系統(tǒng)開發(fā)能力與信息資源分析與處理能力的綜合應(yīng)用型人才。對信息管理專業(yè)的學(xué)生而言,本課程主要的目標(biāo)是數(shù)據(jù)挖掘算法原理理解、數(shù)據(jù)挖掘算法在商務(wù)管理問題中的應(yīng)用以及常用數(shù)據(jù)倉庫與數(shù)據(jù)挖掘軟件的熟練應(yīng)用和二次開發(fā)。

          三、基于模塊化方法的課程內(nèi)容分析

          模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來設(shè)計教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進行分解,使其成為多個相對獨立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。學(xué)生可以根據(jù)個人興趣和職業(yè)取向在不同模塊之間進行選擇和搭配,從而實現(xiàn)不同的教學(xué)目標(biāo)和人才培養(yǎng)要求[1,2]。模塊化教學(xué)本質(zhì)上是以知識點與實踐的細化為出發(fā)點研究的。商務(wù)智能方法本身非常豐富,實踐應(yīng)用也是課程的主要特點之一,因此十分適合使用模塊化的知識分解方式。本課程的知識點模塊管理分為兩個層次,一是從宏觀角度設(shè)計課程的基礎(chǔ)內(nèi)容模塊和高級主題模塊;二是從微觀角度針對較為復(fù)雜的教學(xué)內(nèi)容進行的知識點劃分。

          1.課程主要內(nèi)容模塊化分析。目前該課程包括十章理論內(nèi)容,分別為數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的基本知識、數(shù)據(jù)倉庫的OLAP技術(shù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)、概念描述:特征化與比較、挖掘大型數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則、分類與預(yù)測、聚類分析、復(fù)雜類型數(shù)據(jù)挖掘和序列模式挖掘。根據(jù)模塊化管理的宏觀角度分類,課程內(nèi)容的第一至五章屬于基礎(chǔ)理論部分和簡單數(shù)據(jù)挖掘技術(shù)的介紹,可以作為基礎(chǔ)內(nèi)容模塊;第六至八章為數(shù)據(jù)挖掘的核心算法,其中既有基礎(chǔ)理論與技術(shù)方法,又可深入到較難的方法和復(fù)雜的應(yīng)用,因此介于基礎(chǔ)內(nèi)容與高級主題之間;第九、十章可以算做課程的高級主題模塊;另外,課程的實踐模塊既包含數(shù)據(jù)倉庫的建設(shè)又包含數(shù)據(jù)挖掘算法的應(yīng)用,難度也介于基礎(chǔ)內(nèi)容與高級主題之間。

          2.復(fù)雜知識點的模塊化管理。從微觀角度對知識點進行設(shè)計主要針對的是上述的高級主題、以及難度介于基礎(chǔ)內(nèi)容與高級主題之間的章節(jié),由于這些章節(jié)知識點在難度上有一定層次,講授內(nèi)容彈性比較大,因此需要在課程設(shè)計中明確一定課時量所要達到的難度。以商務(wù)智能技術(shù)中的分類算法為例:首先一般的入門課程都會介紹分類算法的概念和基本原理;接著開始介紹分類算法的基礎(chǔ)算法――決策樹,而決策樹算法中又包含ID3等多種算法,并且除了決策樹外,還有其他更高級的分類算法;在真正使用分類法進行預(yù)測時,還要分析預(yù)測準(zhǔn)確度;最終要將所學(xué)知識加以應(yīng)用。這樣就形成了一個結(jié)構(gòu)清晰、難度循序漸進的知識點模塊的層次關(guān)系。在宏觀角度、微觀角度對教學(xué)內(nèi)容進行分類的前提下進行相應(yīng)的授課方法與考查方法的研究,才能真正有助于學(xué)生的學(xué)習(xí)。

          四、授課與考核方法設(shè)計

          對不同層次學(xué)生要求不同,這種不同既體現(xiàn)在知識點的要求上,又直接體現(xiàn)在任務(wù)的難易性程度上,這都需要教師在課程設(shè)計時充分考慮不同要求情況下的不同的授課方式,并使學(xué)生清楚自己需要掌握的程度。對于高級算法和實現(xiàn)部分,通常可以選擇一到兩章內(nèi)容采用專題探討式的教學(xué)方法。這種方法是指在教師啟發(fā)和引導(dǎo)下,以學(xué)生為主體,選擇某個基本教學(xué)單元為專題,學(xué)生自主研究作為知識傳遞的基本形式,將多種靈活的教學(xué)方式綜合運用到教學(xué)環(huán)節(jié)的教學(xué)方法[3]。根據(jù)信管專業(yè)培養(yǎng)方案的培養(yǎng)目標(biāo)、以及對學(xué)生調(diào)研的情況,實踐環(huán)節(jié)比較適合選擇成熟的商務(wù)智能工具進行數(shù)據(jù)的整合和多維數(shù)據(jù)建模,也就是直接使用現(xiàn)成的;或者使用數(shù)據(jù)挖掘軟件進行數(shù)據(jù)建模,完善數(shù)據(jù)挖掘算法。可以針對學(xué)生管理基礎(chǔ)課與IT基礎(chǔ)課知識的掌握情況,選擇合適的工具為學(xué)生設(shè)計綜合性實驗。實驗中給出部分操作步驟,并在實驗后期僅給出數(shù)據(jù)與工具,讓學(xué)生自己設(shè)計數(shù)據(jù)倉庫、進行數(shù)據(jù)挖掘、并對挖掘結(jié)果進行多種形式的展示。

          五、結(jié)論

          本文通過國內(nèi)外數(shù)據(jù)挖掘課程內(nèi)容、分類、教學(xué)方法的分析,針對信管專業(yè)本科生的培養(yǎng)要求,研究了數(shù)據(jù)挖掘課程建設(shè)的主要內(nèi)容,并針對知識點的不同模塊,實行不同的授課方式,使學(xué)生更加明確重點、難點和擴展內(nèi)容,提高了學(xué)生的聽課效率,對教學(xué)內(nèi)容的模塊化分類、以及相應(yīng)的授課方式的研究成果仍可繼續(xù)發(fā)揮作用,并進行更深入的研究和實踐。

          參考文獻:

          [1]韋艷艷,張超群.模塊化教學(xué)與學(xué)習(xí)遷移[J].當(dāng)代教育論壇,2018,(5).

          [2]鄭浩,陶虎,王曉輝.高校模塊化教學(xué)模式及其效果評價方法[J].科技信息,2012,(25).

          篇7

          關(guān)鍵詞:數(shù)據(jù)挖掘;理論創(chuàng)新;多元教學(xué);多梯度實驗

          0 引 言

          在當(dāng)前大數(shù)據(jù)時代背景下,如何從海量數(shù)據(jù)中挖掘并提煉出對人們真正有用的知識,是大數(shù)據(jù)研究的難點問題,同時也是目前數(shù)據(jù)挖掘面臨的關(guān)鍵和核心問題[1]。數(shù)據(jù)挖掘作為當(dāng)前計算機專業(yè)的一個前沿課程,是一個綜合性的交叉課程,也是重要的學(xué)術(shù)研究方向,其內(nèi)容涉及多方面基礎(chǔ)理論學(xué)科和應(yīng)用性強的技術(shù)領(lǐng)域,是提高計算機專業(yè)學(xué)生應(yīng)用實踐能力和理論創(chuàng)新能力的載體課程,在整個計算機專業(yè)的學(xué)習(xí)中具有極為重要的地位。

          1 教學(xué)現(xiàn)狀

          數(shù)據(jù)挖掘作為一門同時具備應(yīng)用性和學(xué)術(shù)性的課程,早期屬于計算機專業(yè)研究生培養(yǎng)的專業(yè)課程,但隨著數(shù)據(jù)挖掘在各個領(lǐng)域的廣泛應(yīng)用,現(xiàn)已成為計算機專業(yè)本科培養(yǎng)的專業(yè)選修課之一。目前,數(shù)據(jù)挖掘課程在教學(xué)內(nèi)容、教學(xué)方法和實驗教學(xué)模式上存在諸多不足之處。

          (1)教W內(nèi)容陳舊。目前的教學(xué)內(nèi)容一般根據(jù)某本數(shù)據(jù)挖掘教科書進行講解,由于數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,一本教科書往往很難全面概括數(shù)據(jù)挖掘的內(nèi)容、方法和技術(shù)。

          (2)基礎(chǔ)理論算法與實驗教學(xué)脫節(jié)。當(dāng)前的教學(xué)路線往往是使本科學(xué)生從了解和掌握數(shù)據(jù)挖掘的基本任務(wù)開始,然后講授數(shù)據(jù)挖掘的各種基本算法,最后上機實驗。這一教學(xué)方式側(cè)重于以應(yīng)用為主,主要目標(biāo)在于培養(yǎng)計算機工程的應(yīng)用人才。然而,由于基礎(chǔ)理論算法與實驗教學(xué)分開講解,使得學(xué)生缺乏對使用數(shù)據(jù)挖掘解決實際問題的能力。

          (3)理論創(chuàng)新意識的缺乏。在當(dāng)前的本科教學(xué)中側(cè)重工程實踐能力的培養(yǎng),忽略理論創(chuàng)新的培養(yǎng)。在數(shù)據(jù)挖掘課程中,理論創(chuàng)新是指學(xué)生對所學(xué)的數(shù)據(jù)挖掘算法有自己的見解,能有意識地思考目前數(shù)據(jù)挖掘面臨的問題并提出新的數(shù)據(jù)挖掘算法。

          (4)實驗教學(xué)僵化。當(dāng)前的實驗教學(xué)往往是固定的幾個算法驗證性實驗,對于不同學(xué)習(xí)能力的人而言,實驗教學(xué)往往很難達到理想的效果。

          目前,對日新月異的科技發(fā)展、以科技創(chuàng)新和技術(shù)升級為核心特征的激烈國際競爭,我國自主創(chuàng)新能力較為薄弱的問題已經(jīng)越來越成為信息化發(fā)展的瓶頸[2],這也給數(shù)據(jù)挖掘教學(xué)帶來巨大挑戰(zhàn),即教師如何在教學(xué)過程中提高學(xué)生的理論創(chuàng)新能力?

          2 教學(xué)方法的改革

          2.1 教學(xué)內(nèi)容的前沿性與統(tǒng)一性

          作為一門新興的前沿課程,該門課程內(nèi)容、方法和技術(shù)仍處于發(fā)展和探索階段。通過固定的教材去系統(tǒng)地傳授數(shù)據(jù)挖掘的內(nèi)容顯然是不太合理的。因此,與傳統(tǒng)學(xué)科不同,數(shù)據(jù)挖掘教學(xué)內(nèi)容需要進行更新,并根據(jù)學(xué)生的接受能力進行甄別篩選。同時,要求任課教師在不斷發(fā)展的新技術(shù)與相對穩(wěn)定的教材中尋找一條貫穿整個教學(xué)內(nèi)容的主線,在講課的過程中,結(jié)合數(shù)據(jù)挖掘研究進展,配合自己的研究成果,把最新的技術(shù)融入到課堂中。此外,由于數(shù)據(jù)挖掘是多學(xué)科的交叉課程,內(nèi)容涉及統(tǒng)計學(xué)、算法、數(shù)據(jù)庫、機器學(xué)習(xí)、模式識別、可視化等,而本科生的知識體系薄弱,在短時間難以透徹理解各部分內(nèi)容。因此,教學(xué)過程中教師應(yīng)合理設(shè)計教學(xué)大綱和方案,有機地學(xué)內(nèi)容,讓學(xué)生對數(shù)據(jù)挖掘有一個整體的了解。建立不同數(shù)據(jù)挖掘任務(wù)之間的相互關(guān)聯(lián),同時以項目講解的方式將數(shù)據(jù)挖掘涉及的數(shù)據(jù)預(yù)處理、聚類分析、分類預(yù)測、噪聲檢測、關(guān)聯(lián)規(guī)則挖掘等有機結(jié)合在一起。

          2.2 理論創(chuàng)新的多元教學(xué)

          針對現(xiàn)有本科生教學(xué)中理論創(chuàng)新意識的缺乏,嘗試進行多元化教學(xué)模式,主要從以下4個方面展開。

          (1)區(qū)分教學(xué)內(nèi)容的難易度,將教學(xué)內(nèi)容分為基礎(chǔ)內(nèi)容與進階內(nèi)容。在講授中注重基礎(chǔ)內(nèi)容的原理性,并有意識地讓學(xué)生接觸一些前沿性的理論拓展知識。比如在講解分類算法時,首先專注幾個經(jīng)典的分類算法,如K―最鄰近、決策樹、樸素貝葉斯和支持向量機等。同時,在此基礎(chǔ)上,給學(xué)生講述目前分類的一些前沿方法,如集成學(xué)習(xí)、深度學(xué)習(xí)和遷移學(xué)習(xí)等。

          (2)以問題為驅(qū)動教學(xué)。在講解聚類算法時,可以通過“物以類聚,人以群分”的思想展開,具體介紹K―MEANS和DBSCAN兩個具有代表性的聚類算法,讓學(xué)生思考數(shù)據(jù)挖掘不同算法提出的原因、基本思想和優(yōu)劣性,初步引導(dǎo)學(xué)生的自我思考、自我學(xué)習(xí)的創(chuàng)新思維能力。同時,針對數(shù)據(jù)具有的高維性,讓學(xué)生進一步思考“高維詛咒”問題及在此問題上展開的子空間聚類的研究。

          (3)建立“教研統(tǒng)一”研究式教學(xué)方法,利用教師現(xiàn)有科研促進和服務(wù)于教學(xué),探索形成“科研嵌入”理論教學(xué)內(nèi)容。將教師在自己的研究與教學(xué)內(nèi)容進行有機結(jié)合,豐富教學(xué)內(nèi)容,拓寬學(xué)生視野,提高學(xué)生實踐能力和創(chuàng)新能力,實現(xiàn)科研成果融入教學(xué)。這樣既提高了學(xué)生學(xué)習(xí)知識的興趣性,又培養(yǎng)了潛在的科學(xué)素養(yǎng)。此外,在整個教學(xué)環(huán)節(jié)中布置兩個任務(wù),一是讓學(xué)生進行數(shù)據(jù)挖掘的文獻調(diào)研(主要涉及數(shù)據(jù)挖掘的歷史、現(xiàn)狀、面臨的挑戰(zhàn)及當(dāng)前的行業(yè)應(yīng)用),二是在課程結(jié)束后進行主題研究報告,每個學(xué)生選擇自己感興趣的一個主題進行,研究報告的目的是讓學(xué)生深入理解所學(xué)內(nèi)容,為后續(xù)的科研工作打下基礎(chǔ)。

          (4)教學(xué)模式由傳統(tǒng)“填鴨式”向“互動式”教學(xué)轉(zhuǎn)變。通過研討方式引導(dǎo)學(xué)生去思考,激發(fā)學(xué)生的求知欲,充分調(diào)動其學(xué)習(xí)的積極性和主觀能動性。通過具體實例,讓學(xué)生知道算法的應(yīng)用場合,提高學(xué)習(xí)興趣和效率。

          2.3 多梯度實驗教學(xué)

          實驗教學(xué)是使學(xué)生在實踐環(huán)節(jié)將數(shù)據(jù)挖掘課程中學(xué)習(xí)的理論算法應(yīng)用于實踐,幫助學(xué)生理解和掌握知識,提高動手能力。傳統(tǒng)的上機實驗往往是側(cè)重幾個經(jīng)典算法的實現(xiàn),如KMEANS、KNN、ID3決策樹和LOF算法等。然而,數(shù)據(jù)挖掘是一門工程應(yīng)用性較強的學(xué)科,這種算法驗證實驗很難讓學(xué)生體會到數(shù)據(jù)挖掘的實際應(yīng)用,因此,從基礎(chǔ)能力培養(yǎng)、工程應(yīng)用及創(chuàng)新研究3個方面設(shè)計多梯度實驗。

          首先,按照由淺入深的原則設(shè)計2個經(jīng)典算法實現(xiàn),如KMEANS和 ID3決策樹。這個實驗為算法型實驗,主要是幫助學(xué)生通過實驗更好地了解所學(xué)算法,學(xué)生也可以自己選擇聚類分析和分類預(yù)測的任意兩個算法進行實現(xiàn)。

          其次,設(shè)計一個簡單綜合型實驗,比如垃圾郵件的分類系統(tǒng),要求學(xué)生完成從數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理到整個系統(tǒng)的實現(xiàn)。主要考查學(xué)生綜合運用數(shù)據(jù)挖掘知識,解決實際問題的能力,注重工程能力的培養(yǎng)。

          最后是創(chuàng)新算法的實驗設(shè)計,比如子空間聚類算法的實現(xiàn)。這個實驗注重部分學(xué)生創(chuàng)新能力的培養(yǎng),尤其是致力于以后從事科學(xué)研究的學(xué)生。學(xué)生可以根據(jù)自己的愛好,選擇算法型實驗和綜合型實驗,也可以選擇算法型實驗和創(chuàng)新算法設(shè)計實驗。多梯度實驗的目的主要是希望針對不同學(xué)生的學(xué)習(xí)興趣及將來的發(fā)展方向,給出合適的實驗教學(xué)。實驗的整體難度由易到難,層層深入,有利于學(xué)生實踐能力和創(chuàng)新能力的培養(yǎng)。

          3 結(jié) 語

          當(dāng)前,數(shù)據(jù)挖掘正處在快速發(fā)展的過程中,各個領(lǐng)域的大量應(yīng)用使得對數(shù)據(jù)挖掘這門課程的工程應(yīng)用能力要求越來越高,需要學(xué)生具有更好的創(chuàng)新能力,因此,數(shù)據(jù)挖掘課程的教學(xué)也同樣需要調(diào)整教學(xué)內(nèi)容和教學(xué)手段來緊跟其發(fā)展的步伐。基于此,我們提出在課程內(nèi)容的前沿性、教學(xué)模式的多元性及實驗教學(xué)的多梯度性上進行改革,從而達到在培養(yǎng)學(xué)生工程實踐能力的同時,提高其創(chuàng)新思維能力。

          基金項目:電子科技大學(xué)“互聯(lián)網(wǎng)+”課程建設(shè)教改專項。

          第一作者簡介:邵俊明,男,教授,研究方向為數(shù)據(jù)挖掘、機器學(xué)習(xí)及在交叉學(xué)科的應(yīng)用研究, 。

          篇8

          1程序設(shè)計課程與數(shù)據(jù)挖掘技術(shù)概述

          程序設(shè)計課程是培養(yǎng)學(xué)生軟件開發(fā)能力的一門課程。目前國內(nèi)的理工類學(xué)校或相關(guān)專業(yè)普遍都為學(xué)生開設(shè)了程序設(shè)計課程。一直以來,如何了解多數(shù)學(xué)生在學(xué)習(xí)程序設(shè)計中所遇到的困難,如何幫助學(xué)生克服學(xué)習(xí)中的障礙,都要靠教師多年的教學(xué)經(jīng)驗來解決。這種傳統(tǒng)的教學(xué)方法顯然不能滿足知識更新迅速的計算機教學(xué)過程。因此需要研究如何從學(xué)生提交的程序作業(yè)中利用數(shù)據(jù)庫技術(shù)及時發(fā)現(xiàn)問題和解決問題。數(shù)據(jù)挖掘(Data Mining)技術(shù)是近年來新興的數(shù)據(jù)管理與分析技術(shù),主要用于發(fā)現(xiàn)數(shù)據(jù)中隱藏的線索,輔助人們進行科學(xué)分析和決策。數(shù)據(jù)挖掘普遍需要三個階段:數(shù)據(jù)準(zhǔn)備、挖掘操作和結(jié)果表達。下面以C語言為例介紹在程序設(shè)計課程教學(xué)中,對學(xué)生程序作業(yè)進行數(shù)據(jù)挖掘的一種應(yīng)用方案。

          2程序設(shè)計課程的數(shù)據(jù)挖掘過程

          2.1 數(shù)據(jù)準(zhǔn)備

          根據(jù)程序設(shè)計課程的教學(xué)特點,我們按錯誤的嚴(yán)重程度將所有學(xué)生提交的程序作業(yè)的評閱結(jié)果歸納為以下5類,即題目錯誤、編譯時語法錯誤、編譯時語法警告、編譯后運行結(jié)果不完全正確、編譯后運行結(jié)果完全正確。為了對學(xué)生程序作業(yè)中的問題進一步分析原因,我們對以下8類數(shù)據(jù)進行分析,即功能模塊函數(shù)序列、邏輯結(jié)構(gòu)序列、語句類型序列、表達式序列、運算符序列、標(biāo)識符序列、數(shù)值常量序列以及簡化的字符常量序列。

          要將文件形式的源程序分解為以上8項數(shù)據(jù),就需要按語法規(guī)則完成以下步驟:

          (1) 過濾程序中的注釋信息和空白字符,產(chǎn)生預(yù)處理元素序列;

          (2) 根據(jù)#include和#define等標(biāo)記替換用戶指定的包含文件和宏定義等預(yù)處理元素;

          (3) 對照語法元素表,進一步將程序分解為關(guān)鍵字、標(biāo)識符、常量、運算符、定界符等語法元素序列;

          (4) 將數(shù)值常量以空格為連接符連接為一個數(shù)值常量序列;

          (5) 將字符及字符串常量保留%d等格式字符和\n等轉(zhuǎn)義字符后刪去多余字符,以空格為連接符連接為一個簡化的字符常量序列;

          (6) 將所有運算符以空格為連接符連接為一個運算符序列;

          (7) 將用戶變量名和函數(shù)名統(tǒng)一編碼后與程序中的關(guān)鍵字構(gòu)成標(biāo)識符序列;

          (8) 將運算符與標(biāo)識符及常量以空格為連接符連接為一個表達式序列;

          (9) 將程序中的語句分類為表達式語句、函數(shù)調(diào)用語句、空語句、復(fù)合語句、if語句、else語句、switch語句、case語句、while語句、do語句、for語句、break語句、continue語句、return語句和goto語句,并組織成語句類型序列;

          (10) 對語句按分號和大括號等定界符劃分為模塊函數(shù)序列;

          (11) 將模塊內(nèi)語句按順序、選擇、循環(huán)的分類構(gòu)成邏輯結(jié)構(gòu)序列。

          2.2 挖掘操作的過程

          由于篇幅所限,下面僅以程序設(shè)計教學(xué)中的典型題目“溫度轉(zhuǎn)換”的數(shù)值常量序列和運算符序列為考察數(shù)據(jù)具體描述挖掘過程。

          (1)數(shù)據(jù)清理

          首先將數(shù)據(jù)準(zhǔn)備階段的各類數(shù)據(jù)與評閱結(jié)果組成一個數(shù)據(jù)記錄集(如表1所示)。由于分析的目的是找出教學(xué)中造成學(xué)生程序錯誤的主要因素,而題目錯誤僅僅是因為學(xué)生操作馬虎,與掌握程序設(shè)計的能力并不相關(guān),因此把評閱結(jié)果全部正確的和題目錯誤的記錄過濾掉,只保留評閱結(jié)果為語法錯誤、語法警告和運行錯誤的記錄(如表2所示)。

          (2)構(gòu)造1項侯選集,發(fā)現(xiàn)頻繁1項集

          將所有數(shù)據(jù)作為1項集中的元素,構(gòu)造1項侯選集,并計算不同元素的數(shù)量,如表3所示。保留其中數(shù)量較多的元素,濾掉其它元素,得到頻繁1項集,如表4所示。

          (3)構(gòu)造2項侯選集,發(fā)現(xiàn)頻繁2項集

          將所有頻繁1項集元素兩兩組合,構(gòu)成侯選2項集,并計算組合后的數(shù)量,如表5所示。保留其中數(shù)量比較多的元素,濾掉其它元素,得到頻繁2項集{=/*(-),編譯警告}。

          2.3 結(jié)果表達和解釋

          保留下來的2項集的兩個元素分別代表了錯誤類型和造成該類型錯誤的主要語法元素序列,即現(xiàn)有數(shù)據(jù)表明(輸入函數(shù)中)未使用取地址運算符是造成編譯警告的主要原因。

          3數(shù)據(jù)挖掘應(yīng)用效果

          在現(xiàn)實的教學(xué)過程中,我們對2005級8個班275名學(xué)生的5385個程序進行了統(tǒng)計和分析,發(fā)現(xiàn)題目錯誤的比例約占1.49%,編譯錯誤的比例約占3.38%,編譯時警告的比例約占1.21%,運行錯誤的比例約占8.10%,運行正確的比例約占85.82%。其中造成編譯錯誤的主要原因是注釋信息或各級括號定界符未配對;造成編譯警告的主要原因是格式輸入函數(shù)調(diào)用時缺少地址運算符或用戶變量定義后未使用;造成運行錯誤的主要原因是除法運算符兩側(cè)運算量為整型常量。下面的圖表反映了在程序設(shè)計課程的教學(xué)中沒有使用數(shù)據(jù)挖掘技術(shù)和使用了數(shù)據(jù)挖掘技術(shù)的教學(xué)效果對比。

          圖1為未采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評閱結(jié)果統(tǒng)計圖,其中靠上的折線表示每次學(xué)生作業(yè)的平均分?jǐn)?shù),靠下的折線表示每次學(xué)生作業(yè)的嚴(yán)重語法錯誤發(fā)生率。可以發(fā)現(xiàn),學(xué)生每次作業(yè)的平均成績基本呈水平小波動隨機形狀,表明學(xué)生成績在學(xué)習(xí)過程中沒有明顯變化,同樣嚴(yán)重語法錯誤發(fā)生率也沒有明顯變化。圖2為一直采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評閱結(jié)果統(tǒng)計圖,可以發(fā)現(xiàn)學(xué)生的成績隨著系統(tǒng)的使用時間增加而穩(wěn)定的上升。在第三次作業(yè)以后基本保持在90分以上的水平,同時嚴(yán)重語法錯誤的比例也快速的下降,在第二次作業(yè)以后就控制在5%以下。以上對比說明本方法比較準(zhǔn)確地發(fā)現(xiàn)了學(xué)生程序中的語法錯誤和算法錯誤的主要因素,使學(xué)生得到及時地反饋并在以后的程序設(shè)計中避免相似的錯誤,從而明顯的改善了教學(xué)效果。

          參考文獻:

          [1] 李建中,王珊 . 數(shù)據(jù)庫系統(tǒng)原理[M] . 北京:電子工業(yè)出版社,2004.

          [2] Richard J. Roiger,Michael W.Geatz . 數(shù)據(jù)挖掘教程[M] .北京:清華大學(xué)出版社,2003.

          篇9

          Data Mining Based Course Competence Development of C Programming Language for Vocational College

          GUO Xiao-chen1,2

          (Chenzhou Vocational Technical College,Chenzhou 423000,China)

          Abstract:In this paper we utilize the data mining technology into the course of C programming language in vocational colleges in order to classify and predict the examination result, and eventually find out the implied information. This is helpful to make guidance for improving the quality of teaching and deepen the teaching reform.

          Key words: data mining; concept description;class comparision; C Programming Language

          1 引言

          C語言程序設(shè)計課程是計算機應(yīng)用和電子信息工程專業(yè)的必修程序設(shè)計課,是知識性、技能性和實踐性很強的課程。主要培養(yǎng)學(xué)生利用計算機來處理實際問題的能力和培養(yǎng)學(xué)生程序設(shè)計的思維能力,使學(xué)生能夠掌握C語言的基本語法和算法,能利用C語言進行基本的程序設(shè)計。

          C語言程序設(shè)計主要由數(shù)據(jù)描述、程序控制兩大模塊組成,包括基礎(chǔ)數(shù)據(jù)類型、流程控制、函數(shù)和復(fù)雜數(shù)據(jù)類型等四個單元的內(nèi)容。筆者從事多年的C語言程序設(shè)計教學(xué)工作,如何利用有效數(shù)據(jù)分析工具,將所積累的豐富的數(shù)據(jù)轉(zhuǎn)換為有價值的知識,了解和分析學(xué)生的知識掌握及能力培養(yǎng)情況,并采用相應(yīng)的教學(xué)改革。

          2 數(shù)據(jù)挖掘技術(shù)的概念和內(nèi)涵

          數(shù)據(jù)挖掘(DataMining)是對大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù),進行抽取、轉(zhuǎn)換、分析和模型化處理,從而提取能輔助決策的關(guān)鍵性數(shù)據(jù),并能結(jié)合應(yīng)用領(lǐng)域的特點,推導(dǎo)出有用的知識的過程;簡而言之,數(shù)據(jù)挖掘就是深層次的數(shù)據(jù)信息分析方法。通常采用概念/類描述、關(guān)聯(lián)分析、分類和預(yù)測、聚類分析及演變分析等方法來完成數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的過程是一個線性的過程,依據(jù)不同信息平臺的數(shù)據(jù)類型,采用面向環(huán)境的管理方式,實現(xiàn)面向環(huán)境要求的數(shù)據(jù)挖掘。數(shù)據(jù)挖掘的過程一般由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋與評估四個階段組成。

          3 數(shù)據(jù)挖掘技術(shù)在《C語言程序設(shè)計》課程能力培養(yǎng)分析中的應(yīng)用

          3.1 數(shù)據(jù)倉庫的建立

          挖掘所需要的數(shù)據(jù)來源于某高職院校近3年來計算機應(yīng)用和電子信息工程兩專業(yè)近860名學(xué)生的C語言程序設(shè)計這門課程的期末考試成績、實驗成績及實習(xí)成績,給定屬性學(xué)號(ID)、姓名(name)、性別(gender)、專業(yè)(major)、科類(section)、成績(result)。成績部分包括考試成績(test_result簡稱為t_r)、實驗成績(experimental_result簡稱為e_r) 、實習(xí)成績(practice_result簡稱為p_r)及總分?jǐn)?shù)(total_score簡稱為t_s),其中總分?jǐn)?shù)=考試成績×70%+實習(xí)成績×20%+實驗成績×10%。通過對考試試卷的分析統(tǒng)計,基礎(chǔ)數(shù)據(jù)類型(Foundation Data Type簡稱為FDT)、流程控制(Process Control簡稱為PC)、函數(shù)(Function簡稱為F)和復(fù)雜數(shù)據(jù)類型(Complicated Data Type簡稱為CDT)四個單元的分?jǐn)?shù)比重分別為20%,30%,20%,30%,綜合考慮各單元的內(nèi)容,匯總統(tǒng)計出各單元的滿分分值為14,21,14,21。

          該數(shù)據(jù)挖掘任務(wù)可以用DMQL表示如下:

          Define cub discretmath〔ID,name,gender,section,major,result〕。

          total_score=sum (result);

          define dimension result(test_result,Programes_result,practice_ result);

          define dimension test_result(FDT,PC,F, CDT)。

          數(shù)據(jù)倉庫的結(jié)構(gòu)如表1:

          3.2 數(shù)據(jù)的預(yù)處理

          由于現(xiàn)實中的數(shù)據(jù)多半是不完整的、有噪聲的、不一致的,某些學(xué)生的成績會因教師個人感情或其它因素而分?jǐn)?shù)偏高或偏低,從而導(dǎo)致現(xiàn)有分?jǐn)?shù)含有一定偏差的噪聲數(shù)據(jù),對此可以通過數(shù)據(jù)的預(yù)處理技術(shù)改進數(shù)據(jù)的質(zhì)量,提高其后的挖掘過程的精度和性能。本文利用數(shù)據(jù)清理中的聚類中K_平均算法找出孤立點,并利用分箱技術(shù)將噪聲去掉。表2為經(jīng)過數(shù)據(jù)預(yù)處理的二維視圖。

          以上數(shù)據(jù)倉庫中的數(shù)據(jù),就是經(jīng)過預(yù)處理后,得到的是集成的、概念分層的、不含有噪聲的數(shù)據(jù),該數(shù)據(jù)可以用來進行準(zhǔn)確的數(shù)據(jù)挖掘工作。

          3.3概念/類描述

          3.3.1數(shù)據(jù)概化

          數(shù)據(jù)庫中的數(shù)據(jù)和對象通常包含原始概念層的細節(jié)信息,在多數(shù)情況下,感興趣的一般是在不同抽象層上得到的數(shù)據(jù)的量化信息或統(tǒng)計信息。因此,首先采用解析特征化進行屬性相關(guān)分析,來幫助識別不相關(guān)或弱相關(guān)屬性,將它們排除在概念描述過程之外。概化過程如下:

          1)收集目標(biāo)類數(shù)據(jù),它由計算機專業(yè)的集合組成,對比類數(shù)據(jù)取電子信息工程專業(yè)的集合;

          2)用保守的屬性概化閾值進行面向?qū)傩缘臍w納,通過屬性刪除和屬性概化進行預(yù)相關(guān)分析。

          ID:由于ID存在大量不同值,并且其上沒有概化操作符,該屬性被刪除;name:由于name存在大量不同值,并且其上沒有概化操作符,該屬性被刪除;gender:由于gender只有兩個不同值,該屬性保留,并且不對其進行概化;major:假定已定義了一個概念分層,允許將屬性major概化到值{計算機應(yīng)用,電子信息工程};section:假定已定義了一個概念分層,允許將屬性科類概化到值{理科,文科,對口};total_score:該屬性存在大量不同值,因此應(yīng)當(dāng)概化它。假定存在total的概念分層,將分?jǐn)?shù)數(shù)值區(qū)間{100_85,84一70,69_60,59_0}按等級(grade){A,B,C,D}分組,這樣該屬性可以被概化。

          表3通過對表2的數(shù)據(jù)進行概化得到的關(guān)系

          3.3.2類比較的實現(xiàn)

          通過概化處理,數(shù)據(jù)倉庫中的屬性基本已經(jīng)得到了單個類的描述。但我們希望挖掘一個描述是它能將一個類與其它可比較的類相區(qū)分,因此采用挖掘類比較來實現(xiàn)。現(xiàn)給定了屬性gender, section,major, test_result,program_result,practice_ result和grade。

          1)專業(yè)類別分析

          首先確定目標(biāo)類與對比類為屬性major中計算機應(yīng)用和電子信息工程兩個不同專業(yè)的學(xué)生;其次,對兩個數(shù)據(jù)上進行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表4所示。

          從表4可以看出,與電子信息工程專業(yè)相比,計算機應(yīng)用專業(yè)的學(xué)生趨向平均分、實習(xí)成績及實驗成績這三部分分?jǐn)?shù)較高,體現(xiàn)出學(xué)生在知識應(yīng)用能力和計算機編程能力上較強,但對知識掌握出現(xiàn)兩極分化嚴(yán)重,針對這部分基礎(chǔ)知識掌握不牢固的學(xué)生,教師在執(zhí)教時就應(yīng)考慮加強基礎(chǔ)知識的鞏固。相對而言電子信息工程專業(yè)的學(xué)生對基礎(chǔ)知識的掌握基本較好,但對該課程的靈活應(yīng)用有所欠缺,這就使得在教學(xué)過程中應(yīng)適當(dāng)注重培養(yǎng)學(xué)生的應(yīng)用能力,加強對他們編程、實驗及實習(xí)的輔導(dǎo)。

          2)性別類別分析

          首先確定目標(biāo)類與對比類為屬性gender中的男和女;其次,對兩個數(shù)據(jù)上進行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表5所示。

          表4 主類(計算機應(yīng)用)與目標(biāo)類(電子信息工程)關(guān)系 表5 主類(男)與目標(biāo)類(女)關(guān)系

          從表5可以看出,與女生相比,男生從總體上對該門課程的學(xué)習(xí)效果較差,不及格率較高,且優(yōu)秀率低,基礎(chǔ)知識掌握不牢固,體現(xiàn)出不少男生學(xué)習(xí)態(tài)度不端正,目的不明確,缺乏學(xué)習(xí)的積極性。而女生這門課的成績比男生好,優(yōu)秀率高,及格率高,對基礎(chǔ)知識掌握牢固,但在知識的應(yīng)用能力方面欠佳不能很好地靈活運用;由此可見,教師在教學(xué)過程中須考慮學(xué)生的性別差異,因材施教。

          3)科類類別分析

          首先確定目標(biāo)類與對比類為屬性section中文科類、理科類和對口類;其次,對兩個數(shù)據(jù)上進行維相關(guān)分析,不相關(guān)或弱相關(guān)的維從結(jié)果類刪除;再次,在目標(biāo)類上進行同步概化,產(chǎn)生主目標(biāo)類關(guān)系,如表6所示:

          從表6可以看出,與理科類、文科類相比,通過對口高招進來的學(xué)生不管對理論知識的掌握還是在實踐技能上都比較突出,且目的性非常強。而文科類與理科類相比, 文科類對基礎(chǔ)知識的學(xué)習(xí)優(yōu)于理科類,但在知識的應(yīng)用能力上較差,理科類則恰恰相反。可見,教師在教學(xué)過程中除了考慮普遍學(xué)生存在的問題外,還需要注意學(xué)生的差異,對于對口類學(xué)生而言應(yīng)多準(zhǔn)備一些相對大的項目,讓其能“吃飽”,而對于理科類和文科類學(xué)生一方面要加強理論基礎(chǔ)知識的學(xué)習(xí)指導(dǎo),另一方面要適當(dāng)注意培養(yǎng)其應(yīng)用能力,加強對編程及實踐方面的輔導(dǎo)。

          4 結(jié)論

          利用多年的C語言程序設(shè)計課程的成績的數(shù)據(jù),通過數(shù)據(jù)挖掘技術(shù)探索和發(fā)現(xiàn)兩個專業(yè)學(xué)生對這門課程的知識掌握及能力培養(yǎng)的情況,可以有針對性地進行教學(xué)內(nèi)容和教學(xué)方式的改革,使得學(xué)生更好地掌握C語言程序設(shè)計這門課的知識,培養(yǎng)各方面的能力,為以后的課程學(xué)習(xí)、專業(yè)發(fā)展打下堅實的基礎(chǔ)。

          參考文獻:

          [1] JiaweiH,MichelineK.DataMiningConceptsandTechniquo5[M].Beijing:China Machine Press,2006.

          [2] 朱明.數(shù)據(jù)挖掘[M].合肥:中國科技大學(xué)出版社,2O02.

          [3] 張錦祥.高級程序設(shè)計語言課程教學(xué)改革與實踐[J].浙江教育學(xué)院學(xué)報,2007(4)71-76.

          篇10

          Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course

          HUANG Jian

          (Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)

          Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.

          Key words: Task-driven; Inquiry; Curriculum reform

          數(shù)據(jù)挖掘是一門包括了數(shù)據(jù)庫系統(tǒng)、專家系統(tǒng)、機器學(xué)習(xí)、統(tǒng)計學(xué)、模式識別、信息檢索、人工智能等學(xué)科的綜合性的學(xué)科,其目標(biāo)是發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的知識模式。此課程一般是在研究生教育階段開設(shè)[1],但隨著社會對應(yīng)用型人才的需求越來越大,這就要求我們的學(xué)生畢業(yè)后不僅要有扎實的理論基礎(chǔ),更要有較強的創(chuàng)新能力和實踐能力。

          我校針對信息與計算科學(xué)及統(tǒng)計學(xué)兩個專業(yè)開設(shè)了數(shù)據(jù)挖掘課程。該專業(yè)學(xué)生擁有較強的數(shù)學(xué)理論基礎(chǔ),并掌握了數(shù)學(xué)建模、統(tǒng)計學(xué)、數(shù)據(jù)庫等相關(guān)學(xué)科。數(shù)據(jù)挖掘作為一門綜合性課程,是融合學(xué)生各科知識,提高該專業(yè)學(xué)生應(yīng)用實踐能力,培養(yǎng)學(xué)生團隊協(xié)作能力的很好的載體課程。

          1 數(shù)據(jù)挖掘課程教學(xué)特點

          數(shù)據(jù)挖掘技術(shù)是一個多學(xué)科交叉的綜合研究領(lǐng)域。不過也正因為它涉及的范圍很廣泛,發(fā)展的時間也不是很長,因此要真正理解數(shù)據(jù)挖掘的本質(zhì)并不是一件容易的事情。我校針對信息與計算科學(xué)和統(tǒng)計學(xué)兩個理學(xué)專業(yè)開設(shè)此課程,并將此課程歸類為實踐類課程。經(jīng)過筆者多年對傳統(tǒng)教學(xué)方法的研究和改革,發(fā)現(xiàn)了在數(shù)據(jù)挖掘教學(xué)中存在的問題:

          1) 理論教學(xué)困難:數(shù)據(jù)挖掘課程內(nèi)容涉及領(lǐng)域廣泛,如統(tǒng)計學(xué)、數(shù)據(jù)庫、機器學(xué)習(xí)、模式識別等內(nèi)容,并且所涉及的算法繁多。由于本科生的知識體系不健全,理論基礎(chǔ)相對薄弱,造成了學(xué)習(xí)難度過大。此外,由于學(xué)時限制,無法在課堂中詳細地講述算法理論,導(dǎo)致了學(xué)生積極性不高,很難達到教學(xué)目標(biāo)。

          2) 實踐環(huán)節(jié)無法讓學(xué)生體會數(shù)據(jù)挖掘本質(zhì):數(shù)據(jù)挖掘是從數(shù)據(jù)獲取、數(shù)據(jù)整理、預(yù)處理、數(shù)據(jù)挖掘分析、結(jié)果分析等一系列流程的綜合。但由于課時關(guān)系,我們課程中的實踐環(huán)節(jié)往往是針對某個特定的算法,讓學(xué)生利用已經(jīng)預(yù)處理好的數(shù)據(jù)進行算法的應(yīng)用。數(shù)據(jù)挖掘成本很高,但是這個成本往往并不是金錢,而是時間,而數(shù)據(jù)整理和預(yù)處理的時間往往占到全部工作量的80%。不經(jīng)過完整的數(shù)據(jù)挖掘流程訓(xùn)練,學(xué)生就無法體會數(shù)據(jù)挖掘的本質(zhì)。

          3) 軟件應(yīng)用缺乏:針對海量數(shù)據(jù)分析是必須要應(yīng)用到計算機技術(shù)處理。當(dāng)今針對數(shù)據(jù)挖掘應(yīng)用的軟件很多,如SAS公司的EM模塊、SPSS的Modeler、WEKA、Matlab以及各數(shù)據(jù)庫系統(tǒng)配套的OLAP功能等。在課堂中,不可能對任何一款軟件都詳細的進行講解。這就使得學(xué)生很難進行算法的應(yīng)用實踐。

          2 任務(wù)驅(qū)動探究式教學(xué)模式

          針對目前教學(xué)存在的這些問題,廣西大學(xué)梁斌梅提出了目標(biāo)驅(qū)動的專業(yè)課教學(xué)法,利用導(dǎo)入課吸引學(xué)生、利用教學(xué)目標(biāo)引導(dǎo)學(xué)生[2]。韓秋明等人編著的《數(shù)據(jù)挖掘技術(shù)應(yīng)用實例》中采用了大量的行業(yè)數(shù)據(jù),為數(shù)據(jù)挖掘教學(xué)模式的改革提供大量的應(yīng)用實例[3]。結(jié)合本校的學(xué)生特點,參考國內(nèi)的一些研究成果,該文提出了基于任務(wù)驅(qū)動探究式教學(xué)模式。課程整體主線由任務(wù)驅(qū)動,學(xué)生進行探究式自主學(xué)習(xí)。

          任務(wù)驅(qū)動是基于構(gòu)建主義教學(xué)理論基礎(chǔ)上的教學(xué)方法,以學(xué)生為主體,以老師為主導(dǎo)的一整套教學(xué)新模式。而探究式教學(xué)是與直接接受式教學(xué)相對的,在任務(wù)驅(qū)動的同時,激發(fā)學(xué)生的好奇心,并驅(qū)使學(xué)生投入到知識獲取的自主學(xué)習(xí)活動中。任務(wù)驅(qū)動探究式教學(xué)模式是將兩者有機的結(jié)合起來,使學(xué)生能夠明確學(xué)習(xí)目標(biāo)、提高學(xué)習(xí)興趣、提升學(xué)習(xí)動力,發(fā)揮學(xué)生的自主學(xué)習(xí)能力、創(chuàng)造能力,培養(yǎng)學(xué)生分析問題、解決問題的能力。通過自主學(xué)習(xí),自行的完成階段性的教學(xué)任務(wù),以達到相應(yīng)的教學(xué)目標(biāo)。任務(wù)驅(qū)動探究式教學(xué)模式,適合操作性和應(yīng)用性強的課程。任務(wù)驅(qū)動探究式教學(xué)模式的核心思想是在教學(xué)方面強調(diào)任務(wù)驅(qū)動,在學(xué)習(xí)方面則強調(diào)探究式學(xué)習(xí)。因此必須合理地設(shè)計課程教學(xué)方案,在“教”和“學(xué)”兩個方面進行設(shè)計。老師必須在任務(wù)設(shè)計、實施進程管理、信息反饋等各方面做好銜接,保證學(xué)生能夠時刻跟上任務(wù)進度,并保持足夠的興趣度。

          3 基于案例驅(qū)動探究式教學(xué)模式的數(shù)據(jù)挖掘課程改革

          任務(wù)驅(qū)動探究式教學(xué)模式是以學(xué)生為主體,教師主導(dǎo)的新型教學(xué)模式。教師的作用在于教學(xué)組織和任務(wù)布置的安排調(diào)度。利用任務(wù)引導(dǎo)學(xué)生學(xué)習(xí)相關(guān)知識,提高學(xué)生的學(xué)習(xí)主動性。因此,如何根據(jù)課程需要合理地進行課程任務(wù)設(shè)計,安排任務(wù)進度都是課程改革成功的關(guān)鍵。

          3.1 課程內(nèi)容重新整合

          數(shù)據(jù)挖掘是一個由數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析挖掘、結(jié)論分析等各個步驟組成的整體過程。在現(xiàn)有的數(shù)據(jù)挖掘書中,針對數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理部分往往比較簡化,大部分篇幅都在講述數(shù)據(jù)挖掘算法,如分類算法、關(guān)聯(lián)算法、聚類算法。如果在課程內(nèi)容設(shè)計時,僅僅對算法做重點講述而忽略前期步驟,將會造成學(xué)生內(nèi)容知識的脫節(jié),無法體會數(shù)據(jù)挖掘整個流程,從而不能真正地理解數(shù)據(jù)挖掘思想本質(zhì)。因此,本課程教學(xué)目標(biāo)應(yīng)該是重點培養(yǎng)學(xué)生分析問題、解決問題和團隊協(xié)作能力,樹立數(shù)據(jù)挖掘思維體系,了解數(shù)據(jù)挖掘基本算法,能夠應(yīng)用數(shù)據(jù)挖掘軟件解決實際問題并得到結(jié)果。

          根據(jù)這個教學(xué)目標(biāo)對課程內(nèi)容進行適當(dāng)調(diào)整。首先,增加緒論內(nèi)容并設(shè)置導(dǎo)入課。在導(dǎo)入課中增加生活中學(xué)生感興趣的數(shù)據(jù)挖掘故事,經(jīng)典案例以及各行業(yè)中的應(yīng)用,從而提高學(xué)生學(xué)習(xí)的興趣。其次,適當(dāng)增加數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理以及數(shù)據(jù)挖掘軟件的介紹,使得學(xué)生能夠明確數(shù)據(jù)怎么來、如何處理以及用什么工具處理等問題。最后,有選擇地介紹基本的數(shù)據(jù)挖掘算法,所介紹的算法應(yīng)該是常見、易懂并且能夠很容易使用軟件實現(xiàn)的,如決策樹算法、K均值聚類算法、Apriori算法、樸素貝葉斯算法等。而針對比較難的算法,可以僅做介紹,讓學(xué)生在今后遇到此類問題能夠自主的進行學(xué)習(xí)。通過內(nèi)容的調(diào)整,一方面使得學(xué)生不會因為數(shù)據(jù)挖掘算法繁多且復(fù)雜而懼怕,保證學(xué)生的學(xué)習(xí)興趣,從而很好的引導(dǎo)其自主學(xué)習(xí),提高教學(xué)效果。另一方面,數(shù)據(jù)挖掘算法在不斷的改進,不可能在課程中覆蓋所有。通過基本算法和工具的結(jié)合,能夠很好地幫助學(xué)生從算法理論轉(zhuǎn)變成算法實現(xiàn),從而真正的進行數(shù)據(jù)挖掘工作。即使出現(xiàn)了新的算法,也能夠舉一反三,進行軟件實現(xiàn)。

          3.2 組織方式的改變

          任務(wù)驅(qū)動探究式教學(xué)模式必須以課程任務(wù)為依托。改變以往以純理論的教學(xué)方式,加入實踐和課堂討論環(huán)節(jié),將理論知識講解和課程任務(wù)有機地結(jié)合到一起。考慮到數(shù)據(jù)挖掘連貫性以及工程龐大性,可以考慮以項目化的方式進行。將學(xué)生6個人左右分為一組,自主的在老師所提供的數(shù)據(jù)共享平臺中尋找感興趣的問題進行分析研究。將整個項目分解成為數(shù)據(jù)搜集、數(shù)據(jù)預(yù)處理、探索性分析、數(shù)據(jù)挖掘、結(jié)果分析等一系列的小任務(wù),安排階段性的任務(wù)目標(biāo),層序漸進,逐步的建立學(xué)生完成項目的信心并最終完成整個項目。

          學(xué)生是項目的負(fù)責(zé)人,在接受一個短期任務(wù)后,就要自主的開始進行任務(wù)的執(zhí)行。老師僅僅在課堂中進行了基本知識的講解,學(xué)生要完成任務(wù)就必須學(xué)習(xí)更多的課外知識。項目的研究內(nèi)容是自己選擇的,而且完成階段性的任務(wù)并不是那么的遙不可及,所以學(xué)生有足夠的興趣和信心去完成。通過查閱資料、學(xué)習(xí)知識、任務(wù)分配、安排和組織實施等,完成教學(xué)任務(wù)的同時也鍛煉了他們團隊合作意識、溝通能力、自主學(xué)習(xí)能力。這些能力的培養(yǎng)才能使他們在知識不斷更新的當(dāng)今,緊密地跟緊前沿技術(shù)并更好的去解決實際問題。

          3.3 任務(wù)進度控制和評價

          課程的課堂教學(xué)時間是有限的,老師不可能在課堂中既完成理論教學(xué),又給足時間讓學(xué)生進行課程任務(wù),所以項目的實施必須是在課后進行。學(xué)生要在課外進行大量的參考資料閱讀、相互討論及數(shù)據(jù)分析的工作。那么老師作為主導(dǎo)者,必須及時地了解學(xué)生階段性任務(wù)的完成情況,對當(dāng)前學(xué)生遇到的困難及時給出建議和意見,甚至在學(xué)生遇到真正的難題給予技術(shù)上的支持。所以本課程在理論課教學(xué)的同時,也開展了定期的討論課,讓學(xué)生定期匯報階段性任務(wù)的完成情況,及時進行任務(wù)進度的控制。整個項目的實施流程和任務(wù)分解如圖1。根據(jù)流程安排,理論引導(dǎo)學(xué)生任務(wù)的進行。通過學(xué)生任務(wù)的完成情況,老師在完成基本理論教學(xué)的同時,有針對性的對學(xué)生所遇到的問題進行講解,最終目標(biāo)是引導(dǎo)學(xué)生完成整個教學(xué)項目。一方面,學(xué)生自主學(xué)習(xí)能力提高,有足夠的興趣和能力去完成每個階段的任務(wù),并且會更加認(rèn)真的在理論課中尋找自己想得到的知識。另一方面,由于學(xué)生自主尋找的項目多樣性,選擇的算法不可控性,同樣促使老師不斷的提高自身,教學(xué)內(nèi)容不再一成不變,而是隨時的更新。

          圖1 任務(wù)進度安排流程圖

          良好的進度控制需要一個完善的評價體系做輔助。只有做好每個階段性的評價,引入一定的競爭機制,才能提高學(xué)生積極性和自信心。首先,必須做到極端性任務(wù)的目標(biāo)和時間明確化。要完成什么,在什么時候完成,都必須事先和學(xué)生約定。對沒有按時完成任務(wù)的組,必須做出相應(yīng)的懲罰,如扣除本階段的得分。除此之外必須分析原因,搞清為什么無法完成任務(wù),有針對性地提出建議和意見,以便學(xué)生能夠及時調(diào)整。其次,評價標(biāo)準(zhǔn)既要唯一又要區(qū)別對待。唯一標(biāo)準(zhǔn)指的是一樣的進度,一樣的任務(wù),一樣的要求。但是數(shù)據(jù)挖掘項目會根據(jù)研究領(lǐng)域不同、使用算法不同、數(shù)據(jù)質(zhì)量不同而造成難度差異,一味的同等標(biāo)準(zhǔn)要求會造成選擇難度較高項目的學(xué)生積極性下降。所以老師必須客觀的分析每個項目難度,并區(qū)別對待。對于由客觀難度造成任務(wù)進程落后的組,應(yīng)當(dāng)在解決問題后給予獎勵。并且,在最終論文評定時,適當(dāng)?shù)募尤胍欢ǖ碾y度分,以鼓勵學(xué)生培養(yǎng)自我挑戰(zhàn)的精神。通過教師評價、組長評價、組間評價等評價方式,客觀的合理的對整個項目實施作出最終的評價結(jié)果。

          4 結(jié)束語

          通過案例驅(qū)動探究式教學(xué)模式的改革,數(shù)據(jù)挖掘課程在教學(xué)效果上得到了實質(zhì)性的提高。人才培養(yǎng)上卓有成效,老師也在教學(xué)過程中受益良多。通過教學(xué)模式的改革,使得原本枯燥、難懂的理論教學(xué)變得生動。學(xué)生的求知欲望得到了激發(fā),課程的學(xué)習(xí)目標(biāo)更加的明確,教學(xué)質(zhì)量也有很大的提高。同時我們發(fā)現(xiàn),學(xué)生的自主學(xué)習(xí)能力、匯報能力、論文撰寫能力都有了明顯的提高,并且有很多教學(xué)項目被用于畢業(yè)論文的研究。數(shù)據(jù)挖掘課程也因此被選為寧波市級的智慧產(chǎn)業(yè)核心引導(dǎo)課程。

          參考文獻:

          篇11

          知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)一詞最早出現(xiàn)在1989年8月美國底特律召開的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上[1]。1996年,知識發(fā)現(xiàn)被Fayyad U,Piatetsky,Shapiro G和Smyth P定義為:知識發(fā)現(xiàn)是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程[2]。對KDD的研究主要包括從數(shù)據(jù)庫的角度進行研究以強調(diào)知識發(fā)現(xiàn)的效率,從機器學(xué)習(xí)的角度進行研究以強調(diào)知識發(fā)現(xiàn)的有效性,從統(tǒng)計分析的角度進行研究以強調(diào)知識發(fā)現(xiàn)的正確性,從微觀經(jīng)濟學(xué)的角度進行研究以強調(diào)知識發(fā)現(xiàn)的最大效用。KDD過程是多個步驟交互螺旋式上升的學(xué)習(xí)和總結(jié)過程[3],基本流程包括:

          (1)限定學(xué)習(xí)領(lǐng)域,儲備預(yù)先知識、確定學(xué)習(xí)目標(biāo);

          (2)聚焦目標(biāo)數(shù)據(jù)集,選擇一個數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦;

          (3)數(shù)據(jù)預(yù)處理,數(shù)據(jù)降噪或數(shù)據(jù)清洗;

          (4)數(shù)據(jù)轉(zhuǎn)換;

          (5)確定數(shù)據(jù)挖掘功能法則;

          (6)獲得知識信息、運用知識成果并重新選定學(xué)習(xí)目標(biāo)。

          在創(chuàng)新的過程中,單單依靠顯性知識已經(jīng)不足以支撐整個思維求異和技術(shù)創(chuàng)新的全流程。隨著數(shù)據(jù)量的爆炸式增長,傳統(tǒng)數(shù)據(jù)庫的檢索查詢已不能滿足信息社會的深層次需求,再加上傳統(tǒng)分析手段的落后,大量數(shù)據(jù)來不及整理、分析或利用就已“時過境遷”成為無效信息,而且被長期積壓在數(shù)據(jù)庫中浪費存儲資源。為了及時消解數(shù)據(jù)產(chǎn)生和數(shù)據(jù)理解之間的矛盾,還必須定期對數(shù)據(jù)進行深度挖掘,使得大量被隱藏的、有價值的信息得到有效利用。

          (二)數(shù)據(jù)挖掘的理論探索

          數(shù)據(jù)挖掘(Data Mining)是指使用算法來抽取信息和模式,通常是知識發(fā)現(xiàn)過程的一個重要步驟。數(shù)據(jù)挖掘融合了機器學(xué)習(xí)、模式識別、數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)理論、人工智能及信息管理系統(tǒng)等多門學(xué)科的最新成果。應(yīng)用數(shù)據(jù)挖掘技術(shù)從大型數(shù)據(jù)庫中發(fā)現(xiàn)隱藏在其中的規(guī)律和有用信息,為管理層決策提供事實型數(shù)據(jù)和研究模式。

          根據(jù)KDD的目標(biāo)任務(wù),數(shù)據(jù)挖掘任務(wù)可分為:分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等。而所要挖掘的對象則可以分為:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及web等對象的挖掘。從方法論講,其挖掘方法一般分為:聚類分析、探索性分析、機器、統(tǒng)計、神經(jīng)網(wǎng)絡(luò)(Neural Network)、遺傳算法(Genetic Algorithm)、數(shù)據(jù)庫、近似推理和不確定性推理、基于證據(jù)理論和元模式、現(xiàn)代數(shù)學(xué)分析、粗糙集(Rough Set)、集成方法等方法[4]。

          (三)小結(jié)

          綜上,知識發(fā)現(xiàn)用于從大量數(shù)據(jù)中抽取規(guī)律信息,發(fā)現(xiàn)非預(yù)期或潛在的價值量,而數(shù)據(jù)挖掘作為知識發(fā)現(xiàn)的重要一環(huán)是與實踐應(yīng)用緊密相連的,兩者不僅僅是對數(shù)據(jù)的簡單檢索調(diào)用,而是從數(shù)據(jù)集合中自動提取出隱含在數(shù)據(jù)中的關(guān)系和模式,進而對未來可能發(fā)生的行為進行預(yù)測,為決策者提供有力支持。

          二、高校成績管理與學(xué)科建設(shè)

          成績是學(xué)生在校學(xué)習(xí)期間對所學(xué)知識理解掌握情況和教師教學(xué)質(zhì)量評價的原始記錄,對學(xué)校的教學(xué)管理和教學(xué)改革措施評價具有重要的參考價值[5]。成績管理是高校教學(xué)管理中的最為基礎(chǔ)性的一個環(huán)節(jié),是根據(jù)教學(xué)目的和教學(xué)任務(wù),

          通過學(xué)生的實際量化考核分?jǐn)?shù)來進行統(tǒng)計、查閱和分析的綜合性數(shù)據(jù)處理過程。該過程的科學(xué)與否,直接關(guān)系到教務(wù)管理的實際質(zhì)量和教學(xué)工作的可持續(xù)發(fā)展,特別是在網(wǎng)絡(luò)化和信息化的新形勢下,該項工作被素質(zhì)教育賦予更加深遠的現(xiàn)實意義。本文所指學(xué)科成績不僅限于學(xué)生的筆試成績,還包括了學(xué)生參加各種校內(nèi)外實習(xí)和培訓(xùn),以及其他形式素質(zhì)教育的量化數(shù)據(jù)。

          (一)高校成績管理所面臨的新形勢

          從宏觀上講,隨著國家高等教育普及工作的不斷推進,以及教育戰(zhàn)線“以人為本”理念的逐步深入,高校教務(wù)在成績管理這一環(huán)節(jié)上所面臨的任務(wù)顯得比以往任何時刻都更加繁重。

          首先,院校擴建和學(xué)生擴招為學(xué)科成績管理模塊在數(shù)據(jù)容量上增加了壓力。近幾年,隨著一些高校教學(xué)資源的整合和擴充,許多高校設(shè)立了新校區(qū)、設(shè)置了新專業(yè),反映在學(xué)生成績管理上則是成績數(shù)據(jù)的時空容量同時增長。每多出一個學(xué)生,從學(xué)籍材料到各年度學(xué)科數(shù)據(jù)再到圖形化成績資料都會相應(yīng)增加,教師教務(wù)管理系統(tǒng)所要處理的信息量也會相應(yīng)增加,這首先在量上增加了數(shù)據(jù)壓力。

          篇12

          一、數(shù)據(jù)倉庫技術(shù)在客戶忠誠度分析中的應(yīng)用

          1.數(shù)據(jù)倉庫(DataWarehouse,簡稱DW)是一種面向數(shù)據(jù)應(yīng)用的數(shù)據(jù)管理技術(shù),它以關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)為基礎(chǔ)。按照業(yè)界公認(rèn)的數(shù)據(jù)倉庫創(chuàng)始人W.H.Inmon的觀點,數(shù)據(jù)倉庫可定義為:“一個面向主題的、集成的隨時間變化的非易失的數(shù)據(jù)集合,用于支持管理層的決策過程”。可以發(fā)現(xiàn)數(shù)據(jù)倉庫具有這樣的一些重要特性:面向主題性、數(shù)據(jù)集成性、數(shù)據(jù)的時變性、數(shù)據(jù)的非易失性、數(shù)據(jù)的集合性和支持決策作用。

          數(shù)據(jù)倉庫技術(shù)是企業(yè)智能管理的重要基礎(chǔ)和手段,已經(jīng)成為企業(yè)級信息管理和決策支持系統(tǒng)建設(shè)過程中必要的技術(shù)支持。數(shù)據(jù)倉庫是進行客戶忠誠度分析的基礎(chǔ)。

          2.數(shù)據(jù)倉庫的實施步驟。數(shù)據(jù)倉庫的設(shè)計與傳統(tǒng)的OLTP系統(tǒng)設(shè)計有較大區(qū)別,不但需要設(shè)計一個數(shù)據(jù)庫和一個用戶接口,還必須設(shè)計數(shù)據(jù)裝載策略、數(shù)據(jù)存取工具和不間斷的維護方案。數(shù)據(jù)倉庫的實施步驟:

          (1)啟動項目,確定建立分析客戶忠誠度的數(shù)據(jù)倉庫,制定項目計劃。建立技術(shù)環(huán)境,選擇實現(xiàn)數(shù)據(jù)倉庫所需要的軟硬件資源。

          (2)確定數(shù)據(jù)倉庫主題。針對客戶信息以及客戶購買信息等相關(guān)的數(shù)據(jù)倉庫,與企業(yè)前臺部門的業(yè)務(wù)人員多進行溝通,詳細了解業(yè)務(wù)需求、報表等需求。

          (3)對客戶購買信息進行詳細定義,對事實表和維表的關(guān)系詳細定義。由于客戶購買信息數(shù)據(jù)倉庫數(shù)據(jù)量隨時間積累增大,而且隨著電子商務(wù)的進一步深入,數(shù)據(jù)量更是激增,所以必須對數(shù)據(jù)結(jié)構(gòu)進行精心設(shè)計,以免隨著倉庫中數(shù)據(jù)量快速增長,造成系統(tǒng)分析和查詢性能的急劇下降。

          (4)數(shù)據(jù)倉庫的物理庫設(shè)計。考慮數(shù)據(jù)的存儲方式,使得系統(tǒng)有較好的性能。完成索引的建立以及數(shù)據(jù)更新網(wǎng)絡(luò)的設(shè)計。

          (5)源數(shù)據(jù)抽取、清洗、整理及裝載設(shè)計。客戶購買信息數(shù)據(jù)倉庫的數(shù)據(jù)來自企業(yè)的前臺作業(yè)系統(tǒng)以及前臺業(yè)務(wù)部門。這些數(shù)據(jù)必須根據(jù)數(shù)據(jù)倉庫的設(shè)計,以統(tǒng)一定義的格式從各個系統(tǒng)抽取出來,經(jīng)過清理、轉(zhuǎn)換、綜合,再經(jīng)過數(shù)據(jù)裝載和整理程序進入數(shù)據(jù)倉庫。

          (6)開發(fā)支持用戶決策的數(shù)據(jù)分析工具。建立客戶購買信息數(shù)據(jù)倉庫的最終目的是為了實現(xiàn)前臺部門以及企業(yè)高層的決策支持,所以需要各種工具對數(shù)據(jù)倉庫進行訪問分析,如優(yōu)化查詢工具、統(tǒng)計分析工具、數(shù)據(jù)挖掘工具等,通過分析工具實現(xiàn)決策支持需要。

          (7)維護方案的設(shè)計。保證客戶信息數(shù)據(jù)倉庫的正常運行,對其進行管理維護,保證系統(tǒng)保持優(yōu)良的性能。

          二、據(jù)挖掘技術(shù)在客戶忠誠度分析中的應(yīng)用

          1.數(shù)據(jù)挖掘(Data Mining,簡稱DM),簡單地講就是從大量數(shù)據(jù)中挖掘或抽取出知識。數(shù)據(jù)挖掘概念的定義描述有若干版本,一個普遍被采用的定義是“數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),它是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復(fù)雜過程。”

          2.數(shù)據(jù)挖掘在客戶忠誠度分析中常用方法

          (1)決策樹(Decision Tree)決策算法。決策樹是一個類似于流程圖的樹結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示在一個屬性上的測試,每個分枝代表一個測試輸出,而每個樹葉節(jié)點代表或類分布。決策樹算法包括樹的構(gòu)造和樹的剪枝,有兩種常用的剪枝方法:先剪枝和后剪枝。

          (2)神經(jīng)網(wǎng)絡(luò)(Neural Network)。神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,其中每個連接都與一個權(quán)相連,在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測輸入樣本的正確類標(biāo)號來學(xué)習(xí)。

          (3)遺傳算法(Genetic Algorithms)。遺傳算法根據(jù)適者生存的原則,形成由當(dāng)前群體中最適合的規(guī)則組成新的群體,以及這些規(guī)則的后代。

          3.數(shù)據(jù)挖掘在客戶忠誠度分析中的應(yīng)用

          (1)運用數(shù)據(jù)挖掘技術(shù),對客戶進行細分,提供個性化的服務(wù)。因為不同的客戶為企業(yè)提供的價值不同,企業(yè)需要重點服務(wù)的是那些能為企業(yè)提供高價值的大客戶;又因為企業(yè)的資源有限,如何針對不同客戶進行有限資源的優(yōu)化應(yīng)用也是每個企業(yè)必須考慮的重要問題,所以有必要對客戶進行細分,進行有針對性的運營,提供個性化的服務(wù)。

          (2)運用數(shù)據(jù)挖掘技術(shù)預(yù)測客戶需求。客戶的需求不是一成不變的、單一的,而是快速改變著的、多樣化的。運用數(shù)據(jù)挖掘技術(shù)及時預(yù)側(cè)客戶的需求,也就是“想客戶之所想”,及時調(diào)整產(chǎn)品的結(jié)構(gòu)和內(nèi)容,搶先贏得商機,為客戶提供其真正需要的產(chǎn)品,吸引客戶,獲取高額利潤。

          (3)進行客戶流失分析。不要等到客戶離開了企業(yè)再去尋找解決辦法,時間就是金錢。客戶選擇了離開企業(yè),肯定是有原因的,應(yīng)該注意客戶流失的時間、分析流失的原因,及時采取措施,最大限度地留住客戶。

          (4)挖掘出影響客戶忠誠度的重要因素,重點改善。影響客戶忠誠度的因素可能會有很多,但是要做的是用數(shù)據(jù)挖掘工具找出那些最主要的因素,對這些因素認(rèn)真分析,采取有效的措施以提高客戶忠誠度。

          三、結(jié)束語

          數(shù)據(jù)挖掘作為一種信息技術(shù)正越來越受到企業(yè)的關(guān)注,都在想辦法用數(shù)據(jù)挖掘來解決企業(yè)海量數(shù)據(jù)的問題。企業(yè)能夠充分有效地利用數(shù)據(jù)挖掘這種新技術(shù)來為企業(yè)提供重要的決策信息,提高客戶忠誠度的,使企業(yè)在激烈的市場競爭中立于不敗之地。

          篇13

          隨著世界經(jīng)濟的信息化和全球化趨勢增強,電子商務(wù)正逐步走向全面應(yīng)用,并滲透到社會經(jīng)濟的各個層面。越來越多的公司紛紛建立網(wǎng)站,從事商務(wù)活動,無論是新興網(wǎng)絡(luò)企業(yè),還是傳統(tǒng)企業(yè)E化,網(wǎng)站都已經(jīng)成為企業(yè)經(jīng)營必不可少的網(wǎng)絡(luò)營銷工具,并且在增強企業(yè)競爭優(yōu)勢、擴大企業(yè)影響、增加銷售收入等方面發(fā)揮著越來越大的作用。

          1 E忠誠時代的來臨

          隨著電子商務(wù)的發(fā)展,客戶的重要性被提升到一個前所未有的高度,它已經(jīng)成為電子商務(wù)成功的關(guān)鍵。在某種程度上,客戶關(guān)系加商務(wù)模式,已經(jīng)被譽為電子商務(wù)成功的秘密。

          電子商務(wù)環(huán)境下的客戶忠誠,又稱為E忠誠。2000年,美國Bain&Comapany公司的電子商務(wù)主管Fredrick F.Reichheld與Phill Sehefter在研究了多家杰出網(wǎng)絡(luò)公司和上千名網(wǎng)絡(luò)顧客的消費行為后,指出在虛擬的網(wǎng)絡(luò)世界中同樣存在顧客忠誠,并稱為“E忠誠”;他們同時認(rèn)為,E忠誠是電子商務(wù)企業(yè)在網(wǎng)上取得成功的“秘密武器”。2001年,國際著名的咨詢公司KPMG Consulting在與牛津大學(xué)零售管理學(xué)院(OX―IRM)的合作研究項目中把E忠誠定義為:E忠誠指網(wǎng)絡(luò)顧客對網(wǎng)上企業(yè)或其品牌的忠誠。2003年3月,Moonkyu Lee博士通過實證研究,將E忠誠定義為:網(wǎng)絡(luò)顧客基于以往的購物體驗和對未來的預(yù)期,愿意再次光顧當(dāng)前選擇的電子商務(wù)網(wǎng)站的意向性。彭香霞與賀勤將“顧客重復(fù)選擇該網(wǎng)站購買某一特定產(chǎn)品或某些產(chǎn)品的心理和行為傾向”理解為E忠誠,并認(rèn)為同時滿足“情感E忠誠”和“行為E忠誠”兩個維度,才能稱作E忠誠。無論眾多學(xué)者如何定義E忠誠,但E忠誠的時代確確實實來臨了。

          2 企業(yè)網(wǎng)站客戶忠誠管理現(xiàn)狀

          忠誠的客戶是企業(yè)贏利的源泉,是企業(yè)最大的無形資產(chǎn),在競爭激烈的網(wǎng)絡(luò)市場中,如何牢牢地鎖住客戶,提高客戶忠誠度便成為了如今企業(yè)網(wǎng)站關(guān)注的要點。為了能夠有效開展客戶忠誠管理,提升網(wǎng)站客戶忠誠度,眾多企業(yè)網(wǎng)站在維系客戶關(guān)系方面可謂是“八仙過海,各顯神通”。然而對于絕大多數(shù)企業(yè)網(wǎng)站而言。雖然能在短時間內(nèi)很快地聚集大量的訪問量,但對于客戶關(guān)系的長期保持,提升企業(yè)網(wǎng)站客戶忠誠度,其效果并不顯著。主要原因在于,網(wǎng)站客戶忠誠的形成與培養(yǎng),比傳統(tǒng)環(huán)境下難度更大,決定因素更多。 就難度而言,①企業(yè)對客戶信息管理水平較低;②不完善的機制使客戶對企業(yè)缺乏信任;③針對客戶需求的差異,企業(yè)缺乏建立個性化服務(wù)的意識;④顧客滿意難以達到;⑤低廉的搜尋成本容易改變購物選擇;⑥交易的安全性難以保證;⑦“口碑”負(fù)效應(yīng)不可忽視。這些問題的存在,決定了要在虛擬環(huán)境中維系與客戶之間的關(guān)系、培養(yǎng)與提升客戶忠誠度,是一件十分艱難的事情。

          就決定因素而言,電子商務(wù)環(huán)境下企業(yè)網(wǎng)站客戶忠誠既受客戶主觀因素的影響,也受外在客觀因素的影響,這兩者共同構(gòu)成企業(yè)網(wǎng)站客戶忠誠的趨動模型,如圖l所示:

          從圖1可以看出,決定企業(yè)網(wǎng)站客戶忠誠的外在客觀因素主要有轉(zhuǎn)移成本、客戶價值、營銷策略、產(chǎn)品質(zhì)量、客戶服務(wù)等;決定企業(yè)網(wǎng)站客戶忠誠的內(nèi)在主觀因素主要有客戶滿意度、客戶愉悅度和客戶信任度,并且客戶感到滿意、擁有愉悅和產(chǎn)生信任對忠誠具有遞進作用。同時,客觀因素影響著主觀因素,兩者存在著正相關(guān)關(guān)系。

          隨著電子商務(wù)的深入發(fā)展,企業(yè)網(wǎng)站客戶忠誠度變得岌岌可危:客戶的選擇范圍驟然擴大,流失趨勢增加;轉(zhuǎn)換成本降低,客戶更容易改變購買決策;客戶需求個性化,經(jīng)驗成熟化,使客戶的期望值大大提高,對企業(yè)提出了服務(wù)敏捷、產(chǎn)品優(yōu)質(zhì)、定位準(zhǔn)確等高標(biāo)準(zhǔn)要求。

          3 Web數(shù)據(jù)挖掘是提升網(wǎng)站客戶忠誠度的關(guān)鍵技術(shù)

          電子商務(wù)的發(fā)展,要求企業(yè)借助于信息技術(shù)和網(wǎng)絡(luò)技術(shù),以客戶利益為出發(fā)點,以不斷滿足客戶需求和為客戶創(chuàng)造價值為目標(biāo),與客戶建立長期穩(wěn)定的關(guān)系,不斷提高客戶的忠誠度。而對用戶需求、興趣、愛好、身份的了解和獲取是提升網(wǎng)站客戶忠誠度具備針對性的前提。20世紀(jì)80年代末興起的數(shù)據(jù)挖掘(DataMining)技術(shù),特別是Web數(shù)據(jù)挖掘技術(shù),為解決此問題開辟了一條道路。

          Web數(shù)據(jù)挖掘就是從Web文檔和Web活動中發(fā)現(xiàn)、抽取感興趣的潛在的有用模式和隱藏的信息。它以從Web上挖掘有用信息為目標(biāo),以數(shù)據(jù)挖掘、文檔挖掘、多媒體挖掘為基礎(chǔ),并綜合運用計算機網(wǎng)絡(luò)、數(shù)據(jù)庫與數(shù)據(jù)倉庫、人工智能、信息檢索、可視化、自然語言理解等技術(shù),將傳統(tǒng)的數(shù)據(jù)挖掘與Web結(jié)合起來。Web數(shù)據(jù)挖掘的基本處理過程如圖2所示:

          在日益激烈的電子商務(wù)市場競爭中,任何與消費者行為有關(guān)的信息對經(jīng)營者來說都是非常寶貴的。Web服務(wù)器數(shù)據(jù)、客戶登記信息、服務(wù)器數(shù)據(jù)和業(yè)務(wù)往來數(shù)據(jù)是Web挖掘中的數(shù)據(jù)來源,都直接與客戶的商務(wù)行為模式相關(guān),而不論是客戶認(rèn)知忠誠、情感忠誠還是意向忠誠,最終都體現(xiàn)為客戶行為忠誠,也就是說,這些數(shù)據(jù)所表征出來的行為特征可以借助于一定的技術(shù)用來分析客戶的行為。通過Web數(shù)據(jù)挖掘,根據(jù)客戶的訪問興趣、訪問頻度、訪問時間等數(shù)據(jù),能發(fā)現(xiàn)企業(yè)網(wǎng)站客戶共性和個性的知識、必然和偶然的知識、獨立和聯(lián)系的知識等,所有這些經(jīng)過分析,能對客戶的消費行為如心理、能力、動機、需求潛能作出統(tǒng)計和正確的分析,得到客戶的商務(wù)行為模式。根據(jù)挖掘的結(jié)果提出針對性的商務(wù)計劃,促進企業(yè)網(wǎng)站更好地為客戶服務(wù),使客戶忠誠度的提升成為可能。

          4 基于Web數(shù)據(jù)挖掘的網(wǎng)站客戶忠誠度提升模型

          Web數(shù)據(jù)挖掘是輔助提升企業(yè)網(wǎng)站客戶忠誠度的綜合分析工具和關(guān)鍵技術(shù),運行在企業(yè)網(wǎng)站的客戶數(shù)據(jù)庫和數(shù)據(jù)倉庫之上,應(yīng)包括以下功能模塊:①過濾器:用來從Web數(shù)據(jù)庫中抽取相關(guān)數(shù)據(jù),進行二義性分析,消除不一致性;②挖掘綜合器:是一個挖掘驅(qū)動引擎,根據(jù)挖掘要求和挖掘方法的知識庫到Web數(shù)據(jù)挖掘算法庫中選擇合適的挖掘方法,并且使用該方法去執(zhí)行挖掘任務(wù);③方法選擇專家系統(tǒng)及知識庫:它是Web數(shù)據(jù)挖掘的“大腦”,是一個規(guī)則集合,能夠根據(jù)不同的挖掘要求來選擇最有效的挖掘算法或幾種算法的序列組合,并且隨著應(yīng)用的深入,該知識庫可以不斷融入新的規(guī)則,以增加專家系統(tǒng)的智能性;~Web數(shù)據(jù)挖掘算法庫:是一個數(shù)據(jù)挖掘分析方法的綜合性算法庫;⑤人機交互界面:提供一個和分析人員交互的友好界面。如果本次的挖掘結(jié)果不能滿足分析人員的需要

          或者還有進一步的猜想,就可以再次從這里輸入挖掘需求;⑥方法驅(qū)動模塊:它利用挖掘出來的有益信息,進行相應(yīng)統(tǒng)計與分析的工作。據(jù)此分析,可以構(gòu)建一種基于Web數(shù)據(jù)挖掘的網(wǎng)站客戶忠誠度提升模型,如圖3所示:

          5 基于Web數(shù)據(jù)挖掘的網(wǎng)站客戶忠誠度提升模型的運行

          5.1模型運行的基本流程

          基本流程:①明確Web數(shù)據(jù)挖掘的目標(biāo),確定提升網(wǎng)站客戶忠誠度的應(yīng)用主題,并對挖掘目標(biāo)建立恰當(dāng)?shù)哪P停ǔ1仨氈付ㄒ幌盗形粗年P(guān)聯(lián)變量,如果可能的話,建立一關(guān)聯(lián)格式作為初始的假設(shè);②圍繞提升網(wǎng)站客戶忠誠度這一主題收集數(shù)據(jù)源,并對數(shù)據(jù)進行清理、轉(zhuǎn)換、集成等技術(shù)處理,將數(shù)據(jù)轉(zhuǎn)換為易于進行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式,裝載進入客戶原始數(shù)據(jù)庫和數(shù)據(jù)倉庫,等待進一步處理;③建立規(guī)則庫和知識庫,用于存儲已知的客戶行為忠誠度的連接特征和新近數(shù)據(jù)挖掘形成的規(guī)則集,其中規(guī)則集是客戶商務(wù)模式與忠誠度行為模式的反映,用于指導(dǎo)訓(xùn)練數(shù)據(jù)的收集及作為特征選擇的依據(jù);④選取合適的數(shù)據(jù)挖掘方法,構(gòu)建數(shù)據(jù)挖掘模型,進行行為模式識別,從目標(biāo)數(shù)據(jù)中提取有價值的知識與數(shù)據(jù),然后對結(jié)果進行分析和驗證,調(diào)整數(shù)據(jù)挖掘模型,從而保證結(jié)果的可靠性和實用性,結(jié)果交給決策模塊處理;⑤決策庫將數(shù)據(jù)挖掘的結(jié)果與規(guī)則庫中的已知規(guī)則進行模式匹配,融合專家知識與領(lǐng)域規(guī)則,把最有價值的信息區(qū)分開來,并且通過決策支持工具提交給決策者,用于支持提升客戶忠誠度的相關(guān)策略處理。

          5.2模式識別的技術(shù)方法

          對客戶行為模式進行識別是整個模型正常運行并達到預(yù)定目標(biāo)的核心,針對網(wǎng)站客戶行為模式識別,常見的數(shù)據(jù)挖掘技術(shù)方法主要有:

          ?關(guān)聯(lián)規(guī)則。它是描述數(shù)據(jù)庫中數(shù)據(jù)項之間存在關(guān)聯(lián)的規(guī)則,即根據(jù)一個事物中某些項的出現(xiàn)可導(dǎo)出另一項在同一事物中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)方法可以從Web訪問事務(wù)集中,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性或因果結(jié)構(gòu),通過分析數(shù)據(jù)或記錄間的關(guān)系,決定哪些事情將一起發(fā)生。

          ?聚類分析。聚類是把一組個體按照相似性歸成若干類別,即“物以類聚”。在Web挖掘中存在兩種類型的聚類,即用戶聚類和網(wǎng)頁聚類。用戶聚類主要是把具有相似訪問特征的用戶分在一組;網(wǎng)頁聚類,則可以找出具有相關(guān)內(nèi)容的網(wǎng)頁組。聚類分析可以從服務(wù)器訪問信息數(shù)據(jù)中聚集出具有相似特性的用戶組,即把有相似特性的用戶、數(shù)據(jù)項集合到一起。

          ?分類分析。分類是將一組組個體分門別類地歸入預(yù)先設(shè)定好的幾個類中。分類的目的是通過統(tǒng)計方法、機器學(xué)習(xí)方法(包括決策樹法和規(guī)則歸納法)、神經(jīng)網(wǎng)絡(luò)方法等構(gòu)造一個分類模型,然后把數(shù)據(jù)庫中的數(shù)據(jù)映射到給定類別中的某一個特定類,以對同一類別中的用戶提供相似的服務(wù)。

          ?統(tǒng)計分析。統(tǒng)計分析是統(tǒng)計用戶最常訪問的網(wǎng)頁、每頁平均訪問的時間、瀏覽路徑的平均長度等數(shù)據(jù),以獲得用戶訪問站點的基本信息。此外還能提供有限的低層次的錯誤分析,比如檢測未授權(quán)入口點,找出最常見不變的URL等。

          ?序列模式。序列模式挖掘技術(shù)就是試圖在時間戳有序的事務(wù)集中,找到一組數(shù)據(jù)項之后出現(xiàn)另一數(shù)據(jù)項的內(nèi)部事務(wù)模式,即挖掘出會話集之間有時間序列關(guān)系的模式,從而形成一組按時間排序的會話。通過序列模式研究,能夠預(yù)測用戶的訪問模式,了解用戶的興趣及需求所在。

          ?決策樹算法。其基本原理是遞歸地將數(shù)據(jù)拆分成子集,以便每一個子集包含目標(biāo)變量類似的狀態(tài),這些目標(biāo)是可預(yù)測屬性。每一次對樹進行拆分,都要評價所有的輸入屬性對可預(yù)測屬性的影響。當(dāng)這個遞歸過程結(jié)束時,決策樹也就創(chuàng)建完了。結(jié)構(gòu)表示分類或決策集合,從而產(chǎn)生規(guī)則和發(fā)現(xiàn)規(guī)律。

          ?模式分析。通過選擇和觀察把發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計值轉(zhuǎn)換為知識,再經(jīng)過分析得到有價值的模式,即那些有意義、感興趣的規(guī)則、模式,采用可視化技術(shù),以圖形界面的方式提供給使用者。

          ?路徑分析。路徑分析是一種找尋頻繁訪問路徑的方法,它通過對Web服務(wù)器的日志文件中客戶訪問站點的訪問次數(shù)分析,從圖中挖掘出頻繁訪問路徑。圖最直接的來源是網(wǎng)站結(jié)構(gòu)圖,其他圖也都是建立在頁面和頁面之間的聯(lián)系,或者是一定數(shù)量的用戶瀏覽頁面順序基礎(chǔ)之上的。

          ?異類分析。異類分析也稱為孤立點分析。所謂孤立點是指明顯偏離其他數(shù)據(jù),即不滿足一般模式或行為的數(shù)據(jù)。孤立點分析是數(shù)據(jù)挖掘的重要內(nèi)容,它包括孤立點的發(fā)現(xiàn)和孤立點的分析,其中孤立點的發(fā)現(xiàn)往往可以使人們發(fā)現(xiàn)一些真實的但又出乎意料的知識;而孤立點的分析則可能發(fā)現(xiàn)比一般數(shù)據(jù)所包含的信息更有價值的數(shù)據(jù)。

          5.3提升模型的主要應(yīng)用

          提升企業(yè)網(wǎng)站客戶忠誠度,關(guān)鍵是要從客戶的主觀因素和感覺出發(fā),提升客戶滿意度、客戶愉悅度和客戶信任度。通過對4類網(wǎng)絡(luò)數(shù)據(jù)進行挖掘,可以分析影響客戶忠誠度的因素或客戶忠誠度降低的征兆,進而制定相關(guān)策略來提升企業(yè)網(wǎng)站客戶忠誠度。

          ?預(yù)防客戶流失。互聯(lián)網(wǎng)加劇了企業(yè)間的競爭,企業(yè)獲得新客戶的成本不斷上升,如何保持現(xiàn)有客戶是所有企業(yè)面臨的一個重要問題。客戶維持的性質(zhì)是“留住”那些可能流失的客戶。要留住這些客戶,首先要找出哪些客戶最可能“離我而去”,這就是數(shù)據(jù)挖掘要解決的問題。可通過數(shù)據(jù)挖掘?qū)蛻魯?shù)據(jù)庫中大量的客戶歷史交易記錄、人口統(tǒng)計信息及其相關(guān)資料進行分析和處理,對流失客戶群作針對性研究,分析其特征,研究哪些因素會導(dǎo)致客戶流失,建立流失客戶模型,識別導(dǎo)致客戶流失的模式,然后用這些模式找出當(dāng)前客戶中類似的客戶,以便企業(yè)針對客戶的需求,采取相應(yīng)的措施防止這些客戶的流失,改善客戶關(guān)系,進而達到保持原有客戶的目的。

          ?開展客戶細分。客戶細分可以使企業(yè)對不同細分群中的客戶區(qū)別對待。企業(yè)需要對客戶群進行分析,才能得到對客戶需求更加精確的理解和把握,從而可以有的放矢地進行忠誠度營銷的策劃和服務(wù)組合。在不太明確客戶群體分類標(biāo)準(zhǔn)的情況下,可采取挖掘的聚類技術(shù),對客戶群進行劃分。運用聚類分析,從客戶檔案庫中發(fā)現(xiàn)不同客戶群,并且用購買模式來刻畫不同客戶群的特征,可以方便地得到商家的主客戶群,以便決策者根據(jù)主客戶群的特征做相應(yīng)的訂貨、銷售、服務(wù)等決策。所有的客戶對于企業(yè)來說價值都不是一樣的,在客戶細分過程中,應(yīng)加強重點客戶的發(fā)現(xiàn),發(fā)現(xiàn)哪些客戶是真正創(chuàng)造利潤的客戶,哪些客戶是低利潤甚至是無利潤的客戶,然后采取不同的方案對待這些客戶。

          ?改進網(wǎng)站設(shè)計。網(wǎng)頁是企業(yè)對外宣傳的重要組成部分,體現(xiàn)企業(yè)的整體形象,只有通過它才能開展網(wǎng)上業(yè)務(wù),同時與客戶直接進行溝通。因此,需要在網(wǎng)站上營造一種生活和文化氛圍,一種精神世界,這種氛圍應(yīng)該和企業(yè)所提出的企業(yè)文化和營銷概念相吻合,給顧客提供一種“賓至如歸”的感受。通過對客戶訪問信息進行挖掘,了解客戶的瀏覽行為,從而知道客戶

          的興趣及需求所在,動態(tài)調(diào)整Web頁面,修改網(wǎng)站結(jié)構(gòu)和外觀,按照大多數(shù)訪問者的瀏覽模式對網(wǎng)站進行組織,按其訪問內(nèi)容來裁剪用戶與Web信息空間的交互,以滿足客戶的需要,吸引更多的客戶。從而在優(yōu)化網(wǎng)站設(shè)計時,能從最終顧客的角度更新改進作業(yè)流程,提供給顧客一站購足的服務(wù)。

          ?提供個。客戶的需求不是一成不變的、單一的,而是快速改變著的、多樣化的。隨著生活水平的不斷提高,客戶的要求也越來越高,其個性化需求逐漸成為發(fā)展趨勢。企業(yè)要想贏得較高的客戶忠誠和盈利能力,就一定要實現(xiàn)以下目標(biāo):在正確的時間、以正確的價格、通過正確的渠道將正確的產(chǎn)品(或服務(wù))提供給正確的客戶。這就要求企業(yè)網(wǎng)站必須記住客戶的特點,與每位客戶發(fā)展溫馨、個性化關(guān)系,依據(jù)客戶的需要,提供適當(dāng)?shù)姆?wù)與信息。基于數(shù)據(jù)挖掘的個性化服務(wù),通過對客戶訪問日志記錄信息的挖掘,以為每一位客戶建立一套個性化檔案為基礎(chǔ),可以提供包括個性化定制服務(wù)、個性化推薦服務(wù)、個性化檢索服務(wù)、個性化決策支持服務(wù)等內(nèi)容。

          ?優(yōu)化營銷模式。即使是購買同樣的商品,不同顧客的動因也可能不一樣,有的追求質(zhì)量,有的講究外觀,有的貪圖方便,有的則喜歡其文化內(nèi)涵。所以企業(yè)必須采用一定的方法,了解顧客的購買動因,并集中起來加以分析,然后針對不同客戶的特點,采取不同的營銷策略組合。利用Web數(shù)據(jù)挖掘工具,了解顧客在網(wǎng)上購買商品或接受服務(wù)時的選取習(xí)慣、鏈接習(xí)慣、商品組合習(xí)慣,發(fā)現(xiàn)那些隱藏在數(shù)據(jù)中的模式、關(guān)聯(lián)、規(guī)則和趨勢,找出其中的規(guī)律,從而提高交叉網(wǎng)絡(luò)營銷、“1對1”營銷、頻率營銷、會員制營銷等營銷模式的效率。

          ?營造安全環(huán)境。信任是客戶忠誠的一個決定性因素。從本質(zhì)上來說,信任支持了客戶那種認(rèn)為“可以在交易或者服務(wù)中得到積極成果”的信念。在電子商務(wù)環(huán)境下,一個安全交易的環(huán)境是客戶產(chǎn)生信任的首要條件。所以商家不僅要保證產(chǎn)品和服務(wù)質(zhì)量,還要加強對客戶的責(zé)任心,投入足夠的人力和物力,加強硬件上的建設(shè),從技術(shù)上保證網(wǎng)上交易的安全,并且要保護客戶的個人隱私,不能私自將他們的個人信息透露給其他機構(gòu)。Web數(shù)據(jù)挖掘通過訪問路徑分析、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式分析、分類規(guī)則發(fā)現(xiàn)、聚類分析等技術(shù),從獲取的資源數(shù)據(jù)中提取與安全相關(guān)的系統(tǒng)特征屬性,并根據(jù)系統(tǒng)特征屬性自動生成安全事件的檢測模型,用于對安全事件的自動鑒別,加強安全審計、入侵檢測、病毒預(yù)警、安全評估等網(wǎng)絡(luò)安全防范的針對性,有利于提供一個安全的網(wǎng)絡(luò)交易環(huán)境。

          5.4模型運行的注意事項

          建立在Web數(shù)據(jù)挖掘技術(shù)基礎(chǔ)上的企業(yè)網(wǎng)站客戶忠誠度提升模型在運行過程中,還應(yīng)注意以下一些事項:

          主站蜘蛛池模板: 亚洲人成人一区二区三区| 国产成人精品亚洲一区| 一区二区三区四区免费视频| 亚洲国产一区二区三区青草影视| 99久久无码一区人妻a黑| 国产精品熟女视频一区二区| 精品一区二区三区无码免费视频 | 日本一区频道在线视频| 伦理一区二区三区| 无码人妻一区二区三区免费视频| 国产成人久久精品一区二区三区 | 91一区二区三区四区五区 | 日本一区二三区好的精华液| 蜜臀AV一区二区| 老熟妇仑乱一区二区视頻| 亚洲老妈激情一区二区三区| 成人精品一区二区三区中文字幕| 男人的天堂亚洲一区二区三区| 精品亚洲福利一区二区| 人妻av综合天堂一区| 日韩欧美一区二区三区免费观看| 国产精品自拍一区| 人妻夜夜爽天天爽一区| 亚洲Av无码国产一区二区| 亚洲av成人一区二区三区观看在线 | 亚洲欧美成人一区二区三区| 亚洲一区二区久久| 亚洲男女一区二区三区| 久久综合亚洲色一区二区三区| 91一区二区视频| 成人免费视频一区二区三区| 日本精品高清一区二区2021| 无码人妻精品一区二| 一本大道东京热无码一区| 骚片AV蜜桃精品一区| 国产成人久久一区二区不卡三区 | 亚洲国产精品一区二区第四页| 香蕉一区二区三区观| 久久久久久人妻一区精品| 一区二区三区高清| 天天看高清无码一区二区三区|