在線客服

          數據分析分析技術實用13篇

          引論:我們為您整理了13篇數據分析分析技術范文,供您借鑒以豐富您的創作。它們是您寫作時的寶貴資源,期望它們能夠激發您的創作靈感,讓您的文章更具深度。

          數據分析分析技術

          篇1

          1數據挖掘技術在警務數據分析系統中的重要性

          警務系統由于工作的特點,要不斷地接受外來數據和有序存儲舊數據,這就對警務系統的數據處理系統有越來越高的要求,傳統的警務數據處理系統在信息量巨大的現今社會已經不能再有效的完善數據庫的運行,這就需要新型的數據處理系統接替工作。新型的數據處理系統在案件的信息提取、視頻分析等方面都應該有卓越的性能,將對案情有幫助的信息從大數據庫中有效的提取出來。數據挖掘技術是一項在能夠提高警務系統在數據的提取和挖掘效率的一項技術,能在短時間內將案件中的數據作為數據源,將其進行分析和建模,從而從這些數據中獲得有力的線索。

          2目前警務系統特點

          現今的警務系統是跟隨時代不斷發展的一個工作效率高、工作素質強的組織系統,有案件處理速度快、案件分析效率高的特點。這些特點,都需要警務系統中數據處理系統的有效應用,通過對數據的處理分析、檢查對比得出較有價值的案件線索,從而提高效率。警務系統的正常運行離不開數據處理系統,而數據挖掘技術更是數據處理系統的重要組成部分,它確保了整個系統的運行速度,對案件的偵查有促進作用。

          3構建警務系統數據存儲器

          基于警務系統的數據特點,警務系統應該建立一個高速運行的警務系統數據存儲器。“數據存儲器”在結構上分為三個部分,分別是關系系統、OLAP服務器以及客戶處理系統。這三個部分的作用效果如下:

          3.1關系系統

          關系系統是這三個組成部分的基礎部分,這個系統負責對系統中的數據進行整理和提取、刷新,將數據在整個系統中的存儲位置有序的排列好,防止數據丟失和數據殘缺的現象發生。關系系統在運行的過程中通過警務系統不斷的收集新的信息,將其整理保存,始終將數據系統中的有效信息得到較完好的保護。

          3.2 OLAP服務器

          OLAP是聯機處理的縮寫,是將多角度的信息共享并由一個關鍵的出發點而聯機進行數據處理分析的一個軟件技術,在警務系統中可將需要處理的信息進行聯機處理分析,將信息較快的處理出來,得到有效的結論。

          3.3客戶處理系統

          客戶處理系統是將數據進行分析處理以及檢索和報告的一個系統,通過對數據之間的聯系將數據的信息整理和挖掘出來,形成有用的線索,供警務系統人員進行案件的偵破和處理,是數據存儲器的重要部分,特別是數據挖掘技術的應用時整個系統的運作重心。

          4數據挖掘技術

          數據挖掘技術是將數據庫中的數據進行采集、集成以及分析的一項技術,其應用到警務系統中可以對案件相關信息進行檢索和分析,應用了多維數據分析處理及關聯規則的應用、聚類分析方法的實際處理等數據挖掘分析處理模式將警務系統中的數據有效的聯系起來,形成一個較為完整的數據挖掘模式。

          在挖掘出境數據時,數據挖掘技術的決策樹技術有效應用,與縣贏得算法技術相互應,將數據較為完整的從警務系統中巨大的信息庫中挖掘出來,實現了數據挖掘的分級處理模式的有效應用。

          5數據挖掘技術在現代警務系統中的應用

          在警務系統中,數據挖掘系統在案件的相關數據中整理生成了一個多維數據模型,使信息可視化、將案件信息的關系更加清楚的展現在警務系統的工作人員面前,通過多角度、多方面的分析和挖掘,將系統中的有用信息全部呈現在報告中,實現了信息的有效用。

          6結語

          警務系統中的信息有多樣化、復雜化、信息量巨大的特點,使用傳統的數據庫是不能按照現代的社會發展速度生存的,對數據進行高效的分析處理和采集,是現代警務數據處理系統應該具有的一項特點。在數據處理速度快的前提下,數據處理系統的管理能力和聯系能力也應該是突出的,本文中提到的數據挖掘技術就是解決數據處理問題的有效解決辦法,其運行通過對數據的建模、分析、采集等手段強化了數據處理系統的能力,為警務系統中案件處理效率的提升做出了一定的貢獻。目前社會的高速發展離不開大數據的支持,大數據時代對數據的處理系統要求越來越高,數據挖掘技術近些年在警務信息系統中的引用為警務系統的發展提供了技術上的有效支持,警務系統未來的發展肯定也離不開數據的有效處理工作,數據挖掘系統在未來的警務數據分析系統中也會有不斷地改善和提高。

          參考文獻

          篇2

          隨著電信網絡的不斷演進,全省數據網、交換網、接入網設備單月產生告警原始日志近億條。以上告警通過網元網管、專業綜合網管、智能網管系統[1]三層收斂,監控人員每月需處理影響業務或網絡質量的告警事件為20萬條,但一些對網絡可能造成隱患的告警信息被過濾掉。如何從海量告警數據中獲取與網絡性能指標、運維效率相關的有價值的數據,對于傳統的關系型數據庫架構而言,似乎是一個不可能完成的任務。

          在一般告警量情況下,ORACLE數據處理能力基本可以滿足分析需求,但當告警分析量上升到億級,如果采用傳統的數據存儲和計算方式,一方面數據量過大,表的管理、維護開銷過大,要做到每個字段建索引,存儲浪費巨大;另一方面計算分析過程耗時過長,無法滿足實時和準實時分析需求。因此必須采用新的技術架構來分析處理海量告警信息,支撐主動維護工作顯得尤為必要,為此我們引入了大數據技術。

          2 分析目標

          (1)數據源:電信運營商網絡設備告警日志數據,每天50 G。

          (2)數據分析目標:完成高頻翻轉類(瞬斷)告警分析;完成自定義網元、自定義告警等可定制告警分析;完成被過濾掉的告警分析、TOPN告警分析;核心設備和重要業務監控。

          (3)分析平臺硬件配置:云計算平臺分配8臺虛擬機,每臺虛機配置CPU16核;內存32 G;硬盤2 T。

          3 制定方案

          進入大數據時代,行業內涌現了大量的數據挖掘技術,數據處理和分析更高效、更有價值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計算、MapReduce[3]、Spark[4]算法等構造而成的新型架構,挖掘有價值信息。

          Hadoop是Apache基金會用JAVA語言開發的分布式框架,通過利用計算機集群對大規模數據進行分布式計算分析。Hadoop框架最重要的兩個核心是HDFS和MapReduce,HDFS用于分布式存儲,MapReduce則實現分布式任務計算。

          一個HDFS集群包含元數據節點(NameNode)、若干數據節點(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統,DataNode存儲數據塊文件。HDFS將一個文件劃分成若干個數據塊,這些數據塊存儲DataNode節點上。

          MapReduce是Google公司提出的針對大數據的編程模型。核心思想是將計算過程分解成Map(映射)和Reduce(歸約)兩個過程,也就是將一個大的計算任務拆分為多個小任務,MapReduce框架化繁為簡,輕松地解決了數據分布式存儲的計算問題,讓不熟悉并行編程的程序員也能輕松寫出分布式計算程序。MapReduce最大的不足則在于Map和Reduce都是以進程為單位調度、運行、結束的,磁盤I/O開銷大、效率低,無法滿足實時計算需求。

          Spark是由加州伯克利大學AMP實驗室開發的類Hadoop MapReduce的分布式并行計算框架,主要特點是彈性分布式數據集RDD[5],中間輸出結果可以保存在內存中,節省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優點外,還支持多次迭代計算,特別適合流計算和圖計算。

          基于成本、效率、復雜性等因素,我們選擇了HDFS+Spark實現對告警數據的挖掘分析。

          4 分析平臺設計

          4.1 Hadoop集群搭建

          基于CentOS-6.5系統環境搭建Hadoop集群,配置如表1所示。

          4.2 Spark參數設置[6]

          Spark參數設置如表2所示。

          4.3 數據采集層

          數據采集:由于需采集的告警設備種類繁多,故采取分布式的告警采集,數據網設備、交換網設備、接入網設備分別通過IP綜合網管、天元綜合網管、PON綜合網管進行采集,采集周期5分鐘一次。采集機先將采集到的告警日志文件,通過FTP接口上傳到智能網管系統文件服務器上,再對文件進行校驗,通過Sqoop推送到Hadoop集群上。

          4.4 邏輯處理層

          (1)建立高頻翻轉告警監控工作流程

          先將海量告警進行初步刪選,通過數量、位置和時間三個維度的分析,得出高頻翻轉類告警清單列表,最后由專業工程師甄別確認,對某類告警進行重點關注和監控。

          (2)差異化定制方案

          按組網架構細分,針對核心重要節點的所有告警均納入實時監控方案;

          按業務網絡細分,針對不同業務網絡設計個性化的監控方案;

          按客戶業務細分,針對客戶數字出租電路設計個性化的監控方案。

          4.5 數據分析層

          Spark讀取Hive[7]表的告警數據,然后在Spark引擎中進行SQL統計分析。Spark SQL模K在進行分析時,將外部告警數據源轉化為DataFrame[8],并像操作RDD或者將其注冊為臨時表的方式處理和分析這些數據。一旦將DataFrame注冊成臨時表,就可以使用類SQL的方式操作查詢分析告警數據。表3是利用Spark SQL對告警工單做的一個簡單分析:

          5 平臺實踐應用

          探索運維數據分析的新方法,利用大數據分析技術,分析可能影響業務/設備整體性能的設備告警,結合網絡性能數據,找到網絡隱患,實現主動維護的工作目標。

          5.1 高頻翻轉類告警監控

          首先制定了高頻翻轉類告警分析規則,將連續7天每天原始告警發生24次以上定義為高頻翻轉類告警,并基于大數據平臺開發了相應的分析腳本,目前已實現全專業所有告警類型的分析。表4是全省高頻翻轉類TOP10排名。

          5.2 核心設備和重要業務監控

          目前以設備廠商或專家經驗評定告警監控級別往往會與實際形成偏差,主要表現在以下幾個方面:監控級別的差異化設定基于已知的告警類型,一旦網絡重大故障上報未知的告警類型就無法在第一時間有效監控到;同一類型的故障告警出現在不同網絡層面可能影響業務的程度是完全不同的;不同保障級別的客戶對故障告警監控的實時性要求也是不同的。

          通過大數據分析平臺對差異化監控提供了靈活的定制手段,可根據告警關鍵字,分專業、地市、網管、機房、告警頻次等維度自主定制需要的告警數據,實現日、周、月、某個時間區等統計分析。

          應用案例:省NOC通過大數據分析出一條編號為CTVPN80113的中國平安大客戶電路在一段時間內頻繁產生線路劣化告警,但用戶未申告,省NOC隨即預警給政企支撐工程師,政支工程師與用戶溝通后,派維護人員至現場處理,發現線路接頭松動,緊急處理后告警消除、業務恢復。

          5.3 被過濾告警分析

          全省每天網絡告警數據300萬條~500萬條,其中99%都會根據告警過濾規則進行過濾篩選,把過濾后的告警呈現給網絡監控人員。過濾規則的準確性直接影響告警數據的質量。一般來說告警過濾規則可以從具有豐富運維經驗的網絡維護人員獲得,但是這個過程非常繁瑣,而且通過人工途徑獲得的告警過濾規則在不同的應用環境可能存在差異,無法滿足網絡維護的整體需要。采用大數據技術對被過濾的告警進行分析可以很好地完善過濾規則,讓真正急迫需要處理的告警優先呈現給維護人員及時處理,真正做到先于客戶發現故障。表5是動環專業被過濾的告警情況分布。

          5.4 動環深放電分析

          動環網管通過C接口采集蓄電池電壓數據,在停電告警產生之后,電壓數據首次下降到45 V,表示該局站電池出現深放電現象,通過計算這一放電過程的持續時間,記為深放電時長,該時長可以初步反映電池的放電性能。一個局站每天產生幾十萬條電壓等動環實時數據。

          在告警數據分析的基礎上,實現對蓄電池電壓變化數據的分析,提醒分公司關注那些深放電次數過多和放電時長過短的局站,核查蓄電池、油機配置、發電安排等,并進行整治。利用Spark SQL統計了一個月內撫州、贛州、吉安三分公司幾十億條動環數據,分析了其中深放電的情況如表6所示。

          6 結論

          本文利用HDFS+Spark技術,實驗性地解決告警數據存儲和分析等相關問題:一是通過數據分析,從海量告警數據中發現潛在的網絡隱患;二是結合資源信息和不同專業的告警,最終為用戶提供綜合預警;三是轉變網絡監控思路和方式,通過數據匯聚、數據相關性分析、數據可視化展示,提高了網絡監控效率;最后還擴展到對動環實時數據、信令數據進行分析。

          從實際運行效果來看,HDFS和Spark完全可以取代傳統的數據存儲和計算方式,滿足電信運營商主動運維的需求。

          參考文獻:

          [1] 中國電信股份有限公司. 中國電信智能網管技術規范-總體分冊[Z]. 2015.

          [2] Tom white. Hadoop權威指南[M]. 4版. 南京: 東南大學出版社, 2015.

          [3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.

          [4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.

          [5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.

          [6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業出版社, 2015.

          [7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.

          [8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.

          篇3

          大數據具有“4V”的特點:Volume、Variety、Velocity和Value,可實現大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數據的處理和分析要求,將大數據應用于信息安全領域能夠有效的識別各種攻擊行為或安全事件,具有重大的研究意義和實用價值。隨著企業規模的增大和安全設備的增加,信息安全分析的數據量呈指數級增長。數據源豐富、數據種類多、數據分析維度廣;同時,數據生成的速度更快,對信息安全分析應答能力要求也相應增長。傳統信息安全分析主要基于流量和日志兩大類數據,并與資產、業務行為、外部情報等進行關聯分析。基于流量的安全分析應用主要包括惡意代碼檢測、僵木蠕檢測、異常流量、Web安全分析等;基于日志的安全分析應用主要包括安全審計、主機入侵檢測等。將大數據分析技術引入到信息安全分析中,就是將分散的安全數據整合起來,通過高效的采集、存儲、檢索和分析,利用多階段、多層面的關聯分析以及異常行為分類預測模型,有效的發現APT攻擊、數據泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動性。而且,大數據分析涉及的數據更加全面,主要包括應用場景自身產生的數據、通過某種活動或內容“創建”出來的數據、相關背景數據及上下文關聯數據等。如何高效合理的處理和分析這些數據是安全大數據技術應當研究的問題。

          1.2安全大數據分析方法

          安全大數據分析的核心思想是基于網絡異常行為分析,通過對海量數據處理及學習建模,從海量數據中找出異常行為和相關特征;針對不同安全場景設計針對性的關聯分析方法,發揮大數據存儲和分析的優勢,從豐富的數據源中進行深度挖掘,進而挖掘出安全問題。安全大數據分析主要包括安全數據采集、存儲、檢索和安全數據的智能分析。(1)安全數據采集、存儲和檢索:基于大數據采集、存儲、檢索等技術,可以從根本上提升安全數據分析的效率。采集多種類型的數據,如業務數據、流量數據、安全設備日志數據及輿情數據等。針對不同的數據采用特定的采集方式,提升采集效率。針對日志信息可采用Chukwa、Flume、Scribe等工具;針對流量數據可采用流量景象方法,并使用Storm和Spark技術對數據進行存儲和分析;針對格式固定的業務數據,可使用HBase、GBase等列式存儲機制,通過MapReduce和Hive等分析方法,可以實時的對數據進行檢索,大大提升數據處理效率。(2)安全數據的智能分析:并行存儲和NoSQL數據庫提升了數據分析和查詢的效率,從海量數據中精確地挖掘安全問題還需要智能化的分析工具,主要包括ETL(如預處理)、統計建模工具(如回歸分析、時間序列預測、多元統計分析理論)、機器學習工具(如貝葉斯網絡、邏輯回歸、決策樹、隨機森利)、社交網絡工具(如關聯分析、隱馬爾可夫模型、條件隨機場)等。常用的大數據分析思路有先驗分析方法、分類預測分析方法、概率圖模型、關聯分析方法等。可使用Mahout和MLlib等分析工具對數據進行挖掘分析。綜上,一個完備的安全大數據分析平臺應自下而上分為數據采集層、大數據存儲層、數據挖掘分析層、可視化展示層。主要通過數據流、日志、業務數據、情報信息等多源異構數據進行分布式融合分析,針對不同場景搭建分析模型,最終實現信息安全的可管可控,展現整體安全態勢。

          2安全大數據分析的典型應用

          2.1基于用戶行為的不良信息治理

          中國移動開展了基于大數據的不良信息治理工作,主要針對垃圾短信和騷擾詐騙電話開展基于異常行為的大數據分析。通過開源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數據分析平臺,采集用戶的行為數據,構建用戶行為分析模型;分別提出了異常行為分類預測模型、統計預測分析模型、社交網絡分析模型等,將用戶的行為數據輸入到模型中,可以精準地挖掘出違規電話號碼,并且發現違規號碼與正常號碼之間存在大量相異的行為特征。通過用戶的行為,構建多維度的用戶畫像數據庫,支撐全方位的大數據不良信息治理服務,支撐大數據不良內容的智能識別等。實踐表明,大數據分析技術能夠挖掘出更多潛在的違規號碼,是對現有系統的有效補充。除此之外,中國移動還將大數據技術應用在安全態勢感知、手機惡意軟件檢測和釣魚網站的分析中,提升了現有系統的分析能力。

          2.2基于網絡流量的大數據分析

          在互聯網出口進行旁路流量監控,使用Hadoop存儲及Storm、Spark流分析技術,通過大數據分析技術梳理業務數據,深度分析所面臨的安全風險。主要分析思路是采集Netflow原始數據、路由器配置數據、僵木蠕檢測事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點分析及協議還原等方法,進行Web漏洞挖掘、CC攻擊檢測、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。

          2.3基于安全日志的大數據分析

          基于安全日志的大數據分析思路主要是融合多種安全日志,進行數據融合關聯分析,構建異常行為模型,來挖掘違規安全事件。主要的安全日志包含Web日志、IDS設備日志、Web攻擊日志、IDC日志、主機服務器日志、數據庫日志、網管日志、DNS日志及防火墻日志等,通過規則關聯分析、攻擊行為挖掘、情景關聯分析、歷史溯源等方法,來分析Web攻擊行為、Sql注入、敏感信息泄露、數據分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應用場景。基于安全日志的大數據分析已經在國際上有廣泛的應用。如IBMQRadar應用整合分散在網絡各處的數千個設備端點和應用中的日志源事件數據,并將原始安全數據進行標準化,以區別威脅和錯誤判斷;IBMQRadar還可以與IBMThreatIntelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機、垃圾郵件和其它威脅等;IBMQradar還可以將系統漏洞與事件和網絡數據相關聯,劃分安全性事件的優先級等。ZettaSet海量事件數據倉庫來分析網絡中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全數據倉庫)。Orchestrator是端到端的Hadoop管理產品,支持多個Hadoop分布;SDW是構建在Hadoop的基礎上,并且基于Hive分布式存儲。SDW于2011年BlackHat網絡安全會議面世,SDW可從網絡防火墻、安全設備、網站流量、業務流程以及其它事務中挖掘安全信息,確定并阻止安全性威脅。處理的數據質量和分析的事件數量比傳統SIEM多;對于一個月的數據負載,傳統SIEM搜索需要20~60min,Hive運行查詢只需1min左右。

          2.4基于DNS的安全大數據分析

          基于DNS的安全大數據分析通過對DNS系統的實時流量、日志進行大數據分析,對DNS流量的靜態及動態特征進行建模,提取DNS報文特征:DNS分組長、DNS響應時間、發送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報文特征,構建異常行為模型,來檢測針對DNS系統的各類流量攻擊(如DNS劫持、DNS拒絕服務攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚網站域名等。

          2.5APT攻擊大數據分析

          高級可持續性威脅(APT)攻擊通過周密的策劃與實施,針對特定對象進行長期的、有計劃的攻擊,具有高度隱蔽性、潛伏期長、攻擊路徑和渠道不確定等特征。現已成為信息安全保障領域的巨大威脅。“震網”潛伏3年,造成伊朗納坦茲核電站上千臺鈾濃縮離心機故障。收集業務系統流量、Web訪問日志、數據日志、資產庫及Web滲透知識庫等,提取系統指紋、攻擊種類、攻擊時間、黑客關注度、攻擊手段類型、行為歷史等事件特征,再基于大數據機器學習方法,發現Web滲透行為、追溯攻擊源、分析系統脆弱性,加強事中環節的威脅感知能力,同時支撐調查取證。

          篇4

          1石油化工檢測涵義

          一般來說,石油化工檢測技術層次面廣,涉及技術多,能夠將計算機、控制工程、信息處理、自動化以及電子等學科融合在一起,并且應用于石油化工領域自動化裝備以及其他自動化生產過程中。生產石油化工原料時,往往存在著較多的易燃易爆及有毒的氣體,一旦泄漏將會發生巨大的危險,嚴重時還會影響到相關工作人員的生命財產安全。因此,石油化工產業在一定程度上來說也存在著較高的危險性,所以對于安全問題的防范更要嚴加注意,在石油化工生產過程中,嚴格控制檢測程序,并且做好相關的記錄,避免檢測程序出現紕漏,影響石油化工的質量檢測。隨著科學技術的不斷進步,石油化工檢測技術也在不斷提高,更新換代,將現代計算機、電機學、物理、化學以及光學技術予以有機結合,從而實現了質的飛躍。在當前的石油化工檢測過程中,無損失檢測設備比較常見,并且廣泛應用于石油化工產業。隨著人們對新設備的采納,說明現代石油產業的新興概念已經開始被接受,這便是安全評價及安全檢測體系,安全評價主要采用工程技術方法以及安全系統工程原理來進行評價,全面分析系統中可能存在的危險因素或者已經發現的危險,亦可以稱之為危險性評價以及風險評價,主要包括危險性評價和危險性確定兩方面的內容,因此需要全面的對危險源予以排除,并且反復認真考核及校對,同時,合理的對危險源可能導致的后果進行預測及分析,并且和目前最新的安全指標予以校對,假如控制在安全范圍之內,則可以視之為安全,如果不在安全范圍之內,則需要上報上級部門,并且采取合理的措施,對危險源可能導致的危險予以降低或者避免。

          2數據分析技術的要點

          2.1數據集

          數據主要包括數值形態以及數字中的各種信息,而數據集則是一組數據的總和,數據集是數據分析技術的依據及基礎,數據分析技術主要通過數據集來實現此功能,僅僅少數的幾個數據對其來說并沒有實際意義,而且數據的種類通過需要有計量數據,比如重量、質量等,計數數據需要包括故障數、缺陷數以及合格品數,順序數據包括產品的質量狀態順序等。

          2.2數據整理

          收集的數據需要對其分類整理,比如分析目的以及分析對象等,將沒有實際意義的數據予以剔除,最終組成數據集。數據整體通常包括兩種,即分類整理及分層整理,分層整理主要是通過邏輯關系對該數據進行不同層次的整理,分類整理主要是通過收集到的數據的性質以及特點對其進行不同類別的整理。

          2.3分析工具

          目前常見的分析工具主要包括控制圖、因果圖、直方圖、散布圖、排列圖以及調查表,某些復雜的數據分析還會用到卡方分析、加權分析、回歸分析以及方差分析等。利用軟件工具包對其進行合理利用,比如MiniTab工具,不同的數據分析工具均具有其不同的適用條件以及自身特點,石油化工產品的檢測需要結合其產品技術特點和質量管理要求的特點,合理的采用相關工具,比如為了確保石油化工產品生產順利,應該將其危險源予以排除,從而判斷某批石油化工產品是否過關,充分了解石油化工產品的生產過程以及生產質量,通常可以利用控制圖以及統計抽樣檢驗的方法,從而避免石油化工產業發展過程中受到阻礙。

          2.4過程監督

          通過相關的數據分析,對整個石油化工產品生產質量的過程進行控制,比如通過控制圖將質量波動表現出來,對其質量程度進行判斷,挖掘出薄弱的環節,加強監督效果。

          3數據分析技術在石油化工檢測中的具體分析

          3.1分析石油化工產品安全檢查

          一般石油化工產品的系數均要控制于安全系數范圍中,根據表1數據可以看出,國標200#溶劑油產品的初餾點為190~245,密度0.893~0.912,閃點14~25℃,外觀無色透明,拔出常壓裝置石腦油和直柴的部分餾分,控制餾程在140~200℃,即可達到直接生產200#溶劑油,所有的數據均能夠確保相互獨立,而且彼此之間不受影響,呈正態分布,因此可以看出該檢測數據均處于一個合理的范圍的準備,此為安全檢測法表法,利用抽樣數據,結合SPSS軟件數據的標準方差以及平均值進行計算,對其進行比較,觀察數據是否控制在平均值的合理范圍內,在對其進行分析時,還能夠將安全檢測標準方差比值和標準平均值予以賦分,假如>1,則偏差較大,石油化工產品并沒有在安全范圍內,假如=0,則石油化工產品處于安全范圍之內。

          3.2分析石油化工產品預先危險性數據

          進行數據統計時,還有種分析方法,通常將其稱之為數據擬合,能夠將數據進行回歸分析,并且通過回歸分析函數的作用,對系統的危險性進行合理的預見。通常采取的數據回歸方法主要包括曲線擬合分析以及二元Logistic回歸分析,例如利用同居分析,對過往存在的事故中的安全數據系數予以統計,并且針對性的進行二元回歸擬合,進而計算出輸入函數,閃點指標數據統計、儲存時數據如果在可控范圍內,不會增加危險性。

          3.3分析石油化工產品的故障影響因素

          進行石油化工產品工作過程中,往往會發生故障,此類故障的概率主要受發生變質產品、某次故障以及工藝過程的影響,存在明顯的差異,對于主要因素的分析,通常可以采取方差對其進行分析。通過將兩個樣本設置成對比對象,從而計算出主要的影響因素,在進行數據的統計計量分析過程中,需要滿足統計量存在明顯的正態分布,經過結果表明,影響因素往往互相獨立,從而滿足方差分析的實際標準,利用數據統計及方差分析,能夠清晰明了地顯示出故障的主要愿意,并且對其進行合理的評價,為日后的整治措施提供理論依據。與此同時,方差分析還能對自動化儀表故障以及石油管道故障的主要因素進行分析,與此同時,石油長期儲存將會在不同程度上增加石油的膠質,而且柴油隨著產品氧化,也會使其安定性變低,影響其石油化工產品的使用。

          3.4分析石油化工產品的事件頻率

          進行石油化工產品的檢測過程中,通常會存在較大差異的不同類型的事故,而且此類事故對發生,因此,可以對這些數據頻率進行統計分析,利用頻率分析及參數估計,對數據頻率進行歸納分析,從而明確是否存在置問的范圍內,頻率分析法是目前較為常見的方法,通過對發生事件趨勢的監測,確定其分散峰度、偏度以及離散程度,利用模擬分布圖將事件的合法性頻率進行有效判斷。石油化工產品的時間頻率分析收益較高,能夠將其應用于主要故障的分析以及成品油質量的分析過程中。

          4結束語

          綜上所述,數據分析的范圍比較大,但是目前市場上有關石油化工產品檢測的設備均大同小異,最終目的確保油品質量過關,但是這只是一方面的因素,重要的是進行石油化工產品的生產過程中,降低事故的發生頻率,這才是石油化工產業亟待解決的重要問題。為了適應當前石油化工產品的檢測需求,針對性的進行軟件開發,合理的予以數據分析,除此之外國外還要出臺一些優惠政策,從而確保石油化工產業健康發展。

          參考文獻

          [1]董偉亮.解析石油化工檢驗檢測的若干問題的思考[C].//科技研究——2015科技產業發展與建設成就研討會論文集(上).2015.

          篇5

          一、數據挖掘技術簡介

          1.1數據挖掘的概念

          在上世紀90年代內,研究人員提出了數據挖掘,主要目的就是希望能夠將所采集到的應用數據內所具有的潛在價值信息挖掘,獲取價值信息。數據挖掘內包含較多學科內容,例如人工智能、統計、可視化技術、數據庫等。數據挖掘在對數據分析研究過程中,主要采取分類及聚類進行監測,對有關知識進行演變。數據挖掘常見模式主要分為四種,分別為頻繁模式、分類模式、聚類模式與異常模式[1]。

          1.2數據挖掘的過程

          1、數據準備。數據準備階段主要包含兩方面工作,分別為數據獲取和數據預處理。數據挖掘應用點在確定之后,能夠有效對有關數據進行收集,同時對數據背景進行掌握,對挖掘模式進行確定。有關數據在收集之后,需要對數據內所包含的冗余數據及空缺數據進行預處理,為計算機分析奠定堅實基礎。

          2、數據挖掘。數據娃聚主要是在數量及挖掘目標確定之后,選擇合適的數據挖掘方法及技術,對數據進行計算分析,構建針對性數據。

          3、挖掘結果展示。數據挖掘技術所得到的數據結果,十分抽象,除了數據挖掘技術行業工作人員無法對數據挖掘結果進行了解,所以需要對數據挖掘結果進行轉化,通過圖形及圖像的方式,將挖掘結果在屏幕內顯示出來,直觀將挖掘結果展示出來,用戶能夠對挖掘結果深入理解。

          4、挖掘結果應用分析。按照挖掘背景及目的,對數據挖掘結果進行系統性分析研究,進而找到海量數據內具有價值的信息,同時這些信息技有關生產,對數據挖掘結果正確性進行判斷,對數據挖掘有關知識進行修正、完善[2]。

          二、數據挖掘技術在頻譜監測數據分析中的應用

          2.1認知無線電中頻譜資源預測應用

          認知無線在頻譜監測數據內應用,能夠有效提高頻譜監測數據質量,同時非授權用戶也可以對頻譜資源進行利用。授權用戶在對頻譜監測數應用過程中,非授權用戶能夠直接將頻譜監測數據資源讓出來,非授權用戶就需要充分構建頻譜途徑,構建通信連接。非授權用戶要是沒有直接將頻譜資源讓出來,授權用戶與非授權用戶之間就會產生矛盾,進而造成通信中斷,這樣情況所將的損失將是無法預計的。所以,非授權用戶及授權用戶要是都能夠對頻譜資源精確劃分,能夠有效對資源矛盾事件防止,在這種情況下頻譜監測資源利用效率也就顯著提升。

          正式由于認識無線電技術在實際應用內所具有的優勢,在對認知無線電技術分析研究過程中,需要將重點放在授權用戶應用規律上面,對授權用戶占據頻譜監測數據空余時間進行預測,幫助非授權用戶能夠在授權用戶空余時間內尋找利用有關資源,這種預測性分析研究主要是通過數據挖掘技術內的頻發模式實現。

          2.2異常無線電信號監測應用

          無線電監測站在常規監測過程中,最為主要的一項工作就是對異常無線電信號進行監測,嚴禁非法占用情況出現,有效提高無線電通信安全性能。

          按照無線電監測所產生的數據可知,頻譜設備屬于常規性運行,一旦出現異常運行情況,所輸出的信號就與常規狀態下信號存在一定差異。所以,想要了解頻譜設備出現異常情況,只需要將將信號進行分析比較,數據挖掘技術能夠有效對海量信號內特點進行提取,在海量信號內尋找到異常信號。數據挖掘技術在無線電監測內應用,首先是通過無線電監測歷史數據構建數據模型,模型在具有自我學習能力之后,能夠應對無線電瞬息變化環境,對數據模型與歷史數據模型相似點進行計算,在發現無線電設備出現異常運行情況之后,數據模型就會發出警告。

          結論:數據挖掘技術在頻譜監測數據分析內應用,能夠有效對l譜監測數據分析流程進行簡化,在大量數據信息內高效率的找到針對性數據信息,提高信息挖掘質量,進而為管理人員提供針對性意見。正式由于數據挖掘技術在頻譜監測數據分析內所具有的作用,所以對數據挖掘技術進行分析研究,能夠有效推動頻譜監測數據發展。

          篇6

          大數據的主要特點是海量、非結構化和半結構化、實時處理。大數據技術,或大數據分析技術,就是對這些數量巨大的海量數據進行搜索、整理、分析、加工,以便獲得有價值的產品和服務,以及提煉出具有深刻見解和潛在價值信息的技術和手段。

          1 大數據分析在公共交通中的應用

          交通擁堵日益嚴重,交通事故頻繁發生,這些都是各大城市亟待解決的問題,科學分析交通管理體系成為改善城市交通的關鍵所在。因此,高效、準確地獲取交通數據是構建合理城市交通管理體系的前提,而這一難題可以通過大數據管理得到解決。

          大數據分析技術改變了傳統公共交通的路徑:大數據可以跨越行政區域的限制;大數據可以高效地整合交通信息;大數據可以較好地配置公共交通資源;大數據可以促進公共交通均衡性發展。在大數據中,隨著數據庫攝入更多數據,所消耗的計算工作量反而遞減,配置成本也隨之減小,但所做的計算則更加精準。大數據在公共交通中的應用表現在:一旦某個路段發生問題,能立刻從大數據中調出有用信息,確保交通的連貫性和持續性;另一方面,大數據具有較高預測能力,可降低誤報和漏報的概率, 可隨時針對公共交通的動態性給予實時監控。因此,在駕駛者無法預知交通擁堵的可能性時,大數據可幫助用戶預先了解。

          2 大數據分析在醫藥領域中的應用

          在醫學領域,我們正處在一醫學信息爆炸的時代。基因序列、各種醫學圖像、電子病歷記錄和多中心臨床藥物試驗等,使生物醫學領域跨入網絡化的大數據時代。如何從醫療大數據中提取出有用的信息是目前亟待解決的問題,構建醫療大數據系統需要將各家醫院通過互聯網連接,實現各家醫院之間的數據共享。將醫療數據存于專門的數據庫中,在信息協作平臺上將各種醫療信息分類整合,建立成一個相互共享的網絡,從而實現醫療數據信息的共享。

          大數據技術的核心就是預測,使用大數據分析技術可以提高診斷疾病的準確率,對有效地治療疾病具有重要價值。其中最好地體現在傳染病預測上,因為傳染病的發生、發展、分布與地理地貌、生態景觀、人文環境有密切關系,特別在全球氣候變化和經濟全球化背景下,自然環境及人類社會活動對傳染病的影響越來越重要。因此,時間和空間信息對傳染病的預測、預警具有重要意義。利用大數據可對傳染病疫情的時間、空間信息進行多維搜索,檢索、處理和分析這些疫情信息可實現對傳染病的流行趨勢及影響范圍進行預測、預警,對提高傳染病防控的針對性、預見性和主動性,抑制流行病的蔓延,以及制定衛生決策都具有十分重要的意義。

          3 大數據分析在移動通信網絡優化中的應用

          當前的大數據技術面臨著數據過大和安全隱患越多這兩個問題。在移動通信網絡發展的過程中,網上用戶在不斷增加,通信網絡的范圍在不斷擴大, 而移動通信網絡所產生的數據量也在不斷上升。大數據技術和移動通信網絡的安全問題密切相關,一旦技術出現漏洞,移動通信網絡的數據就會出現安全隱患。大數據技術中存儲功能的是云儲存技術,它將大量的網絡數據放在統一的平臺之上,加大了數據丟失的風險,影響移動通信網絡的安全。

          優化移動通信網絡,需要運用大數據技術的儲存功能。移動通信網絡的用戶在不斷變化,每天都要更新大量的數據,而且這些數據都需要進行妥善管理和保存。在這一過程中,可以應用大數據技術的存儲功能, 將存儲虛擬化作為解決存儲問題的有效策略。

          優化移動通信網絡,需要獲取相關的數據信息。移動通信網絡的用戶非常多,而且其所跨越的時間、空間維度都很大,這些用戶在移動通信網絡留下的海量的數據信息,使數據獲取工作難以繼續。在進行數據的獲取和收集工作時,移動通信網絡可以應用大數據技術,減少人力和物力的投入,同時增加數據的準確度。

          4 結語

          本文是大數據技術在實際生活領域的應用,分別闡述了大數據分析技術在公共交通、醫藥領域、移動通信網絡優化中的具體運用。借助大數據技術的即時性、準確性和預測性,將其應用到人們的日常生活領域,提高了人們的生活質量。

          參考文獻

          [1]陳美.大數據在公共交通中的應用[J]. 圖書與情報,2012(06):22-28.

          [2]張春麗,成.大數據分析技術及其在醫藥領域中的應用[J].標記免疫分析與臨床,2016(03):327-333.

          [3]汪敏,廖名揚.大數據分析在移動通信網絡優化中的應用研究[J].通訊世界,2017(02):123.

          [4]祝興平.大數據分析技術及其在數字出版中的應用[J].出版發行研究,2014(04):13-16.

          [5]程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數據系統和分析技術綜述[J]. 軟件學報,2014(09):1889-1908.

          作者簡介

          篇7

          由于能將存儲讀寫響應時間從毫秒縮短到微秒級別,閃存這種最先用于消費級電子產品領域的技術也開始被企業級存儲市場關注和青睞。隨著大數據時代的到來,企業需要更強更快的分析洞察能力,閃存技術越來越多地出現在硬件底層,以加速大數據應用。

          正是看準這一機遇,自去年收購閃存企業Texas Memory System后,IBM在近日宣布投入10億美元研發資金,用于設計和創建新的閃存解決方案,并將其集成到日益增多的服務器、存儲系統和中間件中。IBM副總裁、IBM系統與科技部企業級存儲產品線總經理周諗畬表示,閃存將對企業產生革命性影響。尤其是對于事務密集型應用,它將為運營信息提供實時的決策支持,并且提高關鍵任務的工作負載性能,例如信用卡處理、證券交易、制造業和訂單處理系統。

          美國目前的閃存企業多達100多家。IBM院士、存儲首席技術官許育誠表示,閃存技術用于企業級別最大的挑戰在于承載能力。有的閃存產品初始速度很快,但當閃存存儲承載到一定級別后讀寫速度就顯著降低,甚至降低到磁盤讀取速度的級別。而IBM 在中國剛剛推出的FlashSystem全閃存系統其實已經在全球的銀行交易和電信應用上有不少的成熟客戶,他們的處理時間縮短了90%。在ERP和業務分析應用中,批處理時間縮短了85%。在美國運營商Sprint的最新規劃中,甚至計劃把最活躍的數據都轉移到IBM FlashSystem全閃存存儲系統中去。據悉,新的IBM FlashSystem是IBM穩步擴展的全閃存和混合(磁盤/閃存)解決方案的新成員,后者還包括IBM Storwize V7000、IBM System Storage DS8870和IBM XIV Storage System。

          IBM 投入的10億美元研發經費將如何提升閃存技術呢?許育誠總結了三大方向。一是更高密度的閃存,現在1U的存儲量是24TB,每年I/O吞吐量將增加一倍,數據存儲也增加一倍。二是核心物理介質技術的提升,“未來將會是24納米,15納米的技術,以及更強的數字信號處理能力,比如IBM蘇黎世實驗室就在研究數字信號進程技術。”許育誠說。第三,閃存將影響上層中間件的軟件架構的設計思路。如果沒有軟件層面的優化,用戶使用閃存技術僅僅獲得的是20%以上的速度提升。雖然這也是非常可觀的改善,但是由于軟件以前的設計思路是將存儲看作整個系統應用速度的瓶頸,當閃存提升存儲速度后,軟件將會成為一種全新的設計思路。

          以DB2 Blue為例,它直接做實時分析而無需將數據轉移到其他地方,這種配合軟件優化技術的產品,可以將速度提升20倍甚至百倍。據悉,IBM目前至少有兩種產品在應用軟件和閃存共同優化的技術:一個是DB2 Blue;另一個是PureData Analytics的最新版本,它將DB2和信息管理軟件進行高度整合,成為大數據基礎云的最新產品。

          篇8

          新疆油田重油開發公司是以稠油開采為主的采油廠。有著將近10年的數字油田建設歷史。而且中心數據庫已經做得很成熟,主要包括五大業務板塊數據。即勘探業務板塊、開發業務板塊、生產業務板塊、經營業務板塊的數據庫。數據庫包括的內容主要有單井、區塊的日月報數據、試井與生產測井數據、分析化驗數據、井下作業和地理信息數據等。數據庫的數據資源種類齊全,質量高。2010年新疆油田重油開發公司正式開始進行智能化油田建設工作,利用物聯網診斷單井問題,使用大數據技術對油田進行全面感知、分析預測、優化決策找到油水井的生產規律,從而有助于油田生產工作進行。

          1 油田大數據的概念及處理流程

          大數據有四個特點即量大(Volume)、快速生產(Velocity)、類型豐富(Variety)、真實性(Veracity),被稱為4V[1]。由于數據的數量非常大,就將數據組成數據集,進行管理、處理實現數據的價值。大數據對數據庫的整理流程是將數據轉化為信息,將信息轉化為知識,再將知識轉化為智慧。這個過程應用于油田可以理解為是對油田的生產和管理工作。大數據的七個處理步驟包括:對數據的提取和收集、清洗數據、分析數據找到潛在的內在價值規律、建立預測模型、對結果進行可視化的估計、驗證結果、評估模型。

          2 大數據分析平臺及體系架構研究

          新疆油田為了滿足生產應用,構建了一個有效的大數據分析平臺及體系架構。此平臺主要包括四個基礎架構:數據抽取平臺、進行分布式的存儲平臺、大數據的分析與展示平臺。最底層是數據抽取平臺主要是實現數據的整合,將數據轉化成適合進行數據挖掘或者建模的形式,構建可靠的樣本數據集。存儲平臺主要是對數據進行匯總、建模、分析,最后將處理好的數據進行儲存。其功能與數據倉庫相似。大數據分析層,是在大數據建模的工具和算法基礎上,挖掘隱藏的數據模式和關系,利用數據軟件進行分類、建模,生成預測的結果,結合專家經驗利用測試的樣本選定評價方案不斷提高模型的精度,更好的用于油田的決策。數據應用層主要是把建立的模型設計為運行軟件,運用建模方法實現數據的可視化界面設計,更好的實現人機交互。

          3 大數據分析技術研究

          進行大數據分析時我們經常采用兩大技術即大數據預處理和抽取技術,大數據分析技術。

          3.1 大數據抽取及預處理技術

          大數據預處理和抽取技術的原理是指將不同名稱,不同時間,不同地點的多種不同結構和類別的數據抽取處理成一種所表達的算法和內涵一致便于處理類型的數據結構[2]。在檢查數據缺失、數據異常時可以使用數據清洗方法確定有用的數據,一般采用剔除法或估計值法、填補平均值替換錯誤的數據。為了滿足建模所需的大量數據,創建新的字段時需要進行數據庫的構建。將原始數據用一定的方法如歸一法轉換為可用于數據挖掘的數據,這個過程為數據轉換。

          3.2 大數據分析技術

          應用于油田的大數據分析技術為:因子分析技術、聚類分析技術、回歸分析技術和數據挖掘技術。其中的因子分析技術是指,利用少數的因子對多個指標和因素間的相關性進行描述,一般將密切相關的多個變量歸納為一類,這一類數據就屬于一個影響因子,用較少的因子反應大量數據的信息。聚類分析技術是指把具有某種共同特性的事物或者物體歸屬于一個類型,并按照這些特性劃分為幾個類別,同種類型的事物相似性較高。這樣更利于辨別預先未知的事物特征。回歸分析是指在一組數據的基礎之上,研究一個變量和其他變量間隱藏的關系。利用回歸方程,進行回歸分析,從而有規律地把變量之間的不規則,不確定的復雜關系簡單得表示出來。

          在使用大數據進行分析時,數據挖掘技術是最關鍵的一門技術。該技術將大量復雜的、隨機性的、模糊的、不完整的數據進行分析,挖掘出對人類未來有用的數據,即提前獲得未知信息的過程[3]。數據挖掘功能分為預測功能和描述功能。數據預測是指對數據進行處理推算,完成預測的目的。數據描述是展現集體數據的特性。數據挖掘功能是與數據的目標類型有關,有的功能適用于不同類型的數據,有的功能則只適用于特定功能的數據。數據挖掘的作用就是讓人們能夠提前得到未知的消息,提升數據的有效性,使其可以應用于不同的領域。

          4 大數據分析在油田生產中的應用研究

          4.1 異常井自動識別

          油田生產過程中影響最大的一個因素是異常井的出現,因此生產管理人員加大了對異常井的重視。最初,異常井的識別主要是依靠生產部門的生產人員,必須經過人工查閱許多關于油田生產的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說大量的檢索工作、耗費時間長等,對異常井的診斷和措施制定造成很大的困難。異常井是指油井當天的產油量和上個月相比波動很大,并大于正常的波動范圍。目前廣泛采用數據挖掘技術和聚類分析技術對異常井進行識別,提高效率。為了實現算法編譯使用技術,系統架構B/S模式進行,能夠及時發現異常井的存在。

          4.2 異常井智能診斷

          異常井診斷是油田每天進行生產必須要完成的工序。而大部分油田采用人工方法對其進行異常診斷,工作量極大,影響因素較多,診斷結果的可靠性較低,對后期進行計劃實施造成很大的影響。這時可以采用智能診斷方法,利用灰度圖像處理技術和人臉識別算法建立抽油井的特征功圖庫,對比油井當前的功圖和所建立的特征功圖,實現異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時一種工況可能會有許多中表現方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個工況下關聯的因子間是如何變化,然后建立參數診斷數據庫,對比相關因子的指標項,找到異常的原因,采取適合的方案進行修改,從而提高單井的生產效率。

          4.3 間抽井開關井計劃制訂

          當油田開發進入后期階段就會出現很多問題,過度開發使得地層的能量越來越少,致使更多供液不足的井開發出來。將這類井稱之為間歇出油井。新疆油田一般會使用人工方法制訂間歇出油井的開關時間計劃,但是對于計劃的合理性沒有進行檢驗。若是能夠控制好間歇出油井的開關時間,對油田實現節能減排是至關重要的。這時可以采用因子分析方法和回歸分析法進行研究,利用數據挖掘技術找出影響間歇出油井的開關時間的因素,建立合適的分析模型,對模型進行線性回歸,進行歸一化處理。從而為業務人員提供制訂間歇出油井開關時間的合理方案,達到節能減排的效果。

          4.4 油井清防蠟預測

          目前油田上對于油井清蠟采取平均每口井一個月清洗一次蠟的措施,按照人工計劃進行,出現了許多問題。比如,一些井還沒有結蠟就已被清洗,有些井已經結蠟,卻沒有得到及時清洗。這樣既浪費大量的人力物力,而且還對油田的生產效率產生不利影響。若是利用因子分析法,將收集的關于結蠟周期、清蠟方式、清蠟用量、油井狀況等數據進行分析,建立油井Y蠟模型,再利用回歸分析法對建立的模型建立曲線方程,進行預測,找到結蠟時間,推斷出結蠟周期,更好的指導油田清蠟工序的進行,提高油田的精細化管理。

          5 結束語

          總之,對比以前利用人工進行油田生產可以發現大數據對于油田生產是非常必要的,可以更快的挖掘油田的生產作業規律,解決油田生產的困難。而且,可以利用油田數據進行可視化分析,關注問題的主要影響因素找到管理中存在的不足,預防未來問題的出現。大數據的核心價值就是通過以往大量數據進行分析,預測出未來,從而更好地指導油田的生產工作。

          參考文獻

          篇9

          一、緒論

          互聯網技術不斷革新與發展,給全球經濟帶來新的革命,從而也影響著人們的生活。互聯網為企業提供了一種真正屬于自己并面對廣大網民的信息載體,企業通過這一載體,可以自由地將企業的產品、服務等其他相關信息在線。

          電子商務就是網上實行各種商務活動的總包裝,種種所謂電子商務解決方案,實際上就是實現各種網上商務活動的硬件與軟件系統。它將影響到每一個人、每一個企業。電子商務的主體是我們每一個人、每一個企業,電子商務發展的過程就是對人們的生活、企業的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數字,它還是一種信息,如果網站能夠從網絡中獲得網民的信息并從中分析其行為誘因,那么就容易掌握網民的需求,從而利用互聯網去創造更多商機。

          電子商務站點用戶行為的分析這一問題也因此成為現如今的熱門話題,被人們普遍關心起來,尤其是被眾商家所重視。Web站點的日志數據正以每天數十兆的速度增長。如何分析這些數據,如何從這些大量數據中發現有用的、重要的知識(包括模式、規則、可視化結構等)也成為現在人們最關注的信息。

          在此情況下,站點用戶行為分析就可為網站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業廣告點擊情況總括、產品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據不同的頁面內容來分類瀏覽者,以便做出更合理的頁面分類,促使網站逐步向個性化、最優化狀態發展。這一技術對互聯網的發展壯大有著不可忽視的巨大作用,它的發展對信息技術亦將產生深遠的影響。

          在電子商務早期階段時,Web站點數據流分析通常是在主頁上安裝計數器以及在一個外部日志文件上運行簡單的統計程序記錄點擊率。但是,簡單的點擊計數既不準確也遠未達到營銷目的所需的詳細程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司Web站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務器的訪問日志。每當用戶在站點上請求一個網頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數據流分析工具的這些最新進展可以使網站獲得有關上網客戶和他們習慣的詳細報告。

          二、站點信息統計方法

          Web頁面數據主要是半結構化數據,計算機網絡技術和信息技術的飛速發展,使得半結構化數據呈現日益繁榮的趨勢。半結構化數據,是一種介于模式固定的結構化數據,和完全沒有模式的無序數據之間,在查詢前無法預先確定其具體的類型和格式;同時它們相應的數據結構是不固定、不完全或不規則的,即這些數據有的本身就沒有結構,有的只有十分松散的結構,有的數據的結構是隱含的,需要從數據中進行抽取。而有時,盡管數據本身是有精確結構的,但為了一定的目的,而故意忽視它的結構。半結構化數據具有以下五方面的

          主要特點:

          1.結構是不規則的。包含異構數據、相同的數據信息用不同類型或不同的結構表示。

          2.結構是隱含的。如電子文檔SGML格式。

          3.結構是部分的,有時部分數據根本無結構,而部分數據只有粗略的結構。

          4.指示性結構與約束性結構。傳統的數據庫使用嚴格的分類策略來保護數據。而指示性數據結構是對結構的一種非精確的描述。它可接受所有新數據,代價是要頻繁修改結構。

          5.半結構化數據通常在數據存在之后才能通過當前數據歸納出其結構,稱之為事后模式引導。模式有時可被忽略,同時數據與數據模式間的區別逐漸消除。

          三、數據分析的方法

          Web頁面的數據通常是利用統計模型和數學模型來分析的。使用的模型有線性分析和非線性分析;連續回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統計分析工具能提供可視化功能和分析功能來尋找數據間關系、構造模型來分析、解釋數據。并通過交互式過程和迭代過程用來求精模型,最終開發出最具適應性的模型來將數據轉化為有價值的信息。

          知識發現是從數據倉庫的大量數據中篩取信息,尋找經常出現的模式,檢查趨勢并發掘實施。它是分析Web頁面數據的重要方法。知識發現與模式識別的算法有以下幾種:

          1.依賴性分析

          依賴性分析算法搜索數據倉庫的條目和對象,從中尋找重復出現概率很高的模式。它展示了數據間未知的依賴關系。利用依賴性分析算法可以從某一數據對象的信息來推斷另一數據對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經過依賴性分析,商店認為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。

          2.聚類和分類

          在某些情況下,無法界定要分析的數據類,用聚類算法發現一些不知道的數據類或懷疑的數據類。聚類的過程是以某一特定時間為依據,找出一個共享一些公共類別的群體,它稱為無監督學習。分類過程,這是發現一些規定某些商品或時間是否屬于某一特定數據子集的規則。這些數據類很少在關系數據庫中進行定義,因而規范的數據模型中沒有它們的位置。最典型的例子是信用卡核準過程,可確定能否按商品價格和其它標準把某一購買者歸入可接受的那一類中。分類又稱為有監督學習。

          3.神經網絡

          神經網絡通過學習待分析數據中的模式來構造模型。它對隱式類型進行分類。圖像分析是神經網絡最成功的應用之一。神經網絡用于模型化非線性的、復雜的或噪聲高的數據。一般神經模型由三個層次組成:數據倉庫數據輸入、中間層(各種神經元)和輸出。它通常用恰當的數據庫示例來訓練和學習、校正預測的模型,提高預測結果的準確性。

          4.數據挖掘中的關聯規則

          關聯規則是數據挖掘的一個重要內容,通常關聯規則反映的是數據間的定性關聯關系。如一個商品交易數據庫,一條記錄表示用戶一次購買的商品種類,每個屬性(A、B……)代表一種商品,每個屬性都是布爾類型的。一條關聯規則的例子是:{A、B}{D}[2%][60%],規則的含義是“如果用戶購買商品A和B,那么也可能購買商品D,因為同時購買商品A、B和D的交易記錄占總交易數的2%而購買A和B的交易中,有60%的交易也包含D”。規則中60%是規則的信任度,2%是規則的支持度。數據挖掘就是要發現所有滿足用戶定義的最小信任度和支持度閥值限制的關聯規則。數據只是定性地描述一個交易是否包含某商品,而對交易量沒有定量描述,這種布爾類型數據間的關聯規則被稱為定性關聯規則。但數據記錄的屬性往往是數值型或字符型的,這些數據間也存在對決策有幫助的關聯規則,相對于定性關聯規則,這些規則被稱為定量關聯規則。

          另外,數據挖掘目前仍面臨著數據質量的問題。由于數據倉庫中的數據來自多個數據源,而在合并中存在很多障礙,如:沒有建立合并視圖所需的公共關鍵字;數據值相互抵觸;元數據的說明不完備或丟失;數據值的不潔凈等等。數據挖掘是在標準化的數據基礎上進行的,因而這些都會嚴重破壞數據的準確性,導致最終決策的失誤。所有這些問題都在等待著人們去發掘更好的解決方法。

          參考資料

          1.周斌,吳泉源,高洪奎:“用戶訪問模式數據挖掘的模型與算法研究”,《計算機研究與發展》,1999 vol.36 No.7 P.870-875;

          2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;

          3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;

          篇10

          近日,英特爾公司公布了其在高性能計算方面的創新,并宣布推出全新軟件工具,幫助企業和研究人員從大量數據中獲得深入洞察,解決業務難題和科學挑戰。

          英特爾通過與各合作伙伴的合作,利用當前可用技術,創建出易于編程且經濟高效的新一代高度集成的解決方案。在合作過程中,英特爾還計劃提供定制化高性能計算產品,來滿足客戶的廣泛需求。這一計劃將通過加入優化特性等方式,提升基于標準的英特爾可擴展平臺的價值。在今年的超級計算大會上,英特爾展示了新一代能夠被用作主處理器的英特爾至強融核產品――Knights Landing。該處理器可用于標準機架架構之中,同時無縫運行原生應用,而無需將數據轉移至協處理器。這一處理器將能夠降低編程的復雜性,并消除數據“負載的轉移”,縮短內存、PCIe和網絡導致的延遲。

          此外,英特爾與富士通公司最近宣布推出了一項可利用光纖鏈路來替代計算機電纜的計劃,前者可通過基于英特爾硅光子技術的鏈路來承擔以太網或PCI Express的流量。在此基礎之上,英特爾至強融核協處理器將可以安裝至與主英特爾至強處理器相分離的擴展機箱中,但功能卻如同其仍位于主板上一樣,從而能夠實現更高的協處理器安裝密度,并在不影響主服務器運行的情況下擴展計算機容量。

          如今,在高性能計算行業中系統和并行軟件的高性能讓我們可以創建出大而復雜的模擬。但是,由于非結構化數據占所有數據的 80%,同時該類數據量的增長速度比其他數據快 15 倍,為滿足這一需求,英特爾推出了Intel HPC Distribution for Apache Hadoop。該解決方案結合了 Apache Hadoop 軟件的英特爾分發版和Lustre軟件的英特爾企業版,為存儲和處理大型數據集提供了企業級解決方案。這一組合將能夠支持用戶無需做出改變,即可在基于 Lustre的快速共享存儲上直接運行MapReduce應用,并加快存儲速度,提高管理速度、可擴展性和易用性。

          The Intel Cloud Edition for Lustre是一個可擴展的并行文件系統,通過Amazon Web Services Marketplace提供,允許用戶以隨用隨付的形式購買使用。該軟件可用于快速模擬和原型設計等動態應用,當出現超出用戶內部計算或存儲性能的緊急的、意外的任務時,該軟件可用于處理云爆發模式下的高性能計算工作負載,從而將任務遷移至云之前,快速供應所需的基礎設施。

          篇11

              一、緒論

              互聯網技術不斷革新與發展,給全球經濟帶來新的革命,從而也影響著人們的生活。互聯網為企業提供了一種真正屬于自己并面對廣大網民的信息載體,企業通過這一載體,可以自由地將企業的產品、服務等其他相關信息在線。

              電子商務就是網上實行各種商務活動的總包裝,種種所謂電子商務解決方案,實際上就是實現各種網上商務活動的硬件與軟件系統。它將影響到每一個人、每一個企業。電子商務的主體是我們每一個人、每一個企業,電子商務發展的過程就是對人們的生活、企業的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數字,它還是一種信息,如果網站能夠從網絡中獲得網民的信息并從中分析其行為誘因,那么就容易掌握網民的需求,從而利用互聯網去創造更多商機。

              電子商務站點用戶行為的分析這一問題也因此成為現如今的熱門話題,被人們普遍關心起來,尤其是被眾商家所重視。Web站點的日志數據正以每天數十兆的速度增長。如何分析這些數據,如何從這些大量數據中發現有用的、重要的知識(包括模式、規則、可視化結構等)也成為現在人們最關注的信息。

              在此情況下,站點用戶行為分析就可為網站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業廣告點擊情況總括、產品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據不同的頁面內容來分類瀏覽者,以便做出更合理的頁面分類,促使網站逐步向個性化、最優化狀態發展。這一技術對互聯網的發展壯大有著不可忽視的巨大作用,它的發展對信息技術亦將產生深遠的影響。

              在電子商務早期階段時,Web站點數據流分析通常是在主頁上安裝計數器以及在一個外部日志文件上運行簡單的統計程序記錄點擊率。但是,簡單的點擊計數既不準確也遠未達到營銷目的所需的詳細程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司Web站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務器的訪問日志。每當用戶在站點上請求一個網頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數據流分析工具的這些最新進展可以使網站獲得有關上網客戶和他們習慣的詳細報告。

              二、站點信息統計方法

              Web頁面數據主要是半結構化數據,計算機網絡技術和信息技術的飛速發展,使得半結構化數據呈現日益繁榮的趨勢。半結構化數據,是一種介于模式固定的結構化數據,和完全沒有模式的無序數據之間,在查詢前無法預先確定其具體的類型和格式;同時它們相應的數據結構是不固定、不完全或不規則的,即這些數據有的本身就沒有結構,有的只有十分松散的結構,有的數據的結構是隱含的,需要從數據中進行抽取。而有時,盡管數據本身是有精確結構的,但為了一定的目的,而故意忽視它的結構。半結構化數據具有以下五方面的

              主要特點:

              1.結構是不規則的。包含異構數據、相同的數據信息用不同類型或不同的結構表示。

              2.結構是隱含的。如電子文檔SGML格式。

              3.結構是部分的,有時部分數據根本無結構,而部分數據只有粗略的結構。

              4.指示性結構與約束性結構。傳統的數據庫使用嚴格的分類策略來保護數據。而指示性數據結構是對結構的一種非精確的描述。它可接受所有新數據,代價是要頻繁修改結構。

              5.半結構化數據通常在數據存在之后才能通過當前數據歸納出其結構,稱之為事后模式引導。模式有時可被忽略,同時數據與數據模式間的區別逐漸消除。

              三、數據分析的方法

              Web頁面的數據通常是利用統計模型和數學模型來分析的。使用的模型有線性分析和非線性分析;連續回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統計分析工具能提供可視化功能和分析功能來尋找數據間關系、構造模型來分析、解釋數據。并通過交互式過程和迭代過程用來求精模型,最終開發出最具適應性的模型來將數據轉化為有價值的信息。

              知識發現是從數據倉庫的大量數據中篩取信息,尋找經常出現的模式,檢查趨勢并發掘實施。它是分析Web頁面數據的重要方法。知識發現與模式識別的算法有以下幾種:

              1.依賴性分析

              依賴性分析算法搜索數據倉庫的條目和對象,從中尋找重復出現概率很高的模式。它展示了數據間未知的依賴關系。利用依賴性分析算法可以從某一數據對象的信息來推斷另一數據對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經過依賴性分析,商店認為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。

              2.聚類和分類

              在某些情況下,無法界定要分析的數據類,用聚類算法發現一些不知道的數據類或懷疑的數據類。聚類的過程是以某一特定時間為依據,找出一個共享一些公共類別的群體,它稱為無監督學習。分類過程,這是發現一些規定某些商品或時間是否屬于某一特定數據子集的規則。這些數據類很少在關系數據庫中進行定義,因而規范的數據模型中沒有它們的位置。最典型的例子是信用卡核準過程,可確定能否按商品價格和其它標準把某一購買者歸入可接受的那一類中。分類又稱為有監督學習。

              3.神經網絡

              神經網絡通過學習待分析數據中的模式來構造模型。它對隱式類型進行分類。圖像分析是神經網絡最成功的應用之一。神經網絡用于模型化非線性的、復雜的或噪聲高的數據。一般神經模型由三個層次組成:數據倉庫數據輸入、中間層(各種神經元)和輸出。它通常用恰當的數據庫示例來訓練和學習、校正預測的模型,提高預測結果的準確性。

          篇12

          一、前言

          電力用戶用電信息采集系統是國家電網公司實現智能化用電的主要方法,通過采集電力用戶的用電信息,能夠減少電力公司的運營成本,并且還可以減少設備維護,延長設備的使用壽命。

          二、 用電信息采集系統現狀與分析

          用電信息采集系統一般由主站、遠程傳輸通信通道和本地數據采集通道三部分構成。用電信息采集的實現主要依賴于通信通道的選擇,在通信方式上一般采用兩級通信方式,一是遠程傳輸通道,是指集中器到主站(供電公司)之間的通信方式;二是本地數據采集通道,即集中器到采集器或電能表之間的通信方式。

          1、遠程傳輸通道現狀與分析遠程通信是指采集終端和系統主站之間的數據通信。通過遠程通信,系統主站與用戶側的采集終端設備間建立聯系,下達指令和參數信息,收集用戶用電信息。遠程通信信道可采用光纖專網、GPRS/CDMA無線公網、230MHz無線專網和中壓電力線載波等。綜合考慮系統建設規模、技術前瞻性、實時性、安全性、可靠性等因素,確定具體通信方式。

          2、遠程傳輸通道可以采用以下幾種方式:

          (一) 借助移動運營商的無線傳輸方式,如中國移動或中國聯通的GSM/GPRS和中國電信的CDMA-1X優點:覆蓋面廣,接入容易,在一定程度上解決了少量數據采集的需求,按流量計費;缺點:能提供的帶寬很低(一般只有幾十千比特),且存在不穩定性,滿足不了實時采集的要求。在地下配電室、移動電話用戶集中區、樓宇密集區對通信質量影響很大。處理網絡問題依賴第三方的協調。

          (二) 借助于固網運營商的寬帶城域網,如ADSL或LAN優點:傳輸速率高,適用于有網絡端口環境下的表計集抄;缺點∶目前運行費比GPRS/CDMA方式貴。處理網絡問題依賴第三方的協調。此外還有通過電話線調制的方式上傳數據,這種方式曾經用于調度自動化的遠動數據傳輸,但由于接續時間長,容易掉線,與電話用戶擠占通道資源、帶寬較低、運行不穩定等因素很快就被淘汰。這種方式多用于試點,已陸續轉為其他通信方式。

          以上幾種遠程數據通信方式,普遍存在以下問題:通道不能專用用電信息涉及商業機密,公用網絡承載業務復雜,用電數據以內網轉外網再進入內網的方式進行數據轉發,存在著數據泄漏和易被攻擊的隱患,難以達到國家電網公司對于生產經營信息安全分區與隔離的要求。易受到天氣、地理、人群密度等多方面因素的影響多點間難以實現同步的實時采集與分析,關口電量、大客戶與居民用電信息存在比較大的時延差,使線損分析、營業數據動態分析偏差較大。運營成本較高以上海市為例,640萬居民用戶按照每100戶一個集中點計算,70萬大用戶按照每個用戶一個集中點計算,共有76.4萬個集中點。按照10元/月進行計算,每年僅運行費用就達9200多萬元。基于這一原因,許多供電公司只能采用加大采集間隔,或有選擇地抄收部分而不是全部表計參數,犧牲應用性能來維持系統的正常運行。

          3、無線寬帶通信目前主要的無線寬帶接入方案有WiMax和McWill。WiMax支持ATM和IP兩種數據接口,主要應用于高速傳輸的數據業務,同時也支持語音、視頻等多媒體業務的傳輸。McWill是完全基于IP分組交換的寬帶無線系統,采用宏蜂窩網絡結構。McWill是大唐基于SCDMA衍生出來的寬帶無線技術,由大唐旗下的信威公司擁有知識產權。

          三、分析電力用戶用電信息采集系統不良數據的必要性

          用電信息的采集系統建設工作是一項復雜而系統的工程,其涉及到通信體系的建設、信息采集終端的架構、采集系統主站的建設等幾個方面。整個采集系統建設工作涉及到復雜的用戶類型,而且用戶數量眾多,同時還需要解決信道不穩定、算法不統一以及公共網絡信道故障等問題。在這個過程中,將使得不良數據出現,例如線路的功率異常、電量異常、電壓數據異常等現象。采集系統獲得的數據中不良數據比例雖然很低,但是其存在直接影響到信息的準確性以及客觀性,可能造成計費錯誤以及用電習慣分析不準確等問題,從而造成不良的社會影響。因此,如何處理好其中的數據畸變問題是當前用電信息采集系統優化及完善的一個重要內容。

          四、導致不良數據的主要原因及主要類型

          1、導致不良數據出現的主要原因

          (一)數據采集、存儲過程中的不良數據

          電力數據的采集終端主要用于配網的使用,但是配網運行過程中存在諸多的問題,而且用電電壓的穩定性不足,造成信息通道噪聲較大。所以,在設備的應用過程中就會在數據的采集、傳輸環節中出現數據遺漏、數據誤差等現象。同時,所應用的數據處理芯片中可能存在BUG,從而導致電力數據超出邊界,或者電力數據讀數偏大等現象。

          (二)電力系統故障導致的數據錯誤

          當線路中由于部分故障而導致電流出現不正常時,例如出現了接地問題、連電問題等時,將會導致供電網絡的功率數據、用電數據出現故障。

          五、電力用戶用電信息采集系統不良數據處理方法

          不良數據點(包括漏點數據、畸變數據等)若沒有進行處理,直接參與統計分析,對系統數據將造成較大的影響,使整體負荷曲線、負荷特性等數據失真。可使用短期負荷預測的方法進行修正。

          采用短期負荷預測方法對不良數據進行修正的原理是:辨識出歷史日中的正常數據點和可疑數據點;以正常數據點為已知條件,采用短期負荷預測方法完成對可疑數據點的預測,用預測結果修正這些可疑數據點、。其修正步驟如下(適合功率、電壓、電流、電量等)。

          1、辨識可疑數據點

          不良數據點往往具有數值突變的特征。通過這個特征可以辨識出歷史負荷數據中的可疑不良數據點。對于采集系統來說,其負荷數據中存在的正常的隨機變化量幅度不同,通過提高或降低判斷標準,即可收緊或放寬對可疑數據點的認定。任何一種可疑數據判斷機制都可能造成一定的誤差(誤判或漏判),但是,在采用短期負荷預測進行不良數據修正時,由于依據的是有規律的預測結果完成修正,所以所認定的可疑數據點多幾個點或少幾個點并不會對修正結果造成太大的影響。該算法可滿足實際數據估算的要求。

          2、修正可疑數據點

          修正歷史數據中的可疑數據是用電信息采集系統的要點和難點之一。準確修正可疑數據點的數據要比辨識它難得多。因此,傳統的負荷預測系統無法很好地處理不良數據修正問題,只能依靠預測人員的人工經驗來解決。采用短期負荷預測方案進行不良數據修正則可代替人工修正方式,減少預測人員的工作量,同時減少由于人工修正帶來的人的主觀因素影響。

          根據已運行的采集系統數據分析,實際電力系統中每日不良數據點數一般不超過5%,以每天采集96點為例,不超過5點,即:91。則上述修正方案相當于,在以已知的91點數據為優化目標的情況下,對該日96點數據進行短期負荷預測,統計表明,這樣條件下的預測準確度高達97.59%以上。滿足系統實用化要求。

          六、結束語

          通過以上詳細的分析以及探討,我們能夠看出電力用戶用電信息采集系統數據分析與處理技術在電力公司中的作用。所以,我們必須加大資金投入力度,進行廣泛推廣以及應用。

          參考文獻

          [1]莫維仁,孫宏斌,張伯明.面向電力市場的短期負荷預測系統設計及實現[J].電力系統自動化.2001(23):41―44.

          篇13

          交通運輸業指的是在國民經濟的發展過程中主要負責運送貨物和旅客的社會生產工作,其中包括鐵路運輸、公路運輸、水路運輸以及航空運輸等等。該文主要將城市道路交通運輸作為主要切入點,分析當前大數據分析決策技術在城市道路運輸行業的應用過程中所出現的問題以及所帶來的重要影響。在信息技術高速發展的今天,以數據為核心的大數據技術在交通系統中的應用已經逐漸為城市交通事業的發展提供了新的方向,并打開了新世紀的大門,城市智慧交通的時代已經逐漸到來了。

          1 大數據分析決策技術概述

          1.1 大數據分析決策技術的概念

          大數據,顧名思義是對許多大型數據進行分析、處理和管理的數據集,數據的最大可達到10 TB左右,在大數據的日常工作中具有體量大,數據類別多,數據處理速度快以及數據具有真實性的特點。

          而大數據分析決策技術正是在大數據的體量大、數據類別多、數據處理速度快以及數據具有真實性的優勢的基礎上對數據進行分析和決策的一種新興技術。這種技術多應用于公共交通服務、交通引導、物流調度優化等各個方面。大數據分析決策技術能夠通過反饋的各種交通數據和各種資源進行分析、處理、整合,并能夠依托云計算服務平臺為使用者提供更加快捷、便利的出行服務。

          1.2 大數據分析決策技術的關鍵

          大數據分析決策技術的關鍵在于計算層,而計算層主要指的是利用內存計算中的Spark,并利用R語言和框架來實現專業的統計分析功能,采用圖形的方式展現,以保證分布式的集群和高效存儲方式來加快大數據集上的查詢速度。除此之外,Mahout是一個集數據挖掘、決策支持等算法于一身的工具,其中包含的都是基于Hadoop來實現的經典算法,通常相關人員會使用其作為數據分析的核心算法集來進行參考[1]。

          利用大數據進行決策和分析,就必須通過表格和圖表圖形來展示,這樣一來,將使得數據的分類更加詳細,并提高了數據的權威性。另外,Tableau和Pentaho也是進行處理的最佳選擇。

          2 大數據分析決策技術在道路運輸業的應用分析

          2.1 大數據分析決策技術在道路運輸業的應用現狀

          伴隨著信息技術的快速發展和高新技術產業的高速推進,新科技、新技術已經融入到了各行各業的生產活動和運營管理當中,并深入到了人們的生活中,使普通人也能看見科技,摸得著技術,時時刻刻地感受著科學技術為生活帶來的美好[2]。

          當前,大數據分析決策技術在道路運輸業應用日漸成熟,使得大數據分析決策技術已經成為了城市智慧交通的重要發展平臺和重要的技術載體,科學穩定的分析決策技術,便捷高效的數據處理技術使得大數據分析決策技術在城市道路運輸業一經應用就得到了迅速的拓展。大數據分析決策技術對城市運輸業所反饋的數據包、日志、資產數據以及諸如漏洞信息、配置信息、身份與訪問信息、用戶行為信息、應用信息、業務信息、外部情報信息等信息的分析、處理和決策帶來了極大的便捷。

          2.2 大數據分析決策技術應用面臨的挑戰

          2.2.1 行業標準缺乏統一性

          行業標準缺乏統一性是大數據分析決策技術應用面臨的挑戰之一,眾所周知,地區經濟發展不平衡是我國經濟發展的重要現狀之一,在這樣的背景下,致使我國道路運輸業發展也存在著地區發展不平衡的問題,這樣一來,很難在全國實行統一的行業標準,致使很多地區的城市運輸數據系統相對獨立,沒有在全國范圍內形成統一、完整的智慧交通系統。

          智慧交通運輸系統的不完整,導致了各個城市之間的道路運輸的信息和數據的銜接與配合達不到一定的標準,進而嚴重影響交通數據的收集和處理,并阻礙了城市\輸線路的分析和統計。

          2.2.2 基礎設施缺乏穩定性

          基礎設施缺乏穩定性也是大數據分析決策技術應用所面臨的挑戰之一,大數據決策分析技術在城市道路運輸業得以應用的目的在于建立完整度和成熟度較高的智慧城市道路交通系統,而這樣智慧交通系統必將是整合度和復雜度較高的系統,如果想要建立這樣的智慧交通系統不僅僅需要成熟的大數據分析技術,更需要完整、穩定的基礎設施作為建立這一系統的平臺。但是,當前在建立這一系統的過程中卻面臨著城市運輸系統硬件設備功能滯后、老化的現狀,這些問題都可能會引起引起數據的泄露,甚至丟失,為大數據的統計和處理帶來了極大的威脅。

          2.2.3 數據統計缺乏真實性

          數據統計缺乏真實性同樣也是大數據分析決策技術應用所面臨的問題和挑戰。作為數據統計和數據整合的重要技術,數據的真實性和精確性是其存在的最重要的基礎。大數據分析決策技術在道路運輸行業得以應用的重要標準,如果數據的真實出現了問題,將使得智慧交通系統失去其應用價值。目前由于道路運輸設備老化等問題,致使其性能得不到根本的保證,造成了信號獲取的不穩定,由此可能會出現數據統計缺乏真實性的問題。

          3 大數據分析決策技術在道路運輸業應用問題的解決措施

          3.1 加強交通平臺資源整合,推進數據標準化

          為了解決行業標準缺乏統一性的問題,相關人員應當加強交通大數據應用基礎設施建設。正如上文所說的我國經濟發展的不平衡導致了城市交通運輸業發展的不平衡,而交通運輸系統又是極為復雜的系統,如果每個城市之間交通平臺不能形成很好的銜接,將會極大地影響交通運輸業的發展,問題解決措施如下。

          首先,需要相關部門建立完整的道路交通運輸標準,對各個城市的交通運輸情況進行嚴格的管理,努力建立一個統一度高、完整度高的現代化、標準化行業標準。

          其次,還需要加強對各個交通平臺資源的分配和整合,加強各個地區的兼容性。

          最后,還應當實現各個地區各個交通的相互合作,相互聯系,推動交通運輸標準化、統一化的實現。

          3.2 加強交通大數據應用基礎設施建設

          為了解決基礎設施缺乏穩定性的問題,相關人員應當加強交通大數據應用基礎設施建設。正如上文介紹的我國道路運輸系統的設備因使用時間較長,設備老化度較高,這嚴重影響了大數據決策分析技術的應用,為解決這一問題,應當加強基礎設施建設,及時對設備進行更新和維護,從而實現信息數據的安全有效。

          3.3 嚴格控制交通運輸的數據真實度

          為了解決數據統計缺乏真實性的問題,相關人員應當嚴格控制交通運輸的數據真實度。

          正如上文所介紹的因種種原因大數據決策分析技術的數據真實度有待考證,為了解決這一問題,需要相關人員做到的是通過嚴格的監控措施和測試手段保證數據的真實性和可靠性,嚴禁因人為原因而對數據的真實性造成影響。

          4 結語

          綜上所述,智慧交通時代的大門已經逐漸向大家打開,在城市化速度不斷加快的今天,城市居民對舒適的交通環境和便捷快速的城市道路運輸有著十分迫切的渴求,而在大數據分析決策技術基礎上智慧交通是大的發展趨勢,將為解決城市道路運輸問題提供新的思路。智慧交通時代是高效便捷運輸的時代,也是現代化的重要標志,通過大量數據匯集融合,能夠有效地解決城市交通存在的問題。現階段,大數據分析決策技術和智慧交通系統發展得還不夠成熟,需要在相關人員的不懈努力下,使城市居民能夠更早地進入便捷的現代生活中,期待那一天的到來。

          主站蜘蛛池模板: 无码日韩精品一区二区三区免费 | 国产精品亚洲午夜一区二区三区 | 亚洲国产激情在线一区| 亚洲乱码一区av春药高潮| 国内精品一区二区三区东京| 肥臀熟女一区二区三区| 国产高清一区二区三区| 中文字幕人妻丝袜乱一区三区| 成人精品视频一区二区| 无码精品黑人一区二区三区| 国产AV国片精品一区二区| 国产精品亚洲一区二区在线观看 | 国产一区二区精品久久91| 2018高清国产一区二区三区| 国产精品视频第一区二区三区| 成人在线一区二区| 国产伦精品一区二区三区四区| 亚洲欧美国产国产综合一区 | 三级韩国一区久久二区综合| 无码人妻精品一区二区蜜桃| 精品无码人妻一区二区三区品| 中文字幕色AV一区二区三区| 中文字幕在线观看一区二区三区| 国产成人一区二区三区高清| 久久精品无码一区二区三区不卡| 精品无码av一区二区三区| 亚洲AV无码一区二区乱子伦 | 天天躁日日躁狠狠躁一区| 亚洲国产精品无码第一区二区三区| 精品国产日产一区二区三区 | 国产伦精品一区二区三区免费迷 | 日本高清成本人视频一区| 视频在线一区二区三区| 日韩有码一区二区| 一区二区三区四区在线观看视频| 波多野结衣一区二区三区高清在线| 在线精品自拍亚洲第一区| 国产视频一区二区在线观看| 国产高清视频一区二区| 一区二区三区福利| 中文国产成人精品久久一区|