1. 大學的哪個專業是研究數據挖掘的
數據挖掘屬於計算機科學與技術方向中的數據分析方向,也有在數學專業中開設。
數據挖掘技術是一種數據處理的技術,是從大量的、不完全的、有雜訊的、模糊的、隨機的數據中,提取隱含在其中、人們事先不知道又潛在有用信息和知識的過程。數據挖掘需要根據數據倉庫中的數據信息,選擇合適的分析工具,應用統計方法、事例推理、決策樹、規則推理、模糊集、甚至神經網路、遺傳演算法的方法處理信息,得出有用的分析信息。數據挖掘過程是一個反復循環的過程,每一個步驟如果沒有達到預期目標,都需要回到前面的步驟,重新調整並執行。
從數據本身來考慮,通常數據挖掘需要有信息收集、數據集成、數據規約、數據清理、數據變換、數據挖掘實施過程、模式評估和知識表示等8個步驟。
(1) 信息收集:根據確定的數據分析對象抽象出在數據分析中所需要的特徵信息,然後選擇合適的信息收集方法,將收集到的信息存入資料庫。對於海量數據,選擇一個合適的數據存儲和管理的數據倉庫是至關重要的。
(2) 數據集成:把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全面的數據共享。
(3) 數據規約:執行多數的數據挖掘演算法即使在少量數據上也需要很長的時間,而做商業運營數據挖掘時往往數據量非常大。數據規約技術可以用來得到數據集的規約表示,它小得多,但仍然接近於保持原數據的完整性,並且規約後執行數據挖掘結果與規約前執行結果相同或幾乎相同。
(4) 數據清理:在資料庫中的數據有一些是不完整的(有些感興趣的屬性缺少屬性值),含雜訊的(包含錯誤的屬性值),並且是不一致的(同樣的信息不同的表示方式),因此需要進行數據清理,將完整、正確、一致的數據信息存入數據倉庫中。不然,挖掘的結果會差強人意。
(5) 數據變換:通過平滑聚集,數據概化,規范化等方式將數據轉換成適用於數據挖掘的形式。對於有些實數型數據,通過概念分層和數據的離散化來轉換數據也是重要的一步。
(6) 數據挖掘過程:根據數據倉庫中的數據信息,選擇合適的分析工具,應用統計方法、事例推理、決策樹、規則推理、模糊集、甚至神經網路、遺傳演算法的方法處理信息,得出有用的分析信息。
(7) 模式評估:從商業角度,由行業專家來驗證數據挖掘結果的正確性。
(8) 知識表示:將數據挖掘所得到的分析信息以可視化的方式呈現給用戶,或作為新的知識存放在知識庫中,供其他應用程序使用。
數據挖掘過程是一個反復循環的過程,每一個步驟如果沒有達到預期目標,都需要回到前面的步驟,重新調整並執行。不是每件數據挖掘的工作都需要這里列出的每一步,例如在某個工作中不存在多個數據源的時候,步驟(2)數據集成的步驟便可以省略。
步驟(3)數據規約(4)數據清理(5)數據變換又合稱數據預處理。在數據挖掘中,至少60%的費用可能要花在步驟(1)信息收集階段,而至少60%以上的精力和時間是花在數據預處理
2. 什麼叫數據挖掘
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
分類 (Classification)
估值(Estimation)
預言(Prediction)
相關性分組或關聯規則(Affinity grouping or association rules)
聚集(Clustering)
描述和可視化(Des cription and Visualization)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以
理解成資料庫中表的屬性,即列)進行描述。
間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
。
分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分
類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的
輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的
連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運
用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時
間後,才知道預言准確性是多少。
相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,回答問題,可能效果更好。
描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有
價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
機器學習是計算機科學和人工智慧AI發展的產物
機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決策樹)
數據挖掘由來
數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興
的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
數據倉庫
OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
決策支持工具融合
將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中神秘,它不可能是完全正確的。
5.數據挖掘技術實現
在技術上可以根據它的工作過程分為:數據的抽取、數據的存儲和管理、數據的展現等關鍵技術。
1) 數據的抽取
數據的抽取是數據進入倉庫的入口。由於數據倉庫是一個獨立的數據環境,它需要通過抽取過程將數據從聯機事務處理系統、外部數據源、離線的數據存儲介質中導入數據倉庫。數據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監控等幾個方面的處理。在數據抽取方面,未來的技術發展將集中在系統功能集成化方面,以適應數據倉庫本身或數據源的變化,使系統更便於管理和維護。
2) 數據的存儲和管理
數據倉庫的組織管理方式決定了它有別於傳統資料庫的特性,也決定了其對外部數據的表現形式。數據倉庫管理所涉及的數據量比傳統事務處理大得多,且隨時間的推移而快速累積。在數據倉庫的數據存儲和管理中需要解決的是如何管理大量的數據、如何並行處理大量的數據、如何優化查詢等。目前,許多資料庫廠家提供的技術解決方案是擴展關系型資料庫的功能,將普通關系資料庫改造成適合擔當數據倉庫的伺服器。
3) 數據的展現
在數據展現方面主要的方式有:
查詢:實現預定義查詢、動態查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易於理解的點線圖、直方圖、餅圖、網狀圖、互動式可視化、動態模擬、計算機動畫技術表現復雜數據及其相互關系;統計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統計分析;挖掘:利用數據挖掘等方法,從數據中得到關於數據關系和模式的知識。
6.數據挖掘與數據倉庫融合發展
數據挖掘和數據倉庫的協同工作,一方面,可以迎合和簡化數據挖掘過程中的重要步驟,提高數據挖掘的效率和能力,確保數據挖掘中數據來源的廣泛性和完整性。另一方面,數據挖掘技術已經成為數據倉庫應用中極為重要和相對獨立的方面和工具。
數據挖掘和數據倉庫是融合與互動發展的,其學術研究價值和應用研究前景將是令人振奮的。它是數據挖掘專家、數據倉庫技術人員和行業專家共同努力的成果,更是廣大渴望從資料庫「奴隸」到資料庫「主人」轉變的企業最終用戶的通途。
3. 什麼是數據挖掘
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以
理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分
類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的
輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的
連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運
用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時
間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一
類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,
回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有
價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
· 機器學習是計算機科學和人工智慧AI發展的產物
· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決
策樹)
· 數據挖掘由來
數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興
的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
· 數據倉庫
· OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
· 決策支持工具融合
將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上
,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中
神秘,它不可能是完全正確的。
客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在
美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國
4. 「基於數據挖掘的股票交易分析--模型分析」 這個題目,是什麼意思 哪位哥們,能給點具體解釋么
很難寫,主要牽涉到數據挖掘(軟體)和股票交易兩方面的專業。數據挖掘需要設計軟體進行建模,而股票交易需要進行實證(博士論文都可以寫了)。
建議:可以寫基於統計挖掘的股票交易分析--模型分析,這樣就簡單多了,只需要在股票軟體上得出一些統計數據,然後進行驗證就可以了,可操作性強。
5. 股票分析主要從哪些方面進行分析
這要看樓主的理念了。
如果是價值投資的理念的話:應該從基本面出發,多了解上市公司的財務報表,業績、行業地位、估值、成長性等。
如果是技術分析流派的話:應該關注個股資金流向(資金是推動股票價格波動的最終因素),而資金流向會通過K線形態與成交量表現出來,當然,還有很多基礎的技術指標,比如:MA,KDJ,MACD,BOLL,CCI,DMI等等。
同時,不論炒股還是炒期貨,抑或是其他投資/投機渠道,資金管理也很重要。
建議樓主多了解,多看少動。將各種分析模式相互結合應用,摸索出適用自己的投資分析方式。剛開始時一定要輕倉參與。
但原以上回答對樓主有所幫助。祝:投資順利,財源滾滾~!
6. 到底是什麼數據挖掘呢,需要什麼技術呢
數據挖掘是近年來資料庫應用技術中相當熱門的議題,看似神奇、聽來時髦,實際上卻也不是什麼新東西,因其所用之諸如預測模型、數據分割,連結分析(Link Analysis)、偏差偵測(Deviation Detection)等,美國早在二次世界大戰前就已應用運用在人口普查及軍事等方面。
隨著信息科技超乎想像的進展,許多新的計算機分析工具問世,例如關系型資料庫、模糊計算理論、基因演算法則以及類神經網路等,使得從數據中發掘寶藏成為一種系統性且可實行的程序。
R一般而言,數據挖掘的理論技術可分為傳統技術與改良技術兩支。傳統技術以統計分析為代表,統計學內所含序列統計、概率論、回歸分析、類別數據分析等都屬於傳統數據挖掘技術,尤其 數據挖掘 對象多為變數繁多且樣本數龐大的數據,是以高等統計學里所含括之多變數分析中用來精簡變數的因素分析(Factor Analysis)、用來分類的判別分析(DiscriminantAnalysis),以及用來區隔群體的分群分析(Cluster Analysis)等,在數據挖掘過程中特別常用。
在改良技術方面,應用較普遍的有決策樹理論(Decision Trees)、類神經網路(Neural Network)以及規則歸納法(Rules Inction)等。決策樹是一種用樹枝狀展現數據受各變數的影響情形之預測模型,根據對目標變數產生之效應的不同而建構分類的規則,一般多運用在對客戶數據的分析上,例如針對有回函與未回含的郵寄對象找出影響其分類結果的變數組合,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic InteractionDetector)兩種。
R類神經網路是一種模擬人腦思考結構的數據分析模式,由輸入之變數與數值中自我學習並根據學習經驗所得之知識不斷調整參數以期建構數據的型樣 (patterns)。類神經網路為非線性的設計,與傳統回歸分析相比,好處是在進行分析時無須限定模式,特別當數據變數間存有交互效應時可自動偵測出;缺點則在於其分析過程為一黑盒子,故常無法以可讀之模型格式展現,每階段的加權與轉換亦不明確,是故類神經網路多利用於數據屬於高度非線性且帶有相當程度的變數交感效應時。
規則歸納法是知識發掘的領域中最常用的格式,這是一種由一連串的「如果…/則…(If / Then)」之邏輯規則對數據進行細分的技術,在實際運用時如何界定規則為有效是最大的問題,通常需先將數據中發生數太少的項目先剔除,以避免產生無意義的邏輯規則。
7. 股票數據分析都有哪些
看盤的幾個小技巧:
第一:看盤的首要重點是看板塊和熱點個股的輪動規律,進而推測出行情的大小和持續性時間變化。比如每天應該注意是否有漲停個股開盤,如果有,那麼說明主力資金還在努力選擇突破口,如果兩市都有10隻以上的漲停個股開盤,則說明市場處於多頭氣氛,人氣比較旺,少於這個標准則說明市場人氣不佳,投資者應該當心大盤繼續下跌風險。如果每天盤面都有跌停板,並且是以板塊方式出現,那麼,應該警惕新一輪的中級調整開始。在熱點上,如果前一交易日漲停的個股或是上漲比較好的板塊難以維持兩天以上的行情,那麼,就說明主力資金屬於短炒性質,此個股或板塊不能成為一波行情的領頭羊,同時也意味著這一輪上漲屬於單日短線反彈。反過來講,如果熱點板塊每天都有2-3個以上,平均漲幅都在2%以上,並相互進行有效輪番上漲,則中期向好行情就值得期待。2010年7月初、中期,有色資源、煤炭資源、稀土資源以及新能源、智能電網等板塊交替上漲,從而產生中級行情。
第二:看盤應該注重關注成交量。根據兩市目前市值情況看,上海大盤成交量小於1000億應做震盪整理理解,700億以下為縮量,小於500億可以理解為地量,超過1100億應該理解為放量。地量背後往往意味著反轉,例如,2010年6月底和7月初之間,先後多個交易日上海股市成交量低於500億,這個時候空倉資金應為自己的重新進場做好准備。當大盤擺脫下降趨勢,走出一個緩慢的底部構築的形態下,成交量溫和狀態下,投資者可以以不超過半倉的水平買股持股。如果,當股票持續上漲,成交量放大,換手率超過15%(中小板、創業板個股特定條件下可以放寬到20%左右,另外新股、次新股、限售股、轉贈股、配股上市日不在此列),5-20日線開始死叉轉向,那麼此類短線題材股和概念股應該考慮逐步拋售。
第三:努力培養盤感,運用技術手段捕捉市場機會。不管是什麼品種的股票,如經過短期暴跌,跌幅超過50%,下跌垂直度越大,那麼關注價值就越高,當某一天突然縮量,短線買進的機會來了。因為急跌暴跌後,成交量突然萎縮就殺跌盤已經枯竭,肯定會出現反彈,這個時候可以堅決地戰勝自己恐慌情緒積極進去搶一把反彈就走人。同樣,如果股票價格在接連漲了很多時間,而且高位開始頻繁放量,可是價格始終盤旋在某個小區域,連續用小單在尾盤直線拉高製造高位串陽K線,籌碼峰密集嚴重擴散,則說明這個完全是主力在出貨!必須堅決清倉。
第四:別小看低位的三連陽,別漠視高位的三連陰。一般講股票價格在接連下跌一段時間後,突然在某天不那麼狂跌,而且,K線上接連出現紅三兵,價格波動幅度又不是那樣大,通常價格一串上去又被單子砸下來了,請你注意了,這個時候往往就是有主力潛伏著開始收貨中;反過來,如果在漲勢繼續了一段時間,股票價格已經很大幅度地脫離了主力原始成本,這個時候出現了高位幾連陰,股票價格重心開始下移,尤其是在一些時候,主力利用快要收盤的時候,突然用幾筆單把股票價格迅速買回日均線,在隨後的幾天里同樣的手法經常出現,K線圖上收出長下影,那說明主力出貨的概率已經達到80%以上,它的這些做法都是為了麻痹經驗不足的資金。假如某天連10日、20日、30日線都跌破,不管是賺還是賠,堅決離場。
第五:大漲買龍頭,如何發覺龍頭,其實在市場大跌氣氛里很容易判斷龍頭股,應密切注意漲幅榜中始終躍居前幾位的逆市紅盤股,特別是價格處於「三低」范疇,或是股價在15-20元之間,離新多主力拉升底部區域不足50%空間,在大盤大跌的當日或隨後幾天時間里,果斷用長陽反擊K線收復前期長陰失地的,則有望成為反彈的龍頭。市場的法則永遠是「強者恆強,弱者恆弱」。當中級以上行情出現的時候,投資者要善於提早發現誰是龍頭,並果斷追進,抓穩抓牢,別因一時盤面震盪輕易下馬。通常洗得越凶,後期飈漲概率越大。炒股搶佔先機概念很重要。有的股票難當龍頭最好在行情啟動初期果斷放棄,不要跟自己過不去。
第六:在漲勢中不要輕視冷門股、問題股。 你只要它漲得好,漲得牛就是,「漲時重勢,跌時重質」就是這個道理。任何時候,主力和莊家比我們聰明,他們不是傻瓜,當股票一個敢於在大勢不好的情況下縮量封出漲停板,肯定有其不被市場大眾知道的東西隱藏在後面。熊市裡,很多2-5元中小盤個股就是這樣無量快速漲停,通常這個時候非常考驗短線高手的看盤功力,因為這樣的股票往往留給人的思考、判斷、下單時間不會超過一分鍾,一般此類股很容易出現連續漲停,甚至是一字漲停,像2010年7月27日,很多ST股大跌的時候,ST黑化卻震盪走高,上方買盤都被逐步吃掉,並在臨近收盤的最後10分鍾封上漲停,這說明市場已有嗅覺靈敏的資金聞到了變盤氣息在重組前夜下手。
8. 股票市場搞數據挖掘,數據分析來炒股有沒機會
有機會,而且機會不小,但是我等散戶靠數據分析,可能自身實力差的太懸殊了。
硬體設備就不達標哦。
9. 請問什麼是數據挖掘
數據挖掘是從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。
1. 數據挖掘能做什麼?
1)數據挖掘能做以下六種不同事情(分析方法):
· 分類 (Classification)
· 估值(Estimation)
· 預言(Prediction)
· 相關性分組或關聯規則(Affinity grouping or association rules)
· 聚集(Clustering)
· 描述和可視化(Des cription and Visualization)
2)數據挖掘分類
以上六種數據挖掘的分析方法可以分為兩類:直接數據挖掘;間接數據挖掘
· 直接數據挖掘
目標是利用可用的數據建立一個模型,這個模型對剩餘的數據,對一個特定的變數(可以
理解成資料庫中表的屬性,即列)進行描述。
· 間接數據挖掘
目標中沒有選出某一具體的變數,用模型進行描述;而是在所有的變數中建立起某種關系
。
· 分類、估值、預言屬於直接數據挖掘;後三種屬於間接數據挖掘
3)各種分析方法的簡介
· 分類 (Classification)
首先從數據中選出已經分好類的訓練集,在該訓練集上運用數據挖掘分類的技術,建立分
類模型,對於沒有分類的數據進行分類。
例子:
a. 信用卡申請者,分類為低、中、高風險
b. 分配客戶到預先定義的客戶分片
注意: 類的個數是確定的,預先定義好的
· 估值(Estimation)
估值與分類類似,不同之處在於,分類描述的是離散型變數的輸出,而估值處理連續值的
輸出;分類的類別是確定數目的,估值的量是不確定的。
例子:
a. 根據購買模式,估計一個家庭的孩子個數
b. 根據購買模式,估計一個家庭的收入
c. 估計real estate的價值
一般來說,估值可以作為分類的前一步工作。給定一些輸入數據,通過估值,得到未知的
連續變數的值,然後,根據預先設定的閾值,進行分類。例如:銀行對家庭貸款業務,運
用估值,給各個客戶記分(Score 0~1)。然後,根據閾值,將貸款級別分類。
· 預言(Prediction)
通常,預言是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用
於對未知變數的預言。從這種意義上說,預言其實沒有必要分為一個單獨的類。
預言其目的是對未來未知變數的預測,這種預測是需要時間來驗證的,即必須經過一定時
間後,才知道預言准確性是多少。
· 相關性分組或關聯規則(Affinity grouping or association rules)
決定哪些事情將一起發生。
例子:
a. 超市中客戶在購買A的同時,經常會購買B,即A => B(關聯規則)
b. 客戶在購買A後,隔一段時間,會購買B (序列分析)
· 聚集(Clustering)
聚集是對記錄分組,把相似的記錄在一個聚集里。聚集和分類的區別是聚集不依賴於預先
定義好的類,不需要訓練集。
例子:
a. 一些特定症狀的聚集可能預示了一個特定的疾病
b. 租VCD類型不相似的客戶聚集,可能暗示成員屬於不同的亞文化群
聚集通常作為數據挖掘的第一步。例如,"哪一種類的促銷對客戶響應最好?",對於這一
類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然後對每個不同的聚集,
回答問題,可能效果更好。
· 描述和可視化(Des cription and Visualization)
是對數據挖掘結果的表示方式。
2.數據挖掘的商業背景
數據挖掘首先是需要商業環境中收集了大量的數據,然後要求挖掘的知識是有價值的。有
價值對商業而言,不外乎三種情況:降低開銷;提高收入;增加股票價格。
1)數據挖掘作為研究工具 (Research)
2)數據挖掘提高過程式控制制(Process Improvement)
3)數據挖掘作為市場營銷工具(Marketing)
4)數據挖掘作為客戶關系管理CRM工具(Customer Relationship Management)
3.數據挖掘的技術背景
1)數據挖掘技術包括三個主要部分:演算法和技術;數據;建模能力
2)數據挖掘和機器學習(Machine Learning)
· 機器學習是計算機科學和人工智慧AI發展的產物
· 機器學習分為兩種學習方式:自組織學習(如神經網路);從例子中歸納出規則(如決
策樹)
· 數據挖掘由來
數據挖掘是八十年代,投資AI研究項目失敗後,AI轉入實際應用時提出的。它是一個新興
的,面向商業應用的AI研究。選擇數據挖掘這一術語,表明了與統計、精算、長期從事預
言模型的經濟學家之間沒有技術的重疊。
3)數據挖掘和統計
統計也開始支持數據挖掘。統計本包括預言演算法(回歸)、抽樣、基於經驗的設計等
4)數據挖掘和決策支持系統
· 數據倉庫
· OLAP(聯機分析處理)、Data Mart(數據集市)、多維資料庫
· 決策支持工具融合
將數據倉庫、OLAP,數據挖掘融合在一起,構成企業決策分析環境。
4. 數據挖掘的社會背景
數據挖掘與個人預言:數據挖掘號稱能通過歷史數據的分析,預測客戶的行為,而事實上
,客戶自己可能都不明確自己下一步要作什麼。所以,數據挖掘的結果,沒有人們想像中
神秘,它不可能是完全正確的。
客戶的行為是與社會環境相關連的,所以數據挖掘本身也受社會背景的影響。比如說,在
美國對銀行信用卡客戶信用評級的模型運行得非常成功,但是,它可能不適合中國
轉載的