㈠ 2020-03-28 線性時間序列模型
課程採用Ruey S. Tsay的《金融數據分析導論:基於R語言》(Tsay 2013 ) (An Introction to Analysis of Financial Data with R)作為主要教材之一。
時間序列的線性模型,包括:
股價序列呈現緩慢的、非單調的上升趨勢, 局部又有短暫的波動。
可口可樂公司每季度發布的每股盈利數據。 讀入:
時間序列圖:
序列仍體現出緩慢的、非單調的上升趨勢,又有明顯的每年的周期變化(稱為季節性), 還有短期的波動。
下面用基本R的 plot() 作圖並用不同顏色標出不同季節。
現在可以看出,每年一般冬季和春季最低, 夏季最高,秋季介於夏季和冬季之間。
收益率在0上下波動,除了個別時候基本在某個波動范圍之內。
用xts包的 plot() 函數作圖:
聚焦到2004年的數據:
紅色是6月期國債利率, 黑色是3月期國債。 一般6月期高, 但是有些時期3月期超過了6月期,如1980年:
如圖標普500月收益率那樣的收益率數據基本呈現出在一個水平線(一般是0)上下波動, 且波動范圍基本不變。 這樣的表現是時間序列「弱平穩序列」的表現。
弱平穩需要一階矩和二階矩有限。某些分布是沒有有限的二階矩的,比如柯西分布, 這樣的分布就不適用傳統的線性時間序列理論。
稍後給出弱平穩的理論定義。
如圖2可口可樂季度盈利這樣的價格序列則呈現出水平的上下起伏, 如果分成幾段平均的話, 各段的平均值差距較大。 這體現出非平穩的特性。
以下為一堆公式推導,具體查看: http://www.math.pku.e.cn/teachers/lidf/course/fts/ftsnotes/html/_ftsnotes/fts-tslin.html#fig:tslin-intro-sp02
時間序列
自協方差函數
弱平穩序列
圖6 是IBM股票月度簡單收益率對標普500收益率的散點圖。 從圖中看出, 兩者有明顯的正向相關關系。
對於不獨立的樣本, 比如時間序列樣本, 也可以計算相關系數, 其估計合理性需要一些模型假設。
對於聯合分布非正態的情況, 有時相關系數不能很好地反映X和Y的正向或者負向的相關。 斯皮爾曼(Spearman)相關系數是計算X的樣本的秩(名次)與Y的樣本的秩之間的相關系數, 也稱為Spearman rank correlation。
另一種常用的非參數相關系數是肯德爾tau(Kendall』s )系數, 反映了一致數對和非一致數對之間的差別。
即兩個觀測的分量次序一致的概率減去分量次序相反的概率。 一致的概率越大,說明兩個的正向相關性越強。
對IBM收益率與標普收益率數據計算這三種相關系數:
自相關函數 (Autocorrelation function, ACF)參見 (何書元 2003 ) P.131 §4.2的例2.1。 原始文獻: MAURICE STEVENSON BARTLETT, On the Theoretical Specification and Sampling Properties of Auto-Correlated Time Series, Journal of the Royal Statistical Society (Supplement) 8 (1946), pp. 24-41.
在基本R軟體中, acf(x) 可以估計時間序列 x 的自相關函數並對其前面若干項畫圖。
例:CRSP的第10分位組合的月對數收益率, 1967-1到2009-12。 第10分位組合是NYSE、AMEX、NASDAQ市值最小的10%股票組成的投資組合, 每年都重新調整。
圖6: CRSP第10分位組合月對數收益率
用 acf() 作時間序列的自相關函數圖:
acf() 的返回值是一個列表,其中 lag 相當於, acf 相當於。 用 plot=FALSE 取消默認的圖形輸出。
有研究者認為小市值股票傾向於在每年的一月份有正的收益率。
為此,用對的檢驗來驗證。 如果一月份有取正值的傾向, 則相隔12個月的值會有正相關。
計算統計量的值,檢驗p值:
值小於0.05, 這個檢驗的結果支持一月份效應的存在性。
Ljung和Box(Ljung and Box 1978 )對Box和Pierce(Box and Pierce 1970 )提出了混成統計量(Portmanteau statistic)
檢驗方法進行了改進
在R軟體中, Box.test(x, type="Ljung-Box") 執行Ljung-Box白雜訊檢驗。 Box.test(x, type="Box-Pierce") 執行Box-Pierce混成檢驗。 用 fitdf= 指定要減去的自由度個數。
檢驗IBM股票月收益率是否白雜訊。
考慮IBM股票從1926-01到2011-09的月度收益率數據, 簡單收益率和對數收益率分別考慮。
讀入數據:
讀入的是簡單收益率的月度數據。 作ACF圖:
從ACF來看月度簡單收益率是白雜訊。
作Ljung-Box白雜訊檢驗, 分別取和:
在0.05水平下均不拒絕零假設, 支持IBM月度簡單收益率是白雜訊的零假設。
從簡單收益率計算對數收益率, 並進行LB白雜訊檢驗:
在0.05水平下不拒絕零假設。
Box-Pierce檢驗和Ljung-Box檢驗受到取值的影響, 建議採用, 且序列為季度、月度這樣的周期序列時, 應取為周期的整數倍。
對CRSP最低10分位的資產組合的月簡單收益率作白雜訊檢驗。
此組合的收益率序列的ACF:
針對和作Ljung-Box白雜訊檢驗:
在0.05水平下均拒絕零假設, 認為CRSP最低10分位的投資組合的月度簡單收益率不是白雜訊。
有效市場假設認為收益率是不可預測的, 也就不會有非零的自相關。 但是,股價的決定方式和指數收益率的計算方式等可能會導致在觀測到的收益率序列中有自相關性。 高頻金融數據中很常見自相關性。
常見的白雜訊檢驗還有TREVOR S. BREUSCH (1978) 和LESLIE G. GODFREY (1978)提出的拉格朗日乘子法檢驗(LM檢驗)。 零假設為白雜訊, 對立假設為AR、MA或者ARMA。 參見:
設是獨立同分布的二階矩有限的隨機變數, 稱為獨立同分布白雜訊(white noise)。 最常用的白雜訊一般假設均值為零。 如果獨立同分布, 稱為高斯(Gaussian)白雜訊或正態白雜訊。
白雜訊序列的自相關函數為零(除外)。
實際應用中如果樣本自相關函數近似為零 (ACF圖中都位於控制線之內或基本不超出控制線), 則可認為該序列是白雜訊的樣本。
如:IBM月度收益率可以認為是白雜訊(見例 3.3 ); CRSP最低10分位投資組合月度收益率不是白雜訊(見例 3.4 )。
不是所有的弱平穩時間序列都有這樣的性質。 非平穩序列更是不需要滿足這些性質。
公式就不贅述
如果從時間序列的一條軌道就可以推斷出它的所有有限維分布, 就稱其為嚴平穩遍歷的。 這里不給出遍歷性的嚴格定義, 僅給出一些嚴平穩遍歷的充分條件。 可以證明, 寬平穩的正態時間序列是嚴平穩遍歷的, 由零均值獨立同分布白雜訊產生的線性序列是嚴平穩遍歷的。
Tsay, Ruey S. 2013. 金融數據分析導論:基於R語言 . 機械工業出版社.
何書元. 2003. 應用時間序列分析 . 北京大學出版社.
Box, GEP, and D. Pierce. 1970. 「Distribution of Resial Autocorelations in Autoregressive-Integrated Moving Average Time Series Models.」 J. of American Stat. Assoc. 65: 1509–26.
Ljung, G., and GEP Box. 1978. 「On a Measure of Lack of Fit in Time Series Models.」 Biometrika 66: 67–72.
參考學習資料: http://www.math.pku.e.cn/teachers/lidf/course/fts/ftsnotes/html/_ftsnotes/fts-tslin.html#fig:tslin-intro-sp02
㈡ 如何深入理解時間序列分析中的平穩性
聲明:本文中所有引用部分,如非特別說明,皆引自Time Series Analysis with Applications in R.
接觸時間序列分析才半年,盡力回答。如果回答有誤,歡迎指出。
對第一個問題,我們把它拆分成以下兩個問題:
Why stationary?(為何要平穩?)
Why weak stationary?(為何弱平穩?)
Why stationary?(為何要平穩?)
每一個統計學問題,我們都需要對其先做一些基本假設。如在一元線性回歸中(),我們要假設:①不相關且非隨機(是固定值或當做已知)②獨立同分布服從正態分布(均值為0,方差恆定)。
在時間序列分析中,我們考慮了很多合理且可以簡化問題的假設。而其中最重要的假設就是平穩。
The basic idea of stationarity is that the probability laws that govern the behavior of the process do not change over time.
平穩的基本思想是:時間序列的行為並不隨時間改變。
正因此,我們定義了兩種平穩:
Strict stationarity: A time series {} is said to be strictly stationary if the joint distribution of ,, · · ·, is the same as that of,, · · · ,for all choices of natural number n, all choices of time points ,, · · · , and all choices of time lag k.
強平穩過程:對於所有可能的n,所有可能的,, · · · , 和所有可能的k,當,, · · ·,的聯合分布與,, · · · ,相同時,我們稱其強平穩。
Weak stationarity: A time series {} is said to be weakly (second-order, or co-variance) stationary if:
① the mean function is constant over time, and
② γ(t, t − k) = γ(0, k) for all times t and lags k.
弱平穩過程:當①均值函數是常數函數且②協方差函數僅與時間差相關,我們才稱其為弱平穩。
此時我們轉到第二個問題:Why weak stationary?(為何弱平穩?)
我們先來說說兩種平穩的差別:
兩種平穩過程並沒有包含關系,即弱平穩不一定是強平穩,強平穩也不一定是弱平穩。
一方面,雖然看上去強平穩的要求好像比弱平穩強,但強平穩並不一定是弱平穩,因為其矩不一定存在。
例子:{}獨立服從柯西分布。{}是強平穩,但由於柯西分布期望與方差不存在,所以不是弱平穩。(之所以不存在是因為其並非絕對可積。)
另一方面,弱平穩也不一定是強平穩,因為二階矩性質並不能確定分布的性質。
例子:,,互相獨立。這是弱平穩卻不是強平穩。
知道了這些造成差別的根本原因後,我們也可以寫出兩者的一些聯系:
一階矩和二階矩存在時,強平穩過程是弱平穩過程。(條件可簡化為二階矩存在,因為)
當聯合分布服從多元正態分布時,兩平穩過程等價。(多元正態分布的二階矩可確定分布性質)
而為什麼用弱平穩而非強平穩,主要原因是:強平穩條件太強,無論是從理論上還是實際上。
理論上,證明一個時間序列是強平穩的一般很難。正如定義所說,我們要比較,對於所有可能的n,所有可能的,, · · · , 和所有可能的k,當,, · · ·,的聯合分布與,, · · · ,相同。當分布很復雜的時候,不僅很難比較所有可能性,也可能很難寫出其聯合分布函數。
實際上,對於數據,我們也只能估算出它們均值和二階矩,我們沒法知道它們的分布。所以我們在以後的模型構建和預測上都是在用ACF,這些性質都和弱項和性質有關。而且,教我時間序列教授說過:"General linear process(weak stationarity, linearity, causality) covers about 10% of the real data." ,如果考慮的是強平穩,我覺得可能連5%都沒有了。
對第二個問題:
教授有天在審本科畢業論文,看到一個寫金融的,用平穩時間序列去估計股票走勢(真不知這老兄怎麼想的)。當時教授就說:「金融領域很多東西之所以難以估計,就是因為其經常突變,根本就不是平穩的。」
果不其然,論文最後實踐階段,對於股票選擇的正確率在40%。連期望50%都不到(任意一點以後要麼漲要麼跌)。
暑假裡自己用了一些時間序列的方法企圖開發程序性交易程序。
剛開始收益率還好,越往後就越...後面直接虧損了...(軟體是金字塔,第二列是利潤率)
虧損的圖當時沒截,現在也沒法補了,程序都刪了。
所以應該和平穩沒關系吧,畢竟我的做法也沒假設是平穩的。如果平穩我就不會之後不盈利了。
(吐槽)自己果然不適合做股票、期貨什麼的...太高端理解不能...
以上