從線性到非線性:為什麼斯皮爾曼相關係數比你想像中更重要

相關係數在30秒內的解釋

相關係數本質上是一個單一指標,用來量化兩個變數的同步變動程度。它的範圍從 -1 到 1:接近 1 的數值表示兩者同步上升或下降,接近 -1 表示反向運動,而圍繞 0 的值則暗示線性關聯較弱。這個標準化的度量在各行各業都適用——科學、工程,尤其是金融,因為它能將雜亂的散點圖轉換成一個易於理解的數字。

為何投資者應該關心(以及何時不該)

在投資組合管理中,相關性揭示了多元化的可能性。當你將低相關或負相關的資產搭配時,可以降低整體投資組合的波動性——在市場動盪時這是一個關鍵優勢。金融策略師依賴相關性分析來進行風險對沖、因子投資和統計套利。但這裡有個陷阱:許多投資者過度依賴皮爾森相關,卻忽略了不沿直線的關係。

你需要了解的三種相關性類型

皮爾森相關捕捉連續變數之間的線性關聯。它是行業標準,但有盲點:完全忽略曲線或階梯式的模式。

斯皮爾曼相關則不同。它不是用原始數值,而是將數據排序,測量單調關係——也就是說,即使關係彎曲,它仍能捕捉一個變數持續與另一個變數同步變動的關聯。這使得斯皮爾曼相關在處理現實金融數據時特別有用,因為這些數據常常包含離群值或非正態分布。處理序數資料(如市場排名或層級分類)的交易者會發現斯皮爾曼相關比皮爾森更可靠。

肯德爾的tau提供另一種基於排序的替代方案,當樣本較小或有許多平手值時,通常更具魄力。

選擇正確的測量方法不是學術上的小事——它直接影響你的交易決策。高皮爾森值只保證線性關係;若是彎曲的相關性,除非你用斯皮爾曼或類似技術,否則可能藏在眼前。

相關性背後的數學(解密)

皮爾森公式看似簡單:將兩個變數的協方差除以它們標準差的乘積。這個標準化將結果壓縮在 -1 到 1 的範圍內,使得不同資料集之間可以比較。

公式: 相關係數 = Cov(X, Y) / (SD(X) × SD(Y))

以基本範例說明

取四個配對觀測值:

  • X:2, 4, 6, 8
  • Y:1, 3, 5, 7
  1. 計算平均值:X平均=5,Y平均=4
  2. 計算每個值與平均值的偏差
  3. 將配對偏差相乘並相加(得到協方差的分子)
  4. 計算兩個系列的標準差
  5. 將協方差除以標準差的乘積,即得 r

結果:約為 0.98,表示幾乎完美的正相關,因為Y與X成比例上升。

現實數據很少如此乾淨,因此多用自動化工具來處理運算。但理解其運作機制能避免誤解軟體輸出。

解讀相關值:範圍與意義

沒有一個絕對的門檻,但常用的約定如下:

  • 0.0 至 0.2: 幾乎無關聯
  • 0.2 至 0.5: 弱相關
  • 0.5 至 0.8: 中等到強相關
  • 0.8 至 1.0: 非常強的相關

負相關則反映相反的運動,例如 -0.7 表示相當強的負相關(。

重要提醒: 不同行業對「有意義」的標準不同。實驗物理學要求相關性接近 ±1 才有意義,而社會科學則接受較低的門檻,因為人類行為本身帶來噪音。

樣本數陷阱:為何你的相關可能是幻覺

用10個資料點計算的相關係數,與用1,000個資料點得出的結果不同。為了辨別真正的關聯還是統計偶然,應計算 p 值或信賴區間。大樣本即使相關性較低也具有統計意義;小樣本則需要更高的相關值才能達到顯著。

永遠要問自己:「這個相關是真的,還是純粹運氣?」

交易前的五大限制

  1. 相關≠因果。 兩個變數一起變不代表一個驅動另一個——常有第三方因素在背後操控。

  2. 皮爾森的線性盲點。 曲線關係可能呈現低皮爾森值,卻有強烈的底層關聯。這時斯皮爾曼的非線性單調相關就很有用:它能捕捉皮爾森忽略的非線性模式。

  3. 離群值敏感。 一個極端的離群點就能大幅改變 r,污染你的分析。

  4. 分布假設。 非正態分布或類別資料違反皮爾森的基本假設。此時應用斯皮爾曼或Cramér’s V。

  5. 時間不穩定。 相關性會隨時間漂移,且在市場壓力下常崩潰——正是你最需要多元化的時候。

) 當皮爾森失靈時,試試替代方案

對於單調非線性關係,斯皮爾曼和肯德爾的tau能提供更真實的圖像。對於類別資料,則需用列聯表和Cramér’s V。

實務投資組合應用

股票與債券: 美國股票與政府債券歷史上呈低或負相關,在股市下跌時能提供緩衝。

商品曝險: 石油公司股票與原油價格直觀上相關,但長期研究顯示相關性適中且不穩定——表面邏輯常會誤導。

對沖策略: 交易者尋找負相關資產來對沖風險,但對沖只有在相關性持續時才有效。市場崩潰可能瞬間打破這些假設。

計算相關性:Excel的實用工具箱

兩個變數:
使用 =CORREL(range1, range2) 計算皮爾森相關。

多系列相關矩陣:
啟用Excel的資料分析工具庫,選擇「相關性」,輸入範圍,即可產生所有配對的相關矩陣。

專家提示:
確保範圍對齊,包含標題,並在信任結果前檢查資料中的離群值。

R 與 R平方:理解差異

R ###相關係數本身(,量化線性關係的強度與方向,顯示點與線的聚集程度。

)R平方(,將相關係數平方,表示在線性假設下,一個變數的變異中有多少比例可以由另一個變數解釋。如果 R=0.7,則 R²=0.49,代表約 49% 的 Y 變異可由 X 預測。

投資者常用 R² 來評估回歸模型,但 R 本身能告訴你關係是正向還是負向——這個重要的背景資訊 R² 無法提供。

漂移問題:何時重新計算

市場狀況會改變。金融危機、科技變革、監管調整都會影響既有的相關性。依賴穩定關係的策略,應定期重新計算相關,並追蹤滾動窗口的相關性,以在變化發生前察覺。

使用過時的相關資料可能導致對沖失效、多元化失真或因子曝險錯配。

你的前置檢查清單

在進行相關分析前:

  • 畫散點圖,直觀確認線性或非線性)或非線性(
  • 檢查離群值,決定:移除、保留或調整
  • 確認資料類型與分布符合所用方法
  • 進行顯著性測試,特別是樣本較少時
  • 追蹤滾動相關,監控不穩定性

最終結論

相關係數將兩個變數的關係濃縮成一個數字,易於解讀。它在投資組合建構、風險管理與探索性分析中扮演重要角色。然而,它並非完美工具:不能建立因果關係,對非線性模式無能為力,也會受到離群值與樣本大小的影響。

將相關性視為起點,而非終點。結合視覺檢查、斯皮爾曼相關等替代測量,以及嚴格的顯著性測試,才能做出在市場考驗下能自我辯護的決策。

WHY-6.1%
MORE-13%
THINK-8.66%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • بالعربية
  • Português (Brasil)
  • 简体中文
  • English
  • Español
  • Français (Afrique)
  • Bahasa Indonesia
  • 日本語
  • Português (Portugal)
  • Русский
  • 繁體中文
  • Українська
  • Tiếng Việt