Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
为什么你的投资组合策略需要R平方(以及为什么仅靠相关性是不够的)
快速答案:有什么不同?
当你分析两个资产是否一起变动时,你会听到交易者提到两个术语:相关系数和R平方。它们相关但传达的意义截然不同。相关系数®的取值范围是-1到1,显示两个变量“紧密”追踪的程度以及方向。R平方(R²)是该数字的平方,揭示可以用另一个变量预测的百分比。
这样理解:相关系数0.8听起来很强,但相应的R²只有0.64——意味着只有64%的价格变动可以被解释。剩下的36%?是随机的、无法预测的噪声。
相关性到底是怎么工作的(机制)
本质上,相关性将复杂的关系浓缩成一个数字。这个数字在-1到1之间。接近1的值意味着变量一起上涨和下跌。接近-1的值意味着它们相反。围绕0的值?没有可靠的线性关系。
其数学表达式为:相关性 = 协方差(X, Y) / (标准差(X) × 标准差(Y))
这个公式的关键作用是:它标准化了杂乱的数据,让你可以在不同规模或单位之间进行比较。没有标准化,比较一只股票与比特币的相关性和与原油的相关性就毫无意义。
三大类型 (以及何时使用)
皮尔逊相关系数在金融和数据科学中占主导地位。它捕捉连续变量之间的直线关系。但如果你的数据呈曲线或阶梯跳跃,皮尔逊会误导你——它会显示弱相关,但实际上存在强关联。
斯皮尔曼和肯德尔使用排名而非原始值。当数据不服正态分布、含有离群值或表现为序数排名时,它们是你的好帮手。样本量小?斯皮尔曼比皮尔逊表现更佳。
选择错误的指标是陷阱。高皮尔逊值只确认线性运动。若忽略了潜在关系,你的投资组合可能在你以为已对冲时崩盘。
解读数字:0.6到底意味着什么?
虽然有一些指导原则,但具体情况优先于死板的规则:
负相关值的理解方式相同——只是方向相反。相关系数-0.7表示相当强的反向运动,适合用来对冲。
但这里有个陷阱:不同领域对“强”相关的阈值不同。物理学要求相关性接近±1才算“真实”。金融和社会科学接受较低的值,因为现实世界更复杂。在市场心理学中,0.4的相关性可能被视为显著;在粒子物理中,这可能只是噪声。
样本量问题(或者:你的发现可能是垃圾)
用5个数据点计算的相关性和用500个数据点计算的相关性,即使数字相同,意义也天差地别。
样本少时,即使相关性为0.6,也可能只是统计噪声——随机巧合。样本多时,即使只有0.3,也可能具有统计显著性和真实性。
判断相关性是否重要,要看p值或置信区间。p值低于0.05意味着关系不只是运气。但p值本身也依赖于样本大小,所以不要盲目崇拜。
相关性失效的地方:注意事项
相关≠因果:两个变量一起变动可能是因为第三个隐藏因素驱动。油价和航空股经常相关,但都不是彼此的原因——燃料成本推动两者。忽略这一点,你的对冲策略可能会很糟糕。
皮尔逊对曲线无能为力:完美的S型关系在皮尔逊中表现为弱或接近零的相关性。你需要用斯皮尔曼或散点图来捕捉皮尔逊遗漏的关系。
离群值是破坏者:一个极端值就能大幅影响相关性。去掉一个点,你的整个结论可能就翻转了。务必在相信数字前先可视化。
制度转变会毁掉一切:股票和债券的相关性曾经是负的——多年来的分散投资理想。后来出现了同时崩盘的时期。用昨天的相关性来预测明天的组合,是金融上的失误。
R平方:预测能力的衡量标准
这里,R平方作为实际的工作工具登场。虽然相关性显示方向和紧密程度,R²量化了预测能力的百分比。
如果你用线性模型拟合两个变量,得到R²=0.64,意味着你的因变量的方差中有64%可以由自变量解释。剩下的36%来自其他因素、随机性或模型错误。
关键点:R²永远不超过相关系数的平方。0.8的相关性最大对应R²=0.64。许多交易者误以为强相关意味着可以完美预测——这会让他们亏损。
利用相关性进行聪明的投资组合构建
真正的投资者不会只计算完相关性就了事。他们会策略性地使用它:
多元化:当股票和债券显示低或负相关时,组合它们可以平滑回报。在股市崩盘时,债券通常反弹,缓冲损失。
配对交易:量化交易者利用高相关资产的暂时崩溃。当两个历史相关的资产偏离时,他们押注它们会重新收敛。
因子暴露:不同的风险因子(价值、动量、规模)与广泛指数的相关性不同。理解这些关系有助于你构建平衡的敞口。
对冲决策:需要对冲油价风险?找一个与原油负相关的资产。但要确认这种相关性是否稳定——如果在市场恐慌(时消失),你的对冲就毫无用处。
稳定性问题:相关性何时会背叛你
相关性不是常数——它会随着市场制度、政策变化和技术颠覆而变化。持续五年的相关性可能一夜之间消失。
监控滚动窗口相关性(在移动时间段内计算相关性),以发现趋势和制度变化。如果你的策略依赖于稳定关系,就要定期重新计算。忽视相关性衰减,你的“完美对冲”在危机来临时可能毫无保护作用。
可信赖任何相关性之前的实用步骤
先可视化:散点图能揭示数字隐藏的模式。随机点云?你的相关性在撒谎。
寻找离群值:识别并决定是否保留、删除或调整极端值。一个离群点就能翻转你的全部结论。
匹配方法与数据:正态分布连续数据用皮尔逊。序数排名或非正态分布用斯皮尔曼或肯德尔。
检验统计显著性:不要在未检查p值的情况下假设数字有意义,尤其是样本少时。
追踪稳定性:用滚动窗口观察相关性变化。当它剧烈变化时,你的策略需要调整。
定期重新计算:新数据不断到来。根据市场状况和决策频率,每月或每季度更新你的相关性。
结论
相关系数和R平方是强大的诊断工具,但不是水晶球。相关性告诉你两个变量的同步紧密程度;R²告诉你可以预测的比例。它们都不能证明因果关系,都在非线性关系面前失效,也都在市场制度变化时崩溃。
将它们作为起点——结合散点图、领域知识和其他统计指标。检验显著性、监控稳定性,并对那些看似过于完美的关系保持怀疑。这种怀疑正是区分理解这些指标的交易者和被现实打脸的人的关键所在。