学术文献做中国市场的主题很少,顶流做中国市场的更少。范剑青老师等人提出了一个通用的和自适应的,该模型可以从文本数据中提取潜在因子和特质因子,用来输入惩罚回归预测股票未来收益。他们在的实证结果表面,基于FarmPredict可以提取的情绪主导词汇,并且根据情绪评分指标构建的投资组合收益年化高达116%,这个结果显著优于其它模型。这项研究开辟了非结构数据在金融应用中的全新范式,更是证明了大数据无论在数据上还是在方法论上都在“金融投资”中有其核心地位。
范剑青简介:美国普林斯顿大学终身教授,Frederick L. Moore18冠名金融讲座教授,运筹与金融工程系教授和前任系主任。曾获国际统计学领域诺贝尔奖COPSS总统奖,2018年荣获诺特资深学者奖(Noether Senior Scholar Award),此外,他还是国际统计学会(ISI)、国际数理统计学会(IMS)、美国科学促进会(AAAS)、美国统计学会(ASA)、计量金融学会(SOFIE)的会士,以及国际顶尖统计期刊《Annals of Statistics》、《Probability Theory and Related Field》及《Journal of Econometrics》等的前主编等。他的主要研究领域包括高维统计、机器学习、计量金融、时间序列、非参数建模,并在这些领域著有4本专著。范老师属于学术界为数不多的“理论顶级,应用更牛”的学者。
权益市场上的大多数研究使用的文本数据仅限于英文环境的情绪词典或主题建模。但是,我们能否直接从文本数据预测新闻的影响?从这样的直接过程中我们能“学习”到多少内容?基于因子模型和稀疏正则化(FarmPredict),我们提出了一种全新的文本学习框架,让机器自动地学习金融收益。不同于其它基于字典或者有严格预处理过程的主题模型,我们的框架允许模型从整篇文章中更全面地提取信息。我们在中国股市上实证了我们的研究,中文文本在单词和短语间没有自然的空格而中国股市有非常高比例的个人投资者。这两个特性使得我们的研究显著不同于前人聚焦英文文本和美国市场的作品。我们使用中国股市的资料和几种现存的方法验证了本文模型。结果显示,由FarmPredict方法得到积极情绪评分的股票平均每日超额收益约83bps,而负面新闻在发布日期带来了26bps的负向影响,这两种影响都能持续数天。这种非对称的效应与中国股市的做空限制相吻合。作为总结,我们的研究显示机器学来的情绪确实提供了强大的预测能力,使得一个简单策略的年化回报率约为116%;基于我们模型的投资组合显著战胜了其他模型。这进一步支持了我们的FarmPredict可以学习金融新闻中的情绪。我们的研究也证明了使用机器学习文本数据有强大的潜力。
文本数据作为最常见的记录和通信工具,在社会科学研究中作为传统结构化数据的补充起着至关重要的作用。由于媒体、新闻和报道中的文本数据可以反应经济体参与人的态度,例如他们的评论、观点、目标和情绪等,所以文本数据对金融研究很有帮助。但是,从非结构化且复杂的文本数据中提取准确的含义和信息,我们需要面对其高维特征的统计障碍。一种普遍的方法是将非结构的文本数据转为结构指标,通过执行例如单词筛选、语义学习和情绪识别等分析过程。这里情绪度量可用于预测资产价格或股票市场的回报,作为投资组合选择或资产定价的有效工具(Gao等,2020;Sun等,2016)。随着数据科学和现代算力的发展,现在我们可以使用统计机器学习方法从编码文本中直接提取此类信息。
受前人著作的启发,本文引入了一种全新的因子增强正则化预测模型(FarmPredict),可以从考虑短语结构和交叉影响的全部词汇中提取潜在主题(因子)来预测股票收益。由于 FarmPredict 在初始步骤中不对词汇做应用边际筛选过程,因此它是一个更通用的分析框架,具有更广泛应用的潜力,提供了用于文本数据研究的高度自适应建模过程。
FarmPredict由三个步骤组成。第一步是从高维文章中使用无监督学习隐藏的特征。为此,我们使用主成分分析(PCA)将文章转换为包括多个潜在因子和特质因子组成的隐式成分的向量。潜在因子的数量由调整后特征值阈值方法估计(Fan 等,2020a)。这是一个纯粹的无监督学习过程,不需要先验假设的干预,所有的信息均从文章本身中学习。我们还解释了在文本数据中使用无监督学习的必要性,因为它可以避免主观假设和限制数据使用的潜在偏差。第二步,我们通过特质因子与学习目标(关联股票的贝塔调整后收益)的基于因子条件相关性做筛选。此步骤是可选的,但有助于我们将维度降低到更易于管理的级别。最后我们使用LASSO模型基于潜在因子和筛选后的特质因子预测资产价格。在每个分析步骤中FarmPredict也提供了高度的灵活性。
我们的研究收集了来自中国新浪财经的金融新闻,这是中国股市主要的新闻中心之一。该网站每天发布500多条新闻,提供即时和全面的中文流行财经新闻报道。我们使用爬虫从其网站下载公开可用的新闻网页并提取所关注数据的相关时间、文本和股票信息。文本用隐马尔可夫模型切词,并与相应股票代码和发布时间的收益拼配。用来模型训练的每篇文章都与有效的贝塔调整后收益匹配。我们在数据的二分词袋向量上拟合FarmPredict,使用2015年至2019年的数据评估模型在估计情绪得分和相应的回报上的表现。
我们随后使用多种方法验证FarmPredict的情绪评分。第一,我们检查了我们的模型选择的主要情绪主导词汇的含义。与ad hoc主题模型获得的词汇相比,我们证明了 FarmPredict 能够捕获更多会被边缘筛选忽略的交互式信息。面板回归还表明,FarmPredict可以学习目标股票的特定信息,使之与目标股票的贝塔调整后收益产生显著相关性。我们还将本文中的新闻视为“事件”,并估计了基于事件研究的股票回报范式。这揭示了令人意外的新闻如何发生以及他们如何影响中国金融市场的潜在机制。结果显示,在利好消息发生前大约 7 天,贝塔调整后收益已经开始增加,而负面新闻情况没有观察到这样的结果。这种不对称的影响与中国股市的卖空约束和监管机制非常吻合,这使得市场更难对负面新闻的泄漏或预期做出反应(Chen等,2019;Nagel,2005)。在新闻发布当天的冲击峰值后,正面新闻情绪可以带来83bps的收益而负面消息情绪带来26bps的损失,(正面/负面)新闻的影响都可以持续几天。安慰剂测试的结果进一步支持了这个结论,从而意味着投资机会。
我们也依据金融投资模拟测试了我们的机器学习情绪评分。我们根据预测的情绪得分建立了每日投资组合,并记录了它们的回报。这些投资组合表现出稳健积极的收益,对等权多空组合,年化收益率达到116%(夏普比率:9.37);对市值加权多空组合,年化收益率约48%(夏普比率:3.34);在2015-2019年的测试期表现明显超过其他模型。这个结果也验证了中国股市中的新闻和动量效应。我们进一步分析了投资组合的风险、α(贝塔调整后收益)和其它部分。α的年化收益率高达115%,夏普比率约为9.37。上述测试中也考虑了有关中国股市的现实细节,例如交易成本和日度价格限制。为了进一步验证 FarmPredict 的稳健性,我们测试了模型在面对以下情况的敏感性:输入和输出的各种变形,因子选择,构建投资组合中的股票数量,以及新闻输入的数量。结果保持稳定,从而证明了 FarmPredict 的鲁棒性。
本章节讨论使用机器学习文本数据的框架。我们首先总结了不同模型共享的框架和符号,然后介绍了一种使用因子增强的新型回归方法(FarmPredict);随后是FarmPredict框架的变形应用。我们还简要介绍了主题模型(ad hoc)及其扩展以便进行比较。
在本小节中,我们主要将接下去会使用的一些参数进行声明。我们使用单词级别的统计信息作为篇文章(即词袋)的主要内容。设是篇文章的数据中所有可能的中文单词的集合,是第篇文章中每个单词的词向量,为文章中第个单词出现的次数。每篇文章由几个基本主题(topic)组成,每个主题都有自己的首选词汇表。因此,我们假设一篇文章的字数向量受到少量潜在因子(latent factors)的影响。这些因子或主题可以是简单的正面或负面,也可以是更复杂的因素,包括文章的态度、相关行业部门、作者自己的词汇偏好等。这是主题模型一个最基本的模型设置。
在本文中,将是新闻发布当天文章所关联股票的贝塔调整后收益。因变量主要受小的词汇子集的影响。我们称这组词为情绪主导词(sentiment-charged words)。这样处理有助于将维度降低到一个合理的水平。因为每一个词袋的维度非常高,但是词向量又表现得很稀疏。举例来说,在文章所搜集到的214000篇文章中一共包含了110多万个词语,但是这些词语出现次数为50次以上的只有71000个。
所有的词都被分为两类: 情绪主导词集和情绪中性词集,因此。一篇文章的情绪得分主要与文章中的情绪主导词有关。表示仅包含集合内词语的词向量。
在大多数传统的文本分析中,如主题模型或基于字典的方法,模型有许多限制,导致不灵活和对情绪的不准确估计。那么我们自然会问,是否可以直接从高维回归学习情绪?因为情绪预测在金融研究中本质上是一个回归问题。在这里,我们提出了一个直接回归框架,称为因子增强正则化预测模型(FarmPredict)。该部分主要分为六个模块。
在收集的110万个不同的词语中,大多数个体都很少出现。它们的语义信息很难被学习。因此,我们首先过滤掉这些只出现在一小部分文章中的不常见词汇。筛选帮助我们聚焦到一个合理全面的单词集合(1,0000个词汇左右)。对于词汇的筛选我们遵循以下规则:
其中表示第个词汇在所有文章中的出现频次,代表我们事先设置的阈值,是一个超参数,它的作用是在的全面性以及不常见单词引入的噪声之间取得一个平衡。
令为特征向量,其中表示中第个单词在第i篇文章中的特征,这既可以是0-1变量表示是否出现,也可以是表示出现频次的数值特征。不同单词之间的独立性我们假设是由一些潜在的因素影响的,也就是说遵循:
其中是潜在因子,是因子载荷矩阵。残差项称为特质因子,一个无法由解释的部分所组成的向量,即与不相关的部分。将上述模型写成矩阵形式:
其中均为的矩阵,为的潜在因子矩阵ope体育。这里仅有已知,而都需要使用PCA估计。这些因子可以被理解为类似主题分数,而给出了这些主题的不同组合。
借鉴Fan等(2020b)的思路,我们可以利用潜在因子与特质因子建立对收益的估计:
其中为误差项,使用与作为自变量会使得变量之间的相关性大幅降低,从而有效地避免共线性对模型造成的影响。同时我们还会对施加稀疏性约束,因为大多数词语并不携带影响情绪或股票回报的信息。
其中代表矩阵最大的k个特征值代表的特征向量矩阵。而对于超参数k的确定,可以参考Fan等(2020c)中提出的一种数据驱动的方法。该方法考虑了观测变量的异质尺度(heterogeneous scales),通过对相关矩阵特征值的校正估计进行阈值估计,估计出因子的个数。具体来说,k被估计为统计意义上大于1的校正值的数量:
有了学习到的各种因子之后,我们可以进一步锁定出那些具有明显情绪影响的词语。设为上用截距拟合的线性回归后的残差向量。这就去掉了中可以用因子解释的部分。我们接下去继续使用的分量来预测。
条件筛选(Conditional screening)是寻找与相关度高的词(Fan and Lv, 2008),更准确地说,是词汇(即的第列)与的相关性,这个相关性是与词汇相关的特征向量(即)的偏相关,条件依赖于潜在的因子。给予一个临界值,情绪主导词集的定义为:
阈值α将被调整为选择大约1000个单词。这个步骤是可选的(对应于α = 0),但是可以帮助我们加快计算速度。这相当于在的基础上又对词集进行了更精准地定位与简化。
得到每一个估计变量之后,我们便可以着手建立我们的回归模型。在情绪主导词集上,FarmPredict需要求解下面的带惩罚项最小二乘问题:
其中是限制在情绪主导词集中的部分。通过交叉验证所选择的控制模型的偏差-方差权衡和的稀疏性。这进一步减少了目标词集中的词汇数目。
的情况下,对式(2.2)应用最小二乘,我们得到与${}相关的潜在因子{}和特质因子{_}$如下:
我们使用的新闻数据下载自新浪财经网站。我们的爬虫访问了约630万个独立的网络链接,其中约580万是有效的新闻文章。对于每个下载的网页,发布时间和标题会从相应的html文件头部提取。文章主体从对应html文件中ID标记为article的章节提取。如果是不含有ID的网页,我们分析网页结构并结合正则表达式提取文章主体。
我们执行一系列数据预处理来清理、选择和准备下载的数据以达到拟合模型的标准:
其中,股票的由股票自身的日度收益率对市场指数(原文用上证指数)的回归计算。股价使用后复权价格。
“有效收益”是指选择合适的时间段,使得这段时间的股票收益能够充分反应新闻对股价的冲击,也要覆盖文章的发布时间。我们选择最近两个交易日作为有效收益的时间段。如果关联股票因为停牌等原因没有“有效收益”,那么舍弃对应的文章。
随后我们使用Jieba(Sun,2017)来把一篇文章的标题和内容切割为词汇(或短语)的列表。最后,为了平衡数据差异和减低计算量,我们采用降采样使得每天至多有300篇文章。
在我们的914070篇文章数据集中,整个集合D中约有118万个词汇,其中约7.1万个词汇至少出现在50篇文章中(占所有文章的0.004%)。在所有模型中,我们都是基于这7.1万个词汇及其在每篇文章中对应的统计数量开展研究。字数统计矩阵高度稀疏,每篇文章的中位数为 309 个词汇和 209 个独特的词汇。所以在这个7.1万维度的字数统计向量中,中位数水平的文章只有0.29%的非零条目。
时序上的分布情况如下:2月份以及5月和10月的前几周的数据较少,这对应到中国最大的三个节假日。大多数新闻都是股市开市后发布,大约从上午9点左右开始,直到一天结束。午夜后也有一些新闻发布,但主要是自动生成的新闻或海外新闻。
调整使用了2000年至2014年的数据。更具体地说,我们使用了从2000年到2010年的数据作为训练集,2011到2014年的数据作为验证集来选择优化参数。对于每个模型和超参数的组合,该模型在训练集上拟合,在验证集上用作预测。然后每天根据预测分数构建和测试等权重投资组合。在验证集上具有最高累积回报的超参数组合在所有后续测试中固定使用。
在FarmPredict中,首先从确定方程(2.4)中的C开始调参,它控制了方程中使用的因子数量。下图展示了使用2000年至2014年数据,计算出的特征值和特征值差值。图像显示有2个比较强势的因子和7个相对弱势的因子。受此启发,我们后续选择C=150,而。
当C固定后,我们需要调整筛选高频词的超参数和筛选情绪主导词的超参数。每个10年测试期中大致有7万词汇,参数使得约有4500到15000词进入。参数使得保留在中的词汇恰好是500,1000或2000。在验证集上进行带惩罚项的逻辑回归(2.6)可以进一步选择情绪主导词汇。
所有模型都通过滚动窗口进行训练和测试,以六个月为基准。在调参中选择的每个模型的最佳超参数在所有训练窗口中固定使用。对于每个窗口,10年的数据用于训练模型,随后的6个月数据用于测试模型。测试中的每篇文章的预测分数都会被记录下来。完成当前窗口期的训练和测试后,我们将整个窗口期向前滚动6个月,重做训练和测试,重复以上过程直到结束。第一个窗口使用 2005-2014 年的数据进行训练,使用2015年1-6月的数据进行测试。最后一个窗口使用 2019年7-12月作为测试期。我们总共检查了10个窗口期,并记录了2015年至2019年每个交易日的预测情绪得分。
滚动窗口测试中的训练和测试窗口是根据我们使用数据的分布情况挑选的。在这十个窗口中,训练文章的数量从42.8万到52.9万不等,而输入词汇数量从76.1万到86.3万。只有在所有文章中至少出现 50 次以上的词被视作为我们的模型输入有效词,因此每个窗口的输入量X维度范围从6.6万到7.1万。
为了验证我们从新闻中提取的情绪指标,我们首先呈现最情绪主导的词汇,并给出FarmPredict和ad hoc主题模型中边际筛选的结果对比。下图中的情绪主导词汇,颜色取决于情绪正负,而字体大小正比于它们的情绪力量。
相比而言,ad hoc主题模型选出的词汇都是和情绪高度相关的;而FarmPredict能够利用整篇文章的信息,选出一些符合自然人特定语言和写作习惯的词,例如:十只、敢死队等。
基于2005年1月到2019年12月的贝塔调整后收益的面板数据,我们进行如下多元回归:
这里是第i个股票在第t天的贝塔调整后收益,是对应的情绪得分,而是时间(日度)效应。由于收益可能跟过去相关,所以我们加入了滞后项作为控制变量。
表5分别显示了不同模型估计的情绪分数的结果。我们逐渐将控制变量添加到模型中,以测试相关性的鲁棒性。如表所示,贝塔调整后收益和情绪分数之间存在显著的正相关关系(列 1、4 和 7)。这种正相关显著地保持稳健,在加入滞后项后有所变小。我们的情绪评分与每个具有强R方股票的贝塔调整后收益高度相关,因此可以用来建立高收益(经贝塔调整后)的投资组合。
我们还需要检验是否捕捉到了股票的真实特质,而不是获得了市场的全局信息。我们使用如下回归分析:
其中是上证综指(或深指)的指数收益,是日度平均情绪得分,是评分的离差变量,和代表年度和季度效应。
结果如表6所示。第1至3列、第4至6栏和第7至9栏描述基于不同模型估计的分数的回归结果。我们研究了情绪得分与市场回报之间的相关性,依次添加滞后项。与表5不同,表6中的所有结果都不能提供情绪评分对市场回报有可预测性的证据。这些表6中的非显著结果恰巧碰上了我们的期望:因为情绪得分是基于个股经贝塔调整后的收益训练出的,经过良好调整的模型只能捕获个股信息,但不是整个市场。联合表5和表6的结果,验证了我们的模型可以从新闻中提取个股水平的信息,而忽略市场的全局信息。
我们根据预测分数构建股票投资组合来测试模型。在每个滚动窗口期构建和测试投资组合的方法如下:在每天闭市前,模型检视自上次闭市以来的所有文章并计算分数,然后做多50个得分最高的股票,做空50个得分最低的股票。每只股票都在投资组合中占比1%,如果少于50个股票(正向或负向),那么就持有现金。我们在当天收盘时形成我们的头寸拍卖并在第二个交易日的收市竞价时收盘。我们称这个组合为等权组合(EW)。类似地,我们构建了价值加权组合(VW),而价值权重使用了股票前一日的总市值。一般来说,价值组合在交易上流动性更好,但是收益更低。
我们测试了多个模型,所有方法在等权组合上都表现得很好,这强烈表明中国股市新闻文本中存在与股价相关的信号。表7是各个模型的收益和风险指标。
在这些方法中,FarmPredict 表现最好,年化收益率约为 116%,夏普比率约为9.37;价值加权组合的年收益率也达到了48%,但不如等权投资组合。这表明大盘股受到更多深度研究的关注,所以他们的价格受金融新闻的影响较小。
为了更好地理解该策略,我们研究了投资回报的详细成分和风险。我们引入了分解和评估投资组合特质回报和市场风险暴露的方法,并利用它们来分析FarmPredict。结果显示只有约6.3%的整体方差与市场有关,因为多头和空头的市场敞口在组合时可以相互抵消。
中高频的投资策略会有较高的交易成本和税费。个股的流动性存在限制,可能难以易,以尽量减少对市场的冲击。此外,中国股市的卖空限制也可能显著增加卖空成本。
中国股市上的费率通常有:印花税、过户费和佣金。考虑交易费率后我们测试了投资组合表现,它们的收益数据可见表9。这里我们简化过户费为1bps而整体交易费为16bps,忽略价格冲击或买卖差价影响。此时等权组合仍有正收益,但是利率减半。
更进一步,考虑中国股市涨跌停对股票的交易影响后,我们测试了模型的表现。图9中展示了模型的累计收益表现,limited代表考虑涨跌停影响:
此时,考虑涨跌停的等权组合(红色)从2015年至2019年的年化收益约41.2%,而夏普比率约4.74。
我们变化FarmPredict模型的输入数据和一些参数进行敏感性测试,例如输入变量X和Y的不同形式,模型中的因子数量以及投资组合中的股票数量等等。
在测试变化输入变量的形式时,我们测试了2*4=8种组合,其中Y取贝塔调整后收益即消除市场噪音的表现是最好的,而X做正则化或二分化处理影响不大。
在测试模型中因子数量变化时,我们发现整个测试期仅有2018年的收益与因子数量表现出了正相关趋势,而其它年份没有明显特征。
在测试投资组合中的股票数量时,我们测试了25、50和100(多空中的单边个股数量)的情况,发现小规模的投资组合收益表现波动大但累计收益最高。
为了实现文本研究中的无监督信息提取,作者提出了一种全新的分析框架:FarmPredict。该方法不需要先验知识,就可以从高维文本数据中无监督地提取潜在因子和特质因子。然后我们根据情绪主导词汇和贝塔调整后收益的相关性筛选特质因子。尽管只有部分词汇入选,但是我们以嵌入因子的筛选方式使用到了全部信息。换句话说,FarmPredict将高维数据转化为重要潜在因子和有用的特质因子,然后将它们用作惩罚回归或其他预测模型的输入。
为了验证模型的实用性,我们使用FarmPredict研究了中国股市中的新闻数据。对比模型提取的情绪主导词汇,情绪评分和未来收益的相关性,以及根据情绪评分构建投资组合的收益表现,我们模型的表现都优于其它模型。FarmPredict可以通过无监督的方式把高维数据转为为弱相关数据,从而提取文本数据中的所有信息。因此,它不只是金融分析中的新模型,也是一个通用的和自适应的高维数据监督学习框架,例如本文中的文本分析,而且每个过程中方法选择具有灵活性。
风险提示:本报告结论完全基于公开的历史数据进行统计、测算,文中部分数据有一定滞后性,同时存在第三方数据提供不准确风险;模型均基于历史数据得到的统计结论且模型自身具有一定局限性并不能完全准确地刻画现实环境以及预测未来;模型根据历史规律总结,历史规律可能失效;模型结论基于统计工具得到,在极端情形下或存在解释力不足的风险,因此其结果仅做分析参考。
市场有风险,投资需谨慎。本平台所载内容和意见仅供参考,不构成对任何人的投资建议ope体育,亦不构成任何保证ope体育,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主做出投资决策并自行承担风险。根据《证券期货投资者适当性管理办法》,本平台内容仅供中泰证券股份有限公司客户中的专业投资者使用,若您并非专业投资者,为保证服务质量、控制投资风险,请勿订阅或转载本平台中的信息,本资料难以设置访问权限,若给您造成不便,还请见谅。
本平台旨在沟通研究信息,交流研究经验,不是中泰证券股份有限公司研究报告的发布平台,所发布观点不代表中泰证券股份有限公司观点。任何完整的研究观点应以中泰证券股份有限公司正式发布的报告为准。本平台所载内容仅反映作者于发出完整报告当日或发布本平台内容当日的判断,可随时更改且不予通告。
本平台所载内容不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见。