量化模型

机器学习在金融计量经济学中的应用


有监督机器学习(Supervised machine learning )通过优化样本外预测(out-of-sample forecasting)的结果查找合适的预测模型。在金融领域,我们主要利用机器学习来做预测,而利用经典计量经济学对经济状况做参数估计。机器学习强调从历史数据中识别某种规律,而不是自上而下的理论验证。

我们通常基于以下两个阶段来建立机器学习的预测函数:

1、根据给定的复杂度选择“最佳”模型,

2、根据历史数据的样本外预测表现选择“最佳”复杂度。

因为投资收益依赖于各种复杂的关系,即使是金融从业人员也不能很好地理解这些关系,所以机器学习为我们做金融预测提供了一个有力工具。

机器学习在计量经济学中的作用

在计量经济学工具箱中,机器学习不仅提供了新工具,还解决了另一个问题。有“监督”的机器学习主要解决预测问题:如何从x预测y。机器学习的优点在于它能够从数据中发现一般化的规律,能够发现未预先规定的复杂结构。它可以避免通过简单的过度拟合,从数据中拟合出复杂且灵活的模型,模型在样本外运行良好。

理论驱动和数据驱动的分析模式总是共存的。理论驱动的评估方法大多基于自上而下的理论演绎推理估计模型。例如,经济学的应用大多围绕参数估计展开:对依赖和解释变量之间关系的参数进行良好估计。而数据驱动的评估方法大多简单地让数据说话。机器学习提供了一个强大的工具,可以更清晰地听到数据所要表达的内容。区别于参数估计,机器学习属于计量经济学中预测工具箱的一部分,更加适用于经济学中的预测任务。特别是使用新类型的数据来解决传统问题时,例如,用卫星图像来监测经济活动。

现在机器学习算法在技术上很容易实现,我们可以利用R或Python里的决策树(decision trees),随机森林(random forests)或LASSO(Least Absolute Shrinkage and Selection Operator)回归系数来做分析。这也增加了机器学习算法被滥用或者结果被错误解读的风险。

机器学习如何工作

传统的估计方法,如普通最小二乘法(ordinary least squares),已经提供了较为便捷的方法来做模型预测,那么为什么要用机器学习来解决这个问题呢?

应用普通最小二乘法需要我们人为做出一些选择(例如,选择哪些解释变量,变量之间如何交互等)。而机器学习可以自动搜索解释变量并确定变量之间的交互关系。例如,一个典型的机器学习方法:回归树( regression trees)。像线性函数一样,回归树将每个向量的特征映射到预测值。预测函数采用树形式,在每个节点处分成两部分。在树的每个节点处,单个变量的值决定了算法选择左侧还是右侧的子节点。当到达终端节点——叶子节点时,返回一个预测。

机器学习的优点在于较高的模型维度,灵活的模型形式可以拟合不同的数据结构。但是这种灵活性也带来了很多可能性,样本内拟合最好的模型不一定是一个好的模型。那么我们如何利用机器学习做样本外预测?以下是两种可能的解决办法:

1、正则化(regularization)。在上述回归树中,我们不是选择最好的整体树,而是选择一定深度树中的最佳树。树越浅,样本内拟合程度越差,但这也代表示更少的过度拟合。通过适当地选择正则化水平,我们可以平衡模型的灵活性和过度拟合。

2、经验调整(empirical tuning)。我们在原始数据样本内创建一个样本外数据。我们通过拟合样本内数据,选择合适的正则化水平下的样本外数据拟合最好的模型。

正则化和参数的经验调整有助于我们构建各种预测算法。我们可以使用模型类型(function class,例如回归树)和正则化(regularizer,例如树的深度)表示一个模型的复杂度。我们可以采用以下两个步骤选择预测模型:

1、基于模型的复杂程度,选择样本内损失最小的模型。

2、使用经验调整来估计最优复杂程度。

部分模型类型和正则化概述如下图:

在样本外预测方面,随机森林等机器学习算法可以做得比普通最小二乘法好得多。

机器学习的缺点

机器学习的优点在于它们可以拟合出许多不同的模型。 但是这也会导致一个致命弱点:更多的模型意味着具有完全不同参数的两个模型可以产生相似的预测结果。 因此,我们如何在两种不同的模型之间进行选择值得研究。

正则化也会导致这个问题。 首先,我们会选择相对不复杂但错误的模型;其次,它可以引起遗漏变量偏差(omitted variable bias),当正则化排除一些变量时,可能会导致参数估计偏差。

 

 

本文基于学术论文

Mullainathan, Sendhil and Jann Spiess, “Machine Learning: An Applied Econometric Approach” , Journal of Economic Perspectives—Volume 31, Number 2—Spring 2017—Pages 87–106.

参考
Financial econometrics and machine learning,Ralph Sueppel

本文是全系列中第3 / 5篇:金融科技

量化模型
市场风险测度之VaR概述
量化模型
利用R语言aggregrate函数计算年化波动率
量化模型
BS公式能否正确定价资产价格变化?
还没有评论哦,快来抢沙发吧!