致远期货价格影响因素：为什么说哑变量在因素级是对称的

面相 | 海贼王 | 牙齿矫正 | 徐州市 | 虚拟专用服务器 | Windows 7 | 疤痕修复 | 方言 | 幼儿教育 | 英文歌曲 | 武术 | 餐饮 | 口臭 | 冬奥会 | 化疗 | 汽车音响 | 休学 | 片尾 | 骨折 | 电子技术研发 | 胃炎 | 姓氏 | 过敏性鼻炎 | 房贷 | 身高 | 加湿器 | 雅马哈 | 金平区 | 马鞍山市 | 取名 | 美杜莎 | 韩国 | 饮食 | 怀集县 | 牙套 | 古琴 | 语言学习 | 坦克 | 体检 | 冠心病 | 书籍 | 寺庙 | 美国电影 | 驾驶经验 | 寓言 | 学术 | 坐月子 | 日语语法 | 山东艺术学院 | 类风湿 | 手相 | 乳腺癌 | 运动损伤 | 自卑 | 房山 | 辩论赛 | 机械键盘 | 大学专业选择 | 塑料制品 | 护发 | 眼袋 | 肺癌 | 血型 | 玄幻小说 | 华为路由器 | 温州市 | 留学香港 | 大学生就业 | 大学生创业 | 城市规划 | 美术生 | 一体机 | 率土之滨 | r（编程语言） | 发音 | 记忆力 | 散光 | 互联网公司 | 西班牙语 | 口腔溃疡 | 汉语 | 观后感 | 留学生 | 参考文献 | 印度 | 中耳炎 | 澳门特别行政区 | 近视手术 | 尧山 | 荨麻疹 | 花卉 | 特许加盟 | 烹饪学校 | 设计院 | 岳阳县 | 婴儿喂养 | 痛风 | 营销策划 | 狐臭 | 失眠 | 眼科学 | 药品 | 欧美 | 弱视 | 童年 | 丙肝 | 合生元 | 男生 | 材料 | 中央戏剧学院 | 葡萄酒 | 网络推广 | 胃痛 | 酒文化 | 脱发 | 情绪管理 | 花样姐姐 | 示波器 | 胶原蛋白 | 痤疮 | 自驾游 | 孩子 | 马克思主义哲学 | 大学就读体验 | 美国留学 | 本科毕业论文 | 白内障 | 精神分裂症 | 在线教育 | 无线耳机 | 发动机 | win8 | 桥梁 | 非洲 | 婚恋网站 | 驾驶技术 | 敏感皮肤 | 学车 | 武昌区 | 整形 | 红酒 | 语言学 | Android手机 | 拉丁舞 | 猪肉 | 大学军训 | 高效学习 | 手绘 | 法国 | 刑事案件 | 胃病 | 牙科医院 | 宁夏回族自治区 | 邳州市 | 国家 | 口红 | 尿毒症 | 时间管理 | 事业单位考试 | 迅雷（软件） | 中国科学技术大学 | 康佳 | 西装 | 蓝河 | 肺气肿 | 地黄 | 外貌 | 高中化学 | 励志故事 | 小吃 | 关节炎 | 驻马店市 | 鲁迅美术学院 | 交警 | 发电 | 皮肤保养 | 文玩 | 轮胎 | 山东工艺美术学院 | 钢笔 | 食道癌 | 校服 | 酵素 | 日本漫画 | 非典 | 服装行业 | 数控车床 | 毕业论文 | 蓝莓 | 七田真 | 配方奶粉 | 头痛 | 枸杞 | 孕妇装 | 儿童 | 婴儿车 | 西医 | 本田（honda） | 研究生导师 | 美白 |

你的位置：网站首页 >> 频道首页 >>期货 >>致远期货价格影响因素：为什么说哑变量在因素级是对称的

致远期货价格影响因素：为什么说哑变量在因素级是对称的

来源：蜘蛛抓取(WebSpider) 时间：2018-03-02 19:15 标签：影响期货郑醇因素

伦敦和上海金属期货关联性研究_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
伦敦和上海金属期货关联性研究
阅读已结束，下载本文需要
想免费下载本文？
定制HR最喜欢的简历
你可能喜欢关注今日：6 | 主题：201369
微信扫一扫
【求助】10个丁当求助，多元线性回归含有哑变量的结果解释
页码直达：
这个帖子发布于5年零202天前，其中的信息可能已发生改变或有所发展。
问题已关闭悬赏丁当:10
在SPSS中采用多元线性回归分析，自变量有连续变量和无序等级变量，将职业等无序多分类变量经过哑元化处理，将同一因素下的哑变量进行归组，在纳入方法中选择了“ENTER”来确保这些哑变量同进同出，而其它连续型变量和二分类变量则归为另一组，纳入方法为STEPWISE。得到的结果如下。job_1, job_2, job_3 是职业的3个哑变量，想请问各位老师这个结果应该怎么解释？得到的线性回归方程应该是什么样的呢？有人说：只要哑变量有其中一个有统计学显著性，就应该把整个因素包含的哑变量纳入回归方程。上图所示，job_1和job_2并没有显著性差异，只有job_3的p&0.05, 那回归方程里应怎么纳入职业这个变量呢？还有一个问题：我看其他文献，同样经过了哑变量处理后，但是得出的结果中却只是单一因素的结果，并没有将哑变量的结果表现出来？请问这是如何做到的？如：我在其他文献中看到经过多元回归分析后，他也只有学历这个哑变量因素进入回归方程，其结果如下：为什么他也同样经过了哑变量处理，但最后得到的结果中却只有学历这一项呢？而不是像我的结果那样应该分为哑变量的学历_1，学历_2, 学历_3等等的样子么？非常困惑，急切期待各位老师的指点！！！谢谢！！！
不知道邀请谁？试试他们
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
收起全部有料回复
（1）无业组6个人就没有必要分组了，你有这么大的样本量，6个混到某一组，也不会导致多大的影响。另外分组也不错，只是增加了一个参数，自由度少了，检验效率就低了。（2）我不知道SPSS，所以不懂你说的block1与block2。回答不了你的问题。有两点供你参考：1、你发现的block1与block2的顺序不同，结果不同，这在逐步回归里本来就存在，不是合并职业导致的；2、逐步回归向前、向后，变量顺序不同结果不同，这个问题很不好，我知道在R软件里还有前后同时引进剔出变量的方法做逐步回归，同样也有这个问题。这是为什么在流行病学论文里逐步回归用得并不多，我在哈佛工作了15年没见到周围人们用这个方法建立模型。我的理由是这样的：我们分析Y=b0+b1*X+b2*X2+...假设X是我关心的因素，要问的就是两个问题：（1）X对Y到底有没有作用？（2）X对Y的影响多大？第一个问题，如果控制了其它因素，即使那个因素不显著，X的回归系数统计检验就不显著了，说明X对Y没有作用，是其它因素混杂的或混杂累积起来的。其它因素一定要显著才需要控制吗，不是的，显著不显著还取决于样本量与该变量的方差。第二个问题，调整什么因素就更重要了，你看看你上面的几个模型，药物数量的回归系数都不一样，那么药物数量对Y的影响到底是多大呢？哪些因素该调整呢？调整的意义是控制了调整因素的作用。某调整因素A有作用但在你的数据里不显著很正常，因为样本量的问题。如果仅因为A不显著就不去调整它，你观测到的药物数量的作用中就包含了A的作用。一般我们认为如果调整A，你所关心的Ｘ的回归系数改变了很多（１０％）就应该调整而不管它的p值。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
天涯若水流从这个讨论中学到了很多，非常感谢楼主以及给出解释的老师。在进行多元回归分析中我还遇到一个问题：比如特别想了解某几个自变量对Y的影响，于是把这几个自变量强行放入了方程（使用enter方法），结果SPSS会给出一个模型，里面有纳入的自变量和踢出的自变量，但问题是发现模型整合情况的F检验P大于0.05，而进入方程的几个变量回归系数的t检验有的有统计学意义，有的没有，这时这个回归方程以及回归系数还能用于研究的分析解释吗？很多人建多元回归方程都采用逐步回归方法，如果大家注意看发表在顶端杂志上的论文逐步回归方法几乎不用，为什么呢？简要地说逐步回归方法是根据p值判断是否纳入自变量，而p值受样本量影响。要分析一个X对Y的作用，即要评价X对Y的回归系数（即X对Y的作用大小），这需要调整其它因素的作用，也就是把其它因素的混杂作用剥离出去，这是建立多元回归方程的目的。在多元回归方程中，需要不需要调整一个其它因素（C），要看调整C与不调整C对X的回归系数影响多大，而不是只看C的p值。具体请参看：（或：http://www.empowerstats.com/tutorials/empowerRCH/
然后点击：“流行病学分析思路”，再看：“第七部分：多元回归模型”
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
1）你的job应该是4组，job_1, job_2, job_3 分别对应其中3组，有一组未放进去，这一组就是参照。你所得到的job_1的回归系数-1.380就是job_1组与参照组Y的差，p=0.307表示这个差是否显著。job_2,job_3的解释同理。2）你现在看到job_3与参照组显著差异，job_1,job_2差异不显著，但可以看出，其回归系数还是挺大的（不接近0），你如果把job_1,job_2从模型中拿掉，这样job_1与job_2两组就合并到参照组了，参照组变了，结果job_3 的回归系数也会变，p值也会变。你现在的参照组可看成回归系数是0，job_1是-1.380，job_2是2.185，如果三组人数差不多相同的话，这三组合并的结果是略高于0，这样新的job_3与这三组相比的回归系数就会更小（原来与0比是-3.41，现在与一个正数比就更负了）。那么是不是要把job_1,job_2 去掉呢？首先，如上所述，去掉解释就不同了。其次要看你现在的参照组与job_1,job_2 是否合适合并到一个组，看job_1,job_2的回归系数，我觉得还是有很大不同的，不宜合并。p值受三组人数的多少影响，不宜作为判断标准，判断是否合并看回归系数。为进一步帮助你理解这个问题，你看看方程2，3，比较一下SEX的回归系数，不一样，方程3中加了并发症，SEX的回归系数就变了，为什么会变？是因为男女两组里并发症分布不同，而并发症两组Y也不同。现在你要是合并了job_1,job_2到现在的参照组，也会影响其它变量的回归系数。但如果job_1,job_2的回归系数接近0，即与现在的参照组很接近，就可以合并了。
微信扫一扫
广告宣传推广
政治敏感、违法虚假信息
恶意灌水、重复发帖
违规侵权、站友争执
附件异常、链接失效
关于丁香园&figure&&img src=&https://pic1.zhimg.com/v2-b66d183c5ee94d57d60a929a3bda9a7d_b.jpg& data-rawwidth=&480& data-rawheight=&360& class=&origin_image zh-lightbox-thumb& width=&480& data-original=&https://pic1.zhimg.com/v2-b66d183c5ee94d57d60a929a3bda9a7d_r.jpg&&&/figure&&h2&&strong&策略思想&/strong&&/h2&&p&去年社区五道口歌姬写了一篇关于集合竞价成交占比因子，前几天看到微信公众号量化投资与机器学习的一篇文章，这篇文章构造了开盘收盘成交占比因子。两者有一定的相似之处，所以写了一篇再探高频因子的文章。其实构造这个因子的思想与集合竞价成交因子是类似的，背后具体的逻辑可以关注公众号看看该文章，本文就不在细说了。&/p&&br&&h2&&strong&因子计算&/strong&&/h2&&p&参考了&a href=&http://link.zhihu.com/?target=https%3A//uqer.io/community/share/e5b43f45c2104& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&高频因子初探-集合竞价成交占比因子&/a&，&a href=&http://link.zhihu.com/?target=https%3A//uqer.io/community/share/578f04eb9b5f1ab7& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&追踪聪明钱 - A股市场交易的微观结构初探&/a&这两篇文章。按照作者的说法，开盘收盘成交量占比因子的计算方式为：&/p&&figure&&img src=&http://pic4.zhimg.com/v2-4b344ff04b185cacd58ea7_b.png& data-rawwidth=&160& data-rawheight=&50& class=&content_image& width=&160&&&/figure&&br&&p&其中Volm表示上午9：30到10：00该股票的成交量，Vola表示下午14：30到15：00的成交量，Vol表示该支股票一天的总成交量。原作者不同的是，在此基础上对因子取了20天的移动平均。&/p&&br&&h2&&strong&数据准备&/strong&&/h2&&p&这部分因子数据的计算，为了防止意外情况，造成数据丢失，因子计算的过程中，每添加一条记录，就保存为csv文件。&/p&&figure&&img src=&http://pic4.zhimg.com/v2-a2c89e899a6ea28c945f_b.png& data-rawwidth=&1032& data-rawheight=&194& class=&origin_image zh-lightbox-thumb& width=&1032& data-original=&http://pic4.zhimg.com/v2-a2c89e899a6ea28c945f_r.png&&&/figure&&h2&&strong&合成因子截面特征&/strong&&/h2&&p&&figure&&img src=&http://pic1.zhimg.com/v2-be944dc45ebfe8f1bb34_b.png& data-rawwidth=&735& data-rawheight=&404& class=&origin_image zh-lightbox-thumb& width=&735& data-original=&http://pic1.zhimg.com/v2-be944dc45ebfe8f1bb34_r.png&&&/figure&由上图可以看到，开盘收盘成交量占比因子的值分布与集合竞价成交占比因子非常像，并不是很稳定，在股灾期间(2015.6 & 2015.8 & 2016.1)呈现出强烈地上升趋势。&br&&/p&&figure&&img src=&http://pic3.zhimg.com/v2-66f4e61a965a6b466c926bc6d682c4a6_b.png& data-rawwidth=&758& data-rawheight=&409& class=&origin_image zh-lightbox-thumb& width=&758& data-original=&http://pic3.zhimg.com/v2-66f4e61a965a6b466c926bc6d682c4a6_r.png&&&/figure&&br&&p&从市值分布来看，大体上看这个分布，恰好与集合竞价成交占比因子相反，不存在小市值现象。&/p&&br&&h2&&strong&因子回测、&/strong&&strong&结果及分析&/strong&&/h2&&p&本文在全A股上回测从2011年年初至2017年2月出回测该因子的表现情况，这里我们采用的组合构建方式为选取前十分位等权构建，每日调仓，回测结果和日度胜率分析如下：&/p&&p&&figure&&img src=&http://pic2.zhimg.com/v2-0b16cbf6e21bb490d1159_b.png& data-rawwidth=&785& data-rawheight=&432& class=&origin_image zh-lightbox-thumb& width=&785& data-original=&http://pic2.zhimg.com/v2-0b16cbf6e21bb490d1159_r.png&&&/figure&&figure&&img src=&http://pic3.zhimg.com/v2-8f201fa52af57e453ead13bf9870475a_b.png& data-rawwidth=&852& data-rawheight=&348& class=&origin_image zh-lightbox-thumb& width=&852& data-original=&http://pic3.zhimg.com/v2-8f201fa52af57e453ead13bf9870475a_r.png&&&/figure&为了更好地展示开盘收盘成交占比因子的选股能力，我们对由该因子五分位数的每个分位数区间对应的股票进行回测，为了减少时间，这里从2013年开始回测，其他参数与之前基本一致。&/p&&p&&figure&&img src=&http://pic2.zhimg.com/v2-820a0e77adb6fa33b25ec9_b.png& data-rawwidth=&708& data-rawheight=&564& class=&origin_image zh-lightbox-thumb& width=&708& data-original=&http://pic2.zhimg.com/v2-820a0e77adb6fa33b25ec9_r.png&&&/figure&上图显示出，因子选股不同五分位构建等权组合，在uqer进行真实回测的净值曲线；显示出因子很强的选股能力，不同五分位组合净值曲线随时间推移逐渐散开。&br&&/p&&figure&&img src=&http://pic2.zhimg.com/v2-33f45acb64bd9a0d4efa1b1_b.png& data-rawwidth=&736& data-rawheight=&224& class=&origin_image zh-lightbox-thumb& width=&736& data-original=&http://pic2.zhimg.com/v2-33f45acb64bd9a0d4efa1b1_r.png&&&/figure&&br&&p&其他文章推荐：&/p&&p&&a href=&http://link.zhihu.com/?target=https%3A//uqer.io/community/share/58aa56b94846& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&优矿日报&/a& 每日推送 &b&大盘点位预测、两融、沪港通、资金流以及龙虎榜&/b&等信息。&br&&/p&&p&&a href=&http://link.zhihu.com/?target=https%3A//uqer.io/community/share/58a3ef0e94cad& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&股社区 - 绩优+低估值股票筛选&/a&&br&&/p&&p&&a href=&http://link.zhihu.com/?target=https%3A//uqer.io/community/share/58aaba1dfae041& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&按行业和因子选股的小工具&/a&&br&&/p&&p&&a href=&http://link.zhihu.com/?target=https%3A//uqer.io/community/share/58aafdc3c990ca& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&& PB市净率因子研究&/a&&br&&/p&&p&&a href=&http://link.zhihu.com/?target=https%3A//uqer.io/community/share/58a7ce25c990cda& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&CAPM上手&/a&&br&&/p&&p&原文链接：&a href=&http://link.zhihu.com/?target=https%3A//uqer.io/community/share/589d9a35c1e3cc0& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&高频因子再探——开盘收盘成交量占比因子&/a&&/p&&p&优矿专业版除了已有的 400+因子库、归因、并行计算及风险模型，即将推出深度学习框架。&/p&&p&欢迎感兴趣的矿友试用：&a href=&http://link.zhihu.com/?target=https%3A//uqer.io/pro/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&uqer.io/pro/&/span&&span class=&invisible&&&/span&&/a&&/p&
策略思想去年社区五道口歌姬写了一篇关于集合竞价成交占比因子，前几天看到微信公众号量化投资与机器学习的一篇文章，这篇文章构造了开盘收盘成交占比因子。两者有一定的相似之处，所以写了一篇再探高频因子的文章。其实构造这个因子的思想与集合竞价成交因…
最近对于多因子都比较感兴趣，之前所做的工作多在于单个因子的测试，但是后来发现这样的工作已经被许多许多人和机构（券商，信息提供商）详尽的做过了，可能更重要的还是如何把这些因子组合起来，形成一个稳定的知道哪里挣钱哪里亏钱的策略，所以今天给大家分享一个风格中性的多因子策略框架，大家可以根据自己的判断加入和删除自己喜欢的因子。接触python和多因子不是很久，代码写的不是很清晰，因子也只是作为示范，希望这个框架可以给大家提供一些帮助。&p&本模型基于国泰君安在的研报，大部分内容也摘录于这篇研报。本模型并未对因子选择部分进行优化，只是作为一个框架性结构，大家可以自行定义和尝试自己选择的因子和想要中性化的因子。在中性化其他因子之后，我们可以得到这个因子的‘pure return’，这个结果可以作为IC，t值等传统检测方法的一个补充。&/p&&p&多因子选股作为量化投资研究领域的经典模型,在海内外各类投资机构均受到广泛研究和实践应用。在国内,自
2010 年沪深 300 股指期货上线以来,以多因子选股为代表的阿尔法对冲策略也逐渐走入了公众的视野。然而在 2014 年 12 月的市场行情中,阿尔法对冲策略却遭遇了重大挫折,究其原因不难发现,组合带有过于明显的市值风格特征是导致策略收益大幅波动的主要原因。&/p&&br&&p&本模型有别于传统的多因子研究,并未将重点放在阿尔法因子的挖掘上,而是着重研究了股票组合的权重优化对策略风格特征的影响并给出了一个自定义因子的回测模型。&/p&&p&在多因子模型中,决定策略收益稳健性的关键步骤正在于股票组合的权重配置。因此,从量化对冲策略追求收益稳定性的角度而言,组合权重优化对多因子模型起着至关重要的作用。&/p&&p&从具体的研究思路而言,我们从结构化多因子风险模型的角度出发,利用 BARRA 风险因子有效性的检验方法,构建了基于 30 类行业因子、9 类风格因子的结构化多因子风险模型,奠定了预测股票组合波动率的基础。之后,我们通过对纯因子股票组合的研究,考察了各类因子阿尔法性质的强弱,并解释了因子背后的经济、金融学逻辑。最后,我们通过股票组合的权重优化计算,得到了市值中性、行业中性、风格中性约束下的最优投资组合。&/p&&p&结构化风险因子模型利用一组共同因子和一个仅与该股票有关的特质因子解释股票的收益率,并利用共同因子和特质因子的波动来解释股票收益率的波动。结构化多因子风险模型的优势在于,通过识别重要的因子,可以降低问题的规模,只要因子个数不变,即使股票组合的数量发生变化,处理问题的复杂度也不会发生变化。&/p&&p&结构化多因子风险模型首先对收益率进行简单的线性分解,分解方程中包含四个组成部分:股票收益率、因子暴露、因子收益率和特质因子收益率。那么,第 j 只股票的线性分解如下所示:&/p&&figure&&img src=&http://pic1.zhimg.com/v2-80ae457f08fdd8e360f0d078de2a3da0_b.png& data-rawwidth=&684& data-rawheight=&98& class=&origin_image zh-lightbox-thumb& width=&684& data-original=&http://pic1.zhimg.com/v2-80ae457f08fdd8e360f0d078de2a3da0_r.png&&&/figure&&p&那么对于一个包含 N 只股票的投资组合,假设组合的权重为
(w1 , w2 ,..., wN )T ,那么组合收益率可以表示为:&figure&&img src=&http://pic4.zhimg.com/v2-a2b45e58e2d0f8a74b648ac7d228678f_b.png& data-rawwidth=&532& data-rawheight=&136& class=&origin_image zh-lightbox-thumb& width=&532& data-original=&http://pic4.zhimg.com/v2-a2b45e58e2d0f8a74b648ac7d228678f_r.png&&&/figure&&/p&&p&其波动率可以表示为：&figure&&img src=&http://pic2.zhimg.com/v2-ee5a68b7ad_b.png& data-rawwidth=&468& data-rawheight=&88& class=&origin_image zh-lightbox-thumb& width=&468& data-original=&http://pic2.zhimg.com/v2-ee5a68b7ad_r.png&&&/figure&&/p&&p&X作为因子载荷矩阵，k个因子n个股票的载荷矩阵可以表示如下：&figure&&img src=&http://pic4.zhimg.com/v2-5c09cafdf0d6b_b.png& data-rawwidth=&468& data-rawheight=&276& class=&origin_image zh-lightbox-thumb& width=&468& data-original=&http://pic4.zhimg.com/v2-5c09cafdf0d6b_r.png&&&/figure&&/p&&br&&p&因子收益率的协方差矩阵可表示如下：&figure&&img src=&http://pic2.zhimg.com/v2-daaa2c4bdfd25b7ca853d_b.png& data-rawwidth=&880& data-rawheight=&274& class=&origin_image zh-lightbox-thumb& width=&880& data-original=&http://pic2.zhimg.com/v2-daaa2c4bdfd25b7ca853d_r.png&&&/figure&&/p&&br&&p&delta为股票的特异波动率。 &/p&&p&最大化经风险调整后的收益为目标函数,同时考虑了预期收益与预期风险的作用,并且在马克维茨的均值方差理论框架下,引入了风险厌恶系数lambda,具体权重优化表达为:&/p&&br&&figure&&img src=&http://pic1.zhimg.com/v2-5b11ff200_b.png& data-rawwidth=&720& data-rawheight=&256& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&http://pic1.zhimg.com/v2-5b11ff200_r.png&&&/figure&&figure&&img src=&http://pic4.zhimg.com/v2-e7c48aaeef_b.png& data-rawwidth=&1204& data-rawheight=&644& class=&origin_image zh-lightbox-thumb& width=&1204& data-original=&http://pic4.zhimg.com/v2-e7c48aaeef_r.png&&&/figure&&br&&p&大家只需更改以下几处即可：&/p&&p&1. 第339行的index。&/p&&p&2. 第342行的因子名称，当然，你需要在上面定义你的因子的函数。&/p&&p&3. 第426行，你想让哪些因子与对冲所用的指数因子载荷一样。&/p&&p&大家可以在Ricequant上测试一下：&/p&&p&&a href=&http://link.zhihu.com/?target=https%3A//www.ricequant.com/community/topic/2153& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&基于组合权重优化的风格中性多因子选股策略框架&/a&&/p&
最近对于多因子都比较感兴趣，之前所做的工作多在于单个因子的测试，但是后来发现这样的工作已经被许多许多人和机构（券商，信息提供商）详尽的做过了，可能更重要的还是如何把这些因子组合起来，形成一个稳定的知道哪里挣钱哪里亏钱的策略，所以今天给大家…
&figure&&img src=&https://pic1.zhimg.com/v2-53727ccdd9c6d903a0e84662dee63492_b.jpg& data-rawwidth=&689& data-rawheight=&499& class=&origin_image zh-lightbox-thumb& width=&689& data-original=&https://pic1.zhimg.com/v2-53727ccdd9c6d903a0e84662dee63492_r.jpg&&&/figure&&p&前一段时间，李腾、陈烨、邓岳、陈志岗几位老师在知乎上发布了一份多因子模型的测试题，其中囊括了多因子建模过程中大部分需要考虑的理论和实践问题：&/p&&p&&a href=&http://zhuanlan.zhihu.com/p/& class=&internal&&多因子模型水平测试题 - 科学投资 - 知乎专栏&/a&&/p&&p&在过去几个月时间，米筐科技（RiceQuant）量化策略团队对这套经久不衰的量化模型进行了系统研究。在前一段时间，我对测试题的因子部分及风险预测部分进行了试答：&/p&&p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&多因子模型水平测试题试答（因子部分） - 机器学习 & 金融量化分析 - 知乎专栏&/a&&br&&/p&&p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&多因子模型水平测试题试答（风险预测部分） - 机器学习 & 金融量化分析 - 知乎专栏&/a&&br&&/p&&p&下面我将继续对业绩归因部分进行试答。&/p&&p&本期嘉宾：《新世纪福音战士》，碇唯/绫波丽&br&&/p&&br&&br&&p&*************** 多因子模型测试题回答开始 ***************&/p&&p&&b&&i&0 为什么需要风险管理和业绩归因？&/i&&/b&&i&&b&（我补充的问题）&/b&&/i&&/p&&p&答：我们可以先通过一个简单的例子说明风险管理和业绩归因的意义。按照《主动投资组合管理》的论述，当我们进行投资时，可以把风险分为三个部分：&/p&&p&固有风险（inherent risk）：市场或相关基准组合对应的风险；&/p&&p&意向风险（intentional risk）：当我们在部分资产上主动选择了与基准组合不同的头寸时，应当承担的风险；&br&&/p&&p&意外风险（incidental risk）：在构建资产组合时，我们没有意识到的风险。&/p&&p&意外风险可以通过一个例子说明：对于一位偏好成长型股票的基金经理，他构建资产组合时愿意在成长性因子上进行暴露（意向风险），但却没有意识到成长性股票大多集中在特定行业，因此他的组合同时对特定行业具有较大的风险暴露（意外风险）。&/p&&p&《主动投资组合管理》的作者曾经是 Barra 的研究员，他在书中表示在他的从业经验中，客户资产组合的意外风险远超想象的事例并不鲜见。因此，事前的风险管理的目标之一，就是帮助基金经理避免承担意外风险；而事后业绩归因的意义，则是告诉我们组合的实际风险暴露是否我们设定的目标一致。&/p&&br&&br&&p&&b&&i&1 用于业绩归因的多因子模型，在拟合时应侧重考虑哪些方面？&/i&&br&&/b&&br&答：首先，“业绩归因” 这个名称已经说明我们是对历史上已经产生的收益或风险来源进行解释。因此，不同于收益或风险预测中我们必须使用先验因子（ex-ante factors），业绩归因时我们可以使用后验因子（ex-post factors）进行归因。&/p&&p&此外，相较于收益预测，因子贝塔值决定了收益或风险归因到该因子的比例。因此，当把多因子模型应用于业绩归因时，恰当地处理因子的共线性、对贝塔值进行准确估计尤为重要。&/p&&br&&br&&p&&i&&b&2 有人认为，与用于预测的多因子模型相比，用于业绩归因的多因子模型，对因子之间的低共线性要求更高，请解释可能的原因？&/b&&/i&&/p&&br&&p&答：在多变量线性回归模型中，自变量的共线性并不会影响模型整体的解释力，而且存在共线性的情况下，最小二乘法仍为回归系数的最优线性无偏估计。所以在进行收益预测时，如果我们不关心单个因子的贡献，而只关注整个模型的解释力，那么因子存在共线性是没有问题的。&/p&&p&但在进行业绩归因的时候，如题 1 答案中所言，每个因子的回归系数决定了收益或风险有多大比例会归因到该因子，因此因子共线性引起的回归系数方差变大，会导致业绩归因结果出现较大的偏差。&br&&/p&&br&&br&&p&&i&&b&3 业绩归因将组合收益分解为若干个因子上的收益和一个特异收益。一位有技术的定性投资经理（基于实地调研和对某些行业、公司的洞察力）的归因结果应该是什么样子？一位利用多因子模型量化选股的投资经理的归因结果应该是什么样子？&/b&&/i&&/p&&p&答：以下讨论均针对基于持仓数据的业绩归因。假如在足够长的时间内，该基金经理对特定类型、或特定行业的股票有显著的、出色的洞察力，那么：&br&&/p&&p&1 如果他所擅长的股票类型或行业不对应模型中的因子，那么他的能力所带来的收益将无法被多因子模型捕捉，从而进入残差项中。资产特异收益率会告诉我们，他是一位优秀的基金经理；&/p&&p&2 如果他所擅长的股票类型或行业是对应模型中的某个因子，那么业绩归因时，归因到该因子的收益将会显著地大于0，告诉我们该基金经理在特定领域具有很强的洞察力。&/p&&p&在足够长的时间内，某基金经理使用特定的多因子模型进行选股，那么：&br&&/p&&p&1 如果他所使用的多因子模型和业绩归因的多因子模型使用同一套因子，那么业绩归因的因子贝塔值将会显著地不等于0，模型能够准确捕捉他的投资风格；&/p&&p&2 如果他所使用的因子组和业绩归因的因子组不同，那么他的业绩将不能完全被业绩分归的多因子模型所解释。残差的统计检验会告诉我们两个模型的因子组差异程度是否显著，和他的模型是否更为出色/差劲。&/p&&br&&br&&p&&i&&b&4 在对一个已知策略逻辑大体思路的投资组合进行业绩归因时，采用标准的因子组vs采用针对性的因子组各有什么利弊？&/b&&/i&&/p&&p&答：如几位老师提供的答案。标准的因子组便于不同策略/投资经理/基金业绩的横向比较；而针对性的因子组会更为灵活，但缺点是如果因子没有经过严格测试的话，因子本身的效果、以及是否会引起因子间的共线性问题都需要进一步检验。&br&&/p&&br&&br&&p&&i&&b&5 多因子业绩归因系统输出的结果中，特异收益（specific return，即不可被因子解释的收益）如果显著地偏正或偏负，怎样解释？怎样调试归因系统来消除偏离？&/b&&/i&&br&&/p&&br&&p&答：特异收益的统计检验显著这是很常见的，它的可能原因如下：&/p&&p&1 数据不满足线性回归的白噪音假设（white-noise condition）；&br&&/p&&p&2 策略或基金经理有多因子模型所选因子无法捕捉到的选股能力/缺陷，因而体现在残差项中。&br&&/p&&br&&p&解决方法：&br&&/p&&p&1 仔细检查以保证建模流程正确；&/p&&p&2 一个合格的业绩归因模型应该能够解释大部分基金的业绩，个别表现格外优秀/差劲的基金的业绩无法被完全解释是合理的。在建模正确的前提下，如果一个多因子模型无法解释大部分基金业绩，则很可能是因子组选择有问题。&/p&&br&&br&&p&&i&&b&6 纯多头组合业绩归因时，以总头寸或者主动头寸（=总头寸-基准头寸）为分析对象，各有什么利弊？&/b&&/i&&br&&/p&&p&答：总头寸的使用能够帮助我们对整个资产组合的总体收益或风险来源有所了解，但由于没有剔除市场或说是基准组合的影响，所以较难判断基金经理是否有优秀的主动投资能力；&/p&&p&主动头寸的使用能够帮助我们对基金经理的主动管理部分的收益或风险来源有所了解，因此能够使我们更好地判断基金经理的主动投资能力，并判断他的实际投资风格是否和他宣称的一致。 &br&&/p&&br&&br&&p&&i&&b&7 如果不知道组合持股明细，只知道组合每日收益率，怎样对它进行多因子业绩归因？误差会放大多少？&/b&&/i&&/p&&p&答：可以使用基于净值的业绩回归方法。比较常用的是 Sharpe 提出的风格分析，和 Fama-French 三因子模型衍生出来的一些基于回归分析的多因子模型。&/p&&p&基于持仓数据的业绩归因是一种自下而上（bottom-up）的分析方法，而基于净值的业绩归因是一种自上而下（top-down）的分析方法。由于以下原因，基于净值的业绩归因一般来说误差较大：&/p&&p&1 时间序列回归假定所选时间段内因子贝塔值是近似不变的。理论上，如果基金本身有择时操作，或者由于基金经理更换等原因，其投资风格出现较大的变化，那么时间序列回归就会出现较大的误差，而基于持仓数据的业绩归因则不存在类似的问题；&/p&&br&&p&2 Sharpe 的风格分析一般使用市场上可交易的指数产品作为自变量，因此通常有更明显的自变量共线性的问题，因此也有更大的参数估计误差。&/p&&br&&p&误差分析是数值分析里一个很重要的领域，业绩分析的算法和流程本身就没有良定义（ill-defined），“误差会放大多少” 这种问题根本无从谈起。&br&&/p&&br&&br&&p&&i&&b&8 多因子业绩归因模型怎样与Brinson业绩归因模型整合使用？&/b&&/i&&br&&/p&&p&答：Barra 有一份研究报告专门介绍这个：&/p&&p&&i&&Beyond Brinson: Establishing the Link Between Sector and Factor Models&&/i&&/p&&br&&br&&p&&i&&b&9 上一期《灌篮高手》封面的情节是什么？&/b&&/i&&/p&&p&答：流川枫和三井寿一对一较量。流川枫拉杆上篮得手，三井表示没完呢没完呢，你是先攻的，公平起见，我应该还有一攻。流川枫把球递给三井，三井立刻抬手三分命中。围观的众人纷纷表示很囧（三井好奸诈！）。&/p&&p&流川枫表示三井出手时踩到三分线了，所以应该是2比2平手，要求加赛。两人争论不休之际，一贯敌视流川枫的樱木走过去，假装公正地表示三井获胜，并要求和流川枫一对一较量。&/p&&p&结果当然是樱木被虐得失魂落魄。&/p&&br&&br&&p&*************** 多因子模型测试题回答结束 ***************&/p&&br&&br&&i&碇真嗣：下次分离的时候，不要再说 ‘再见’ 这种悲伤的话了，虽然我们现在除了驾驶 EVA 之外一无所有，不过，只要活着的话，总有一天，一定会觉得，能够活着是一件不错的事。虽然距离这一天或许还很遥远，不过在那一天来临之前，我们还是活下去吧。&/i&&br&&br&&i&绫波丽：对不起，在这种时候，我不知道该用什麼表情来面对你。&/i&&br&&br&&i&碇真嗣：你只要微笑就可以了。&/i&&br&&figure&&img src=&http://pic1.zhimg.com/v2-0f6a5e521bfaae1a298968_b.jpg& data-rawwidth=&500& data-rawheight=&283& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&http://pic1.zhimg.com/v2-0f6a5e521bfaae1a298968_r.jpg&&&/figure&
前一段时间，李腾、陈烨、邓岳、陈志岗几位老师在知乎上发布了一份多因子模型的测试题，其中囊括了多因子建模过程中大部分需要考虑的理论和实践问题：在过去几个月时间，米筐科技（RiceQuant）量化策略团队对这…
&figure&&img src=&https://pic4.zhimg.com/v2-7cad48e4c8a42d1b15b8af_b.jpg& data-rawwidth=&400& data-rawheight=&300& class=&content_image& width=&400&&&/figure&&p&前一段时间，李腾、陈烨、邓岳、陈志岗几位老师在知乎上发布了一份多因子模型的测试题，其中囊括了多因子建模过程中大部分需要考虑的理论和实践问题：&/p&&p&&a href=&http://zhuanlan.zhihu.com/p/& class=&internal&&多因子模型水平测试题 - 科学投资 - 知乎专栏&/a&&/p&&p&在过去几个月时间，米筐科技（RiceQuant）量化策略团队对这套经久不衰的量化模型进行了系统研究。由于我们一贯追求完美的工匠精神，相关的产品项目好像还需要一段时间才能发布。。。可这又有什么关系呢？毕竟等待过的东西才是最好的——如美酒，如家书，如高中教室窗外的顾盼倩影。&/p&&p&在数日前，我对测试题的因子部分进行了试答：&br&&/p&&p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&多因子模型水平测试题试答（因子部分） - 机器学习 & 金融量化分析 - 知乎专栏&/a&&br&&/p&&p&下面，我继续对风险预测部分分享一些自己的想法。&/p&&p&本期嘉宾：流川枫。&/p&&br&&br&&p&*************** 多因子模型测试题回答开始 ***************&/p&&p&&b&&i&1 用于风险预测的多因子模型，在拟合时应侧重考虑哪些方面？&/i&&/b&&/p&&p&&b&答：&/b&这里假定题目中所说的&b& “&/b&拟合” 是 Barra 的结构化风险模型的回归系数估计步骤，那么：&/p&&p&1 仔细检查离群值，剔除错误或不合理的离群值，把合理的，但在三个标准差以外的离群值拉回到三个标准差；&br&&/p&&p&2 用市值平方根近似股票的特异波动率，对股票进行加权。一方面减轻残差异方差性的影响，另一方面保证在所有风险暴露相同的组合之中，因子组合是风险最小的组合。&/p&&p&详细可见 Barra 发布的 USE4 (The Barra US Equity Model）或 CNE5（Barra China Equity Model）研究报告。 &/p&&br&&br&&p&&i&&b&2 是否有必要预测收益的波动率？如何预测收益的波动率？是否要在优化中使用波动率？&/b&&/i&&br&&/p&&br&&b&答：&/b&第一个和第三个就不说了，回答第二个问题。&br&&br&在使用多因子模型对资产风险进行预测时，我们一般使用 Barr Rosenberg （Barra创始人）1974 年提出的建模思路，先估计因子收益的协方差矩阵，再预测组合收益的协方差矩阵。&br&&br&如果直接对资产组合收益的波动率建模，由于多期的资产收益波动率通常是一个自相关性不稳定的非平稳时间序列，使用多因子模型进行时间序列回归的话，残差时间序列也可能是非平稳的。因此会造成以下问题：&br&&br&1 最小二乘法不再是最优线性无偏估计（Best Linear Unbiased Estimation，BLUE），需要采用广义最小二乘法（Generalized
Least Square， GLS）进行回归系数估计；&br&&br&2 残差自相关性导致一些基于残差分析的绩效指标和统计量（信息率和T统计量）不再适用。&br&&br&因此，如果希望对资产组合的波动率直接进行预测，一般会使用 Garch 模型等时间序列模型。&p&在 &i&MSCI Barra&/i& 的研究报告 &i&&Predicting Risk at Short Horizons& &/i&里面，详细比较过几种预测投资组合波动率的方法，结果显示 USE4 中的方法效果较好。&/p&&p&&br&&br&&i&&b&3 多因子模型预测出的协方差矩阵是否会有发生高度接近奇异的情况？&/b&&/i&&br&&br&&b&答：&/b&有可能。如果因子收益的协方差矩阵是奇异矩阵（一个可能的原因是用于估计的因子收益时间序列较短），则估计出来的资产收益协方差矩阵也可能是奇异的。可以通过采用以下方式进行处理：&/p&&p&（1）增加因子收益的时间序列长度；&/p&&p&（2）采用 USE4 中的 eigenfactor risk adjustment；&/p&&p&（3）使用矩阵收缩（matrix shrinkage）对因子协方差矩阵进行降噪。&br&&/p&&p&&br&&b&&i&4 设我们称风险预测模型中的因子为“风险因子”，称收益预测模型中的因子为“alpha因子”。如果一个alpha因子也入选了风险因子，会对组合优化结果产生什么影响？如果在风险模型中特意剔除所有alpha因子，会对组合优化结果产生什么影响？&/i&&/b&&br&&br&&b&答：&/b&如果一个 alpha 因子进入了风险结构化模型，且在组合优化时对其进行了中性化处理，那么该 alpha 因子理论上不会产生收益。&/p&&p&组合优化中，哪些因子是阿尔法因子，哪些是风险因子，取决于测试结果和投资者本身对于该因子的理解。就一般而言，对越多因子进行中性化处理，资产组合的风险就越低，同时预期收益也会越低；反之风险和预期收益都会增加。&/p&&p&&br&&i&&b&5 BARRA的多因子风险预测模型主要在哪些细节上做了精细处理？&/b&&/i&&br&&br&&b&答：&/b&我已经把 USE4 和 CNE5 背下来了。没有任何细节再让我感觉到精细了。&/p&&p&&br&&b&&i&6 BARRA在不同市场上的多因子风险预测模型之间的细微差异，反映了各个市场的哪些特点？&/i&&/b&&br&&br&答：对比 USE4 和 CNE5 的话，USE4 中的因子组比 CNE5 多出了两个：Dividend Yield 和Non-Linear Beta。&/p&&p&对于 Barra 的因子取舍问题，我也存有疑问。从直觉而言，Dividend Yield 在美国市场的的影响力大于中国市场是可以理解的。但从 USE4 给出的统计检验结果来看，Dividend Yield 在美国市场的显著性并不高（T统计量绝对值的均值为 1.37），在所有因子中排名倒数第二。因此在效果不佳的前提下，为什么在 USE4 保留而在CNE5 中舍弃呢？我个人推测如下：&/p&&p&1 CNE5 的模型（2012年发布）比 USE4的模型（2011年发布）更为领先，Barra 发现该因子在中国市场效果同样不佳，予以舍弃；&/p&&p&2 Dividend Yield 在美国长期使用，为了保证模型作为商业化产品的稳定性，没有放弃该因子，而在中国市场没有类似的顾虑；&/p&&p&3 美国的投资者非常关注组合对于 Dividend Yield 的暴露情况，因此作为后面中性化处理的重要维度予以保留，而中国的投资者并不太关心组合对于Dividend Yield 的暴露情况。&/p&&br&&p&Non-Linear Beta 因子是一个数学或者物理意义上设计非常精巧的因子。第一次看到该因子的构建方式时，我有一种 “哇，好漂亮的思路！”的感觉。但我一直不能理解这个因子对应的投资逻辑。&/p&&p&依据这个因子的数学形式和 Barra 的解释，该因子对应一个 “barbell portfolio”，其思路是做空高贝塔值股票和低贝塔值股票，同时做多贝塔值处于中间的股票。也就是说，其投资思路是贝塔值高和贝塔值低的股票有类似的走势，而贝塔值处于中间的股票有相反的走势。&/p&&p&高贝塔值意味着该股票和市场整体走势大致相同，而低贝塔值意味着该股票和市场走势相关性不大，这两类型股票走势相近的合理解释是什么？我其实也不能理解。&/p&&br&&br&&p&&b&&i&7 用日数据vs用月数据估计协方差矩阵，各适用于什么需求？用日内（例如分钟级）数据来估计协方差阵的好处与坏处是什么？&/i&&/b&&br&&br&&b&答：&/b&由于这是一套多因子模型的测试题，因此问题的语境应该限定为 “用多因子模型进行风险预测” ，而不应该是讨论其它协方差矩阵的估计方法（例如单因素模型或者历史协方差矩阵）。如果使用分钟级别的数据，所选的因子必须有一致的时间尺度——这意味不能使用任何基本面因子，而只能使用量价因子。用一套量价因子来做收益预测是完全可行的，但我个人认为，仅仅使用量价因子做风险分解和预测未必妥当。&/p&&p&下面我们仅仅比较月频率和日频率的数据使用：&br&&/p&&p&理论上，Barra 的结构化模型中，相当部分的风险因子都是基本面因子，其时间尺度较大，因此每月计算一次因子收益即可。&br&&/p&&p&但在对因子收益的经验协方差矩阵（empirical covariance matrix）进行估计时，我们会面临以下的两难问题：&/p&&p&1 假定我们的模型中包含20个因子，那么我们至少需要 21 个月的数据。而对于政策变化频繁，投资理念不成熟的中国A股市场，21个月的时间已经足够让市场发生结构性的变化，从而使协方差矩阵的估计失去意义；&/p&&p&2 如果用日频率的因子收益计算，则其中包含的噪音相对较多，而且在得到日频率的因子收益协方差矩阵以后，我们对其进行时间尺度的转换，而且需要对其噪音进行严格控制。&/p&&br&&br&&p&&i&&b&8 怎样衡量或评估风险预测模型的有效性？&/b&&/i&&br&&br&&b&答：&/b&对于因子的有效性，USE 4 主要提到以下标准：&/p&&p&1 选用的因子组应该能够有效把系统性风险分解出来——即特异收益率没有相关性。特异收益率没有相关性也是结构化风险模型的假设之一；&/p&&p&2 在有效分解系统性风险的前提下，因子数目越少越好（parsimony），降低模型过拟合的可能性；&/p&&p&3 持续的统计显著性。对于具体某个因子，我们可以通过多期回归得到一组因子T统计量，如果这组T统计量的绝对值的均值大于2，或者在该组T统计量中，其绝对值大于2的比例较高，则认为该因子有很好的效果；&/p&&p&4 因子暴露度的稳定性。理论上，结构化风险模型更新频率是每月一次，因此因子暴露度时间尺度应该与之一致；&/p&&p&5 因子的共线性。因子之间存在共线性会导致回归系数的估计方差变大，因此在因子选择时应尽量避免出现共线性问题。&/p&&p&6 因子的经济学意义符合直觉。因子意义容易理解，一方面是模型质量的要求；另一方面，在组合优化的时候，我们需要根据自己的理解选择中性化约束。如果因子的意义难于理解，是否有必要对其进行中性化处理自然也无从判断。&/p&&p&除此以外，USE4中，也给出了因子的年化收益率、年化波动率、年化夏普率等指标。但我个人认为，如果以风险预测为目标，这些指标并不是必要的。&/p&&p&对于整个模型的有效性检验，USE4 提到以下标准：&/p&&p&1 可决系数（coefficient of determination)，也就是我们常说的 R^2；&/p&&p&2 Bias Statistics ，这个测试的思路和我们开发策略常用的信息系数类似，是比较模型的预测和实际情况的差距；而基于 Bias Statistics 的 Mean Rolling Absolute Deviation（MRAD）会提供更多关于模型精度的信息。&/p&&br&&br&&p&&b&9 &i&本专栏上一篇文章封面里面，柯南和灰原哀一起困觉时说了什么？！&/i&&/b&&/p&&p&&b&答：&/b&对话如下：&br&&br&柯南：问你一件事情。&br&&br&灰原：。。。什么？（脸红）&br&&br&柯南：白天我脸上黏了饭粒吗？&br&&br&灰原：哈啊？（白眼）&br&&br&&br&*************** 多因子模型测试题回答结束 ***************&/p&&p&&br&&i&(背景：湘北对阵丰玉，南烈发现完全无法防住流川枫，对其恶意犯规，撞伤他的眼睛，试图阻吓他。)&/i&&/p&&p&&br&&i&你认为日本第一的球员会是怎样的球员？&/i&&br&&br&&br&&i&我认为他一定会带领球队成为日本第一。&/i&&br&&br&&br&&i&我想成为这种球员，&/i&&br&&br&&br&&i&所以我一步也不会退让的。&/i&&br&&figure&&img src=&http://pic1.zhimg.com/v2-c38b704e85be95fb96b1a27bb05b8d3c_b.jpg& data-rawwidth=&768& data-rawheight=&1024& class=&origin_image zh-lightbox-thumb& width=&768& data-original=&http://pic1.zhimg.com/v2-c38b704e85be95fb96b1a27bb05b8d3c_r.jpg&&&/figure&&figure&&img src=&http://pic3.zhimg.com/v2-ce95d428779edaa91dfee5c735bf1ab6_b.jpg& data-rawwidth=&768& data-rawheight=&1024& class=&origin_image zh-lightbox-thumb& width=&768& data-original=&http://pic3.zhimg.com/v2-ce95d428779edaa91dfee5c735bf1ab6_r.jpg&&&/figure&&/p&
前一段时间，李腾、陈烨、邓岳、陈志岗几位老师在知乎上发布了一份多因子模型的测试题，其中囊括了多因子建模过程中大部分需要考虑的理论和实践问题：在过去几个月时间，米筐科技（RiceQuant）量化策略团队对这…
&figure&&img src=&https://pic1.zhimg.com/v2-5fdff84b5_b.jpg& data-rawwidth=&600& data-rawheight=&450& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic1.zhimg.com/v2-5fdff84b5_r.jpg&&&/figure&&p&前一段时间，李腾、陈烨、邓岳、陈志岗几位老师在知乎上发布了一份多因子模型的测试题，其中囊括了多因子建模过程中大部分需要考虑的理论和实践问题：&/p&&p&&a href=&http://zhuanlan.zhihu.com/p/& class=&internal&&多因子模型水平测试题 - 科学投资 - 知乎专栏&/a&&br&&/p&&br&&p&在过去几个月时间，米筐科技（RiceQuant）量化策略团队对这套经久不衰的量化模型进行了系统研究，相关的产品项目也即将发布。我打算通过回答这份测试题的形式，分享这个过程中获得一些经验和想法。由于题目众多，在这里先对测试题的第一部分的问题进行试答，希望对大家有所帮助。&br&&/p&&br&&p&*************** 多因子模型测试题回答开始 ***************&br&&/p&&br&&p&&i&&b&问题2：常见的因子类别？&/b&&/i&&br&&/p&&p&&b&答：&/b&我个人倾向于以下简单的分类方式：量价因子、基本面因子和外部响应因子。&/p&&p&量价因子包含一些简单的指标，例如成交量、换手率和日内最高/最低价等；有一些量价因子则较为复杂，例如一些技术分析因子和数据挖掘得到的统计因子；&/p&&p&基本面因子通常是一些反映企业经营状况（市盈率、负债率等）和经营特征（行业因子）的变量。其包括来自于企业自身公布的报表，也可以是其它专业机构发布的一致预期预测（Consensus Forecast）。&br&&/p&&p&外部响应因子则取决于交易选择的证券池。例如如果一个机构是只做股票类证券的交易，那么和债券市场相关的指标对他们而言就是外部响应因子；如果一个机构是做全球资产配置，涉及多个市场和不同类型的证券，那么像某些国家和地区的通胀率、GDP等，对这个机构来说才是外部响应因子。&/p&&br&&p&&i&&b&问题1： A股市场驱动因子能分为哪几大类?&/b&&/i&&br&&/p&&p&答：因子分类同问题2。&/p&&p&以上三类因子应用于A股市场各自存在优缺点：&/p&&p&量价因子通常对行情变化非常敏感，能够有效捕捉市场的趋势，但简单因子因为广为人知，其影响早已体现在证券价格中（有效市场理论）；一部分技术分析因子由于流传甚广，可能存在一定的自我实现效应，但同样地，其影响可能已体现在证券价格中；而另一部分技术分析的描述接近于玄学，存在一定的模糊性；通过数据挖掘获得的，意义不明的统计因子容易出现多重比较谬误（multiple comparison fallacy）的问题。&/p&&p&基本面因子通常被做长期资产配置或者信奉价值投资理念的投资者采用。而在应用中过程中，存在以下困难：1 基本面因子数据获得时间点不统一（取决于企业发布报表的时间和机构发布预测的时间）；2 相比量价因子，其数据噪声大、缺失值多，数据质量取决于审计机构的专业性和企业的诚信程度；3 因子取值的分布通常远远偏离正态分布，对于离群值的判断不能用标准差这个常用的统计量； 4 一致预期的数据采集难度较大。&/p&&p&外部响应因子在某些情况下有很强的解释力，但在建模过程中，由于不同因子的量纲千差万别，通常要先估计其响应系数，因此会引起变量误差（error-in-variables）的问题，另外，部分外部响应因子来源于政府发布的数据，其可能存在采样质量差，而且数据被人工删改等问题。&br&&/p&&br&&br&&p&&b&&i&问题3：除了最常用的回归法，还有没有其他方法可以进行单因子测试？各自优劣是什么？&/i&&/b&&br&&/p&&br&&p&&b&答：&/b&在不使用回归的前提下，如果我们希望测试单因子对于预期收益率的预测能力：&/p&&p&1 直接计算其信息系数（Information Coefficient，IC），并应用精炼预测公式（refined forecast）进一步预测其效果；&/p&&p&2 构建因子对应的投资组合，其构建方法可以简单也可以复杂，例如选择不同的证券池和不同的中性化处理方法，计算其累计收益率；&/p&&p&3 如果希望捕捉非线性关系，也可以考虑使用距离相关系数（distance correlation）或者最大信息系数（Maximum Information Coefficient）等统计量。但任何非线性关系的分析和应用都存在过拟合的风险。&/p&&p&在不使用回归的前提下，如果我们希望测试该因子是否适合于风险预测模型：&/p&&p&可以计算该因子的自相关系数、和模型其它因子的共线性程度、和基准组合的相关程度等。&/p&&br&&br&&p&&b&&i&问题4：单因子测试是否需要纠正版块、市值偏离等问题？如何纠正？&/i&&/b&&br&&/p&&br&&p&&b&答：&/b&对于收益预测而言，是否需要纠正取决于你对该因子的判断。如果你认为该因子对于行业的预期收益率没有预测能力，就应该实现行业中性，反之不应该实现行业中性；市值偏离是否需要纠正亦是同理。&/p&&p&对于基于净值的业绩归因而言，中性化处理是必须的。市场和市值和影响力很大，不进行中性化处理的话，因子之间的共线性会导致系数估计的方差变大。&/p&&br&&br&&p&&b&&i&问题5：行业归属因子是否应选择动态变化的数据？&/i&&/b&&br&&/p&&p&&b&答：&/b&应该。答案如几位老师所言，不使用动态数据会出现使用未来数据的问题。&br&&/p&&br&&br&&p&&i&&b&问题6：混业经营的上市公司，其行业因子有哪些处理方式？利弊？&/b&&/i&&/p&&p&&b&答：&/b&对于混业经营的上市公司，其行业因子不能简单使用取值为 0 或 1 的哑变量（dummy variable）来表示。此时对行业因子暴露度的处理有两个思路：&/p&&br&&p&1 继续使用哑变量代表行业因子，而虚拟变量的权重可以直接使用等权重，或通过一些财务数据分析来确定；&/p&&p&2 不再使用哑变量，而使用连续变量表示行业因子。其暴露度可以通过该上市公司的收益率对行业收益率做多元回归决定。&/p&&p&第 1 种方法受数据噪音干扰减少，但可能存在欠拟合（underfitting）；第 2 种方法受数据噪音干扰较大，可能存在过拟合的问题。而且选择什么变量进行回归存在主观性。&/p&&br&&br&&p&&b&&i&问题7：行业因子采用GICS、证监会、申万、中信等第三方数据更好？还是利用相关性、聚类分析等算法来动态确定更好？各自利弊？&/i&&/b&&/p&&p&&b&答：&/b&就其使用而言，行业因子一般都是模型中风险控制的维度。它的选择应当符合市场上大部分投资者的认知。我个人的观点是，用复杂统计分析或机器学习来构建行业因子一来没有必要，二来由于引入额外的数据和分析步骤，模型的误差也会随之增加。&/p&&br&&br&&p&&b&&i&问题8：规模因子（Size，也叫市值因子）为什么在中国具有如此重大的影响？选择长期暴露小盘股有哪些利弊？&/i&&/b&&br&&/p&&p&&b&答：&/b&就一般而言，中国A股市场的四个特点导致小盘股更受青睐，市值因子影响巨大：&/p&&p&1 证券市场不规范，内幕交易盛行。部分机构投资者（所谓庄家）和公司股东存在不当的合作关系，利用小盘股股价易于操纵的特点获利；&/p&&p&2 相比成熟的证券市场，中国股票市场个人投资者比例偏高，个人投资者而且对股票市场的认识不成熟，希望通过投资股价变化更快的小盘股短时间内获利；&/p&&p&3 大盘股对应的通常为大型国有企业，其分红意愿不强，投资者难以通过价值投资的方式获得收益；&/p&&p&4 此外，《主动投资组合管理》的一个理论分析和模拟给出了一个很有意思的角度：如果做空个股受限，只能通过基准组合实现对冲的话，阿尔法对冲策略的优化结果通常是在小盘股上持有正头寸，而在大盘股上持有负头寸。这个结论也适用于A股市场。&/p&&br&&br&&p&&b&&i&问题9：市值因子应该怎么取？取市值本身、市值对数、市值平方根有什么区别，哪种更好？你认为流通市值和市值哪个信号更强？&/i&&/b&&/p&&p&&b&答：&/b&取市值平方根计算或市值对数，会减少个股之间市值暴露度的差距。具体哪一种因子计算方式更好，流通市值还是市值哪一个更好，可以通过因子测试验证。就直觉而言，流通市值是一个更能精确地反映股票市值变化的变量，效果可能更好。&/p&&br&&br&&p&&b&&i&问题10：&/i&换手率应该怎么计算？如遇长时间停牌，如何处理？&/b&&br&&/p&&p&答：换手率一般定义为交易量/流通股本。由于换手率一般是衡量股票流动性的指标，所以根据多因子模型的调整频率，可以用周换手率、月换手率或年换手率作为指标或者流动性因子。&br&&/p&&p&对于长时间停牌的股票，我个人认可的处理方法是剔除该股票。因为停牌通常意味着有重大消息要发布，其复牌后的收益出现异常波动的可能性较大。这种消息面因素导致的特异收益 (specific return) 通常是无法被多因子模型解释的，所以会给模型的参数估计带来额外噪音。&/p&&br&&br&&p&&b&&i&问题11：若某一因子包含长期平均数据（比如5年平均净利润），而中间有数据缺失的片段（比如最近5年中有2年的年报缺失），应该如何处理？现有两种参考方法：设为空值，或取现有数据的平均值充作长期均值。哪种更好？还是无所谓？&/i&&/b&&br&&/p&&p&&b&答：&/b&作为例子，假设我们在处理一个盈利因子，其第2，3年的数据缺失，考虑三种情况：1 存在缺失值的企业盈利线性增加；存在缺失值的企业盈利线性减少；存在缺失值的股票经营情况来回波动。&/p&&p&如果企业盈利线性增加，剔除缺失值再取平均会导致盈利因子暴露度被高估；&br&&/p&&p&如果企业盈利线性减少，剔除缺失值再取平均会导致盈利因子暴露度被低估；&br&&/p&&p&如果在5年时间区间内企业盈利大幅波动，剔除缺失值再取平均对盈利因子暴露度的暴露度误差的影响无法估计。&/p&&p&对于缺失值的处理没有一劳永逸的方法。其合适的处理方式依赖于数据特点、缺失情况（个别缺失还是大段缺失）、我们计算的目标是什么，等等。因此必须要对具体的问题和数据仔细斟酌，才能找到相对合适的处理方法。&/p&&br&&br&&b&&i&问题12：财务数据应该在哪个时点进行更新？比如月频的多因子模型，年报公布时间可能为 3 月或 4 月，是在3月底的时候即时更新那些已出的数据，还是在4月底统一更新使用？&/i&&/b&&br&&p&&b&答：&/b&在用历史数据对基本面因子取值进行计算的时候，我们应当保证因子所包含的信息和当时市场上投资者获得的信息一致。对于题目中的例子，如果企业是在 3 月份公布年报，则这些股票的因子暴露度应当在 3 月底进行更新；对于没有公布年报的企业，因子暴露度则维持原来的取值。&br&&/p&&br&&br&&p&&b&&i&问题13：有哪些指标可以用来衡量单因子测试的结果？&/i&&/b&&br&&/p&&p&&b&答：&/b&如果希望判断但因子的预测能力，最常见的基本指标是信息率（Information Ratio, IR）。一些业绩评价的常用指标，例如夏普比率，最大回撤等也可以用于单因子效果判断。&br&&/p&&br&&br&&p&&b&&i&问题14：依据单因子测试结果，如何对因子的有效程度进行排序？或者说，如何用单一指标衡量因子有效性？&/i&&/b&&br&&/p&&p&&b&答：&/b&用问题13的指标对因子进行排序则可。在排序的时候，更常见的方法是采用多个股票池对因子进行多次测试 —— 橘生淮南则为橘，生于淮北则为枳。&br&&/p&&br&&p&&i&&b&问题15：所谓的 “alpha因子” 和 “风险因子”，应该怎么进行区分？&/b&&/i&&/p&&p&&b&答：&/b&alpha 因子通常是对特定证券的预期收益率有预测能力的因子；而风险因子通常是投资者认为他们的信息或者策略对于该维度没有预测能力，并希望实现中性化处理的因子 (先验)，或对投资组合的风险存在显著边际贡献的因子 (后验)。由此可见，一个因子是 alpha 因子还是风险因子，部分取决于投资者的信息和经验—— 此之蜜糖，彼之砒霜。&/p&&br&&br&&p&&b&&i&问题16：你理解中有效且有逻辑的因子应该包括哪些？有逻辑但效果较差的因子应该包括哪些？如果采用某种方法组合出一个古怪的因子解释力很强，但是看不出因子的经济意义，你该怎么办？&/i&&/b&&br&&/p&&p&&b&答：&/b&如果我知道有效又有逻辑的因子，那当然不能告诉你了；有逻辑但效果差的话，可能是因为该因子的效应已经体现在证券价格中（有效市场理论）。对于表达式非常复杂难解的因子，可通过计算其对特征组合的暴露度来判断其经济学意义。&br&&/p&&br&&br&&p&&b&&i&问题17：如何打磨旧的因子，提高其有效性？&/i&&/b&&br&&/p&&p&&b&答：&/b&一个思路是，把旧因子和新因子进行组合。在旧因子的预测能力未完全衰减至0，且和新因子存在相关性的前提下，旧因子可以增强新因子的预测能力，或者对冲其风险。&br&&/p&&br&&br&&p&&b&&i&问题18：&/i&构建因子的新信息源如何寻找？有哪些思路？&/b&&/p&&p&&b&答：&/b&略。&br&&/p&&br&&br&&p&&b&&i&问题19：现在常用的因子都是易于量化的因子，对于基本面因子、事件驱动因子、市场情绪因子等不易量化的因子，有无合适的处理方法？&/i&&/b&&br&&/p&&p&&b&答：&/b&在我看来，这些因子不难量化，尽管量化的方式可能因人而异。&br&&/p&&br&&br&&p&&i&&b&问题20：本&/b&&/i&&i&&b&专栏的上一篇文章封面人物是谁？&/b&&/i&&/p&&p&答：迷糊的乙姬睦美和机智的小蛋。&/p&&p&*************** 多因子模型测试题回答结束 ***************&/p&&br&&br&&p&&i&小新一 &/i&&br&&/p&&p&&i&嗯？&/i&&/p&&p&&i&你很受欢迎哦。&/i&&/p&&p&&i&嗯。。。你说的是步美吧。&/i&&/p&&p&&i&不对，是小哀。&/i&&/p&&p&&i&呃。。。她不可能吧。&/i&&/p&&p&&i&不是哦。如果一个女生用这种眼神看着一个男生，那只有两个可能：1 他脸上黏了饭粒；2 她喜欢这个男生啦。&/i&&/p&&p&&i&呃。。。&/i&&/p&&figure&&img src=&http://pic4.zhimg.com/v2-9d6ff4cc5bc6f9f54a7ddbc75b81a523_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&http://pic4.zhimg.com/v2-9d6ff4cc5bc6f9f54a7ddbc75b81a523_r.jpg&&&/figure&&figure&&img src=&http://pic4.zhimg.com/v2-9abab6aee7b72a28a7fb_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&http://pic4.zhimg.com/v2-9abab6aee7b72a28a7fb_r.jpg&&&/figure&
前一段时间，李腾、陈烨、邓岳、陈志岗几位老师在知乎上发布了一份多因子模型的测试题，其中囊括了多因子建模过程中大部分需要考虑的理论和实践问题：在过去几个月时间，米筐科技（RiceQuant）量化策略团队对这…
&figure&&img src=&https://pic2.zhimg.com/cf4e0f43d8cfedd8c4e0ff52e39d6543_b.jpg& data-rawwidth=&1024& data-rawheight=&639& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&https://pic2.zhimg.com/cf4e0f43d8cfedd8c4e0ff52e39d6543_r.jpg&&&/figure&&p&&b&本试题由李腾、陈烨、邓岳、&a href=&http://www.zhihu.com/people/1ea1e29e6c0eb7a012c44& data-hash=&1ea1e29e6c0eb7a012c44& class=&member_mention& data-title=&@陈志岗& data-editable=&true& data-tip=&p$b$1ea1e29e6c0eb7a012c44& data-hovercard=&p$b$1ea1e29e6c0eb7a012c44&&@陈志岗&/a& 整理，欢迎补充！
&/b&&/p&&h2&1 试卷说明&/h2&&p&&b&测试目标：&/b&多因子模型是量化股票组合投资领域的基本工具，介绍性的资料很多。但学习这些资料之后，甚至一些老手也很难判断自己掌握到什么程度，或是在哪些方面有所缺失。因此，我们几位从业者合力整理了这份多因子模型水平测试题。以问题的方式激发思考，希望能够给从业者提供一个深度学习多因子模型的参考方向。列表中的很多问题我们也不知道最好的答案是什么，提示仅供参考。&/p&&p&&b&题目说明：&/b&多因子模型假设大量股票的未来收益率中的可预测部分由少数几个因子决定。由于同时影响大量股票，所以这些因子被称为共同因子。只影响单只或少数几只股票的特异因子，不在本试题的讨论范围内。多因子模型可用于收益预测、风险预测和业绩归因。业内对三种用途的多因子模型是否应具有统一的因子组并无定论。因此下面题目中很多问题，如无特殊说明，请针对三种用途分别作答。本试题侧重于多因子模型本身的理论和实践，因此对组合构建/优化、交易技术、历史回测技术等低相关主题不做深入探讨。&/p&&br&&h1&2 试题&/h1&&p&&b&因子&/b&&/p&&ol&&li&A股市场驱动因子能分为哪几大类?【按信息源分：技术、基本面、情绪等】&/li&&li&常见的因子类别？【行业、技术、基本面、分析师预测、大数据】&/li&&li&除了最常用的回归法，还有没有其他方法可以进行单因子测试？各自优劣是什么？注：下面问题均针对回归法。【如果用分组法，可以看到非线性的关系】&/li&&li&单因子测试是否需要纠正版块、市值偏离等问题？如何纠正？【在版块偏离方面，可以设置行业虚拟变量。在市值偏离方面，可以取因子对市值回归的残差，但这种处理不一定有必要？】&/li&&li&行业归属因子是否应选择动态变化的数据？【是，否则在回归过程中用到未来信息】&/li&&li&混业经营的上市公司，其行业因子有哪些处理方式？利弊？&/li&&li&行业因子采用GICS、证监会、申万、中信等第三方数据更好？还是利用相关性、聚类分析等算法来动态确定更好？各自利弊？&/li&&li&规模因子（Size，也叫市值因子）为什么在中国具有如此重大的影响？选择长期暴露小盘股有哪些利弊？&/li&&li&市值因子应该怎么取？取市值本身、市值对数、市值平方根有什么区别，哪种更好？你认为流通市值和市值哪个信号更强？&/li&&li&换手率应该怎么计算？如遇长时间停牌，如何处理？&/li&&li&若某一因子包含长期平均数据（比如5年平均净利润），而中间有数据缺失的片段（比如最近5年中有2年的年报缺失），应该如何处理？现有两种参考方法：设为空值，或取现有数据的平均值充作长期均值。哪种更好？还是无所谓？&/li&&li&财务数据应该在哪个时点进行更新？比如月频的多因子模型，年报公布时间可能为3月或4月，是在3月底的时候即时更新那些已出的数据，还是在4月底统一更新使用？【有先有后，随时公布随时更新，或许更有时效性】&/li&&li&有哪些指标可以用来衡量单因子测试的结果？【t绝对值均值，|t|&2占比，t序列方差，beta均值，beta方差等】&/li&&li&依据单因子测试结果，如何对因子的有效程度进行排序？或者说，如何用单一指标衡量因子有效性？【参考：abs(mean(t))/std(t)，也许有更优解】&/li&&li&所谓的“alpha因子”和“风险因子”，应该怎么进行区分？&/li&&li&你理解中有效且有逻辑的因子应该包括哪些？有逻辑但效果较差的因子应该包括哪些？如果采用某种方法组合出一个古怪的因子解释力很强，但是看不出因子的经济意义，你该怎么办？&/li&&li&如何打磨旧的因子，提高其有效性？&/li&&li&构建因子的新信息源如何寻找？有哪些思路？&/li&&li&现在常用的因子都是易于量化的因子，对于基本面因子、事件驱动因子、市场情绪因子等不易量化的因子，有无合适的处理方法？&/li&&/ol&&p&&b&模型拟合&/b&&/p&&ol&&li&拟合多因子模型的综合目标是什么？&/li&&li&如何选择样本空间？例如对初上市股票、ST股票、指数成分股变动、停牌股票等异常情况的处理方法。&/li&&li&如何选取因子组？有什么可以参考的经典理论？【提示：Barra
USE3 Handbook】&/li&&li&从选择因子到多因子策略回测，一般有哪几个环节？哪些可以省去，哪些不能？【单因子测试（似乎可以省略），合并因子（貌似不能省略，因为不合并相似因子无法消除共线性），预测个股收益率、成本、跟踪误差等，再进行约束优化问题求解】&/li&&li&每一期的因子暴露度，如果不进行离群值、缺失值以及标准化处理，会有什么后果？如果选择进行处理，又会带来哪些需要注意的模型扭曲？&/li&&li&离群值处理方法有那几种？一种比较常用的办法是将离开均值N倍标准差距离以外的离群值拉回N倍标准差的位置上，这时候N一般取值多少？【离群值处理还可以用中位数去极值等办法，对题干所述方法，有把N取成2，2.5，3，5的，也许可以通过理论+实践验证一下哪种取值更好】&/li&&li&缺失值的处理方法有哪几种？现提供三种参考方式：一是把空置设为NaN，回归涉及NaN项时用程序自动忽略；二是把所有含NaN项的个股从当期票池中剔除；三是把所有NaN（在标准化后）设为零（或中位数）。它们有什么区别？哪种好？或者有没有更好的？&/li&&li&标准化的方法有哪些？标准化后数据近似呈现何种分布规律？各种标准化方法的利弊？【除了减去均值、再除以标准差，还可以取排序序数等】&/li&&li&带权重的标准化，权重怎么设置？是否需要和回归时的个股权重保持一致？&/li&&li&标准化、离群值处理、缺失值处理，三个环节如何确立先后顺序？&/li&&li&因子之间或多或少具有一些相关性，若把所有因子进行正交化处理，会发生什么情况？这样做或不这样做的理由是什么？&/li&&li&如何选择截面回归的频率？依据是什么？&/li&&li&回归模型涉及的个股收益率怎么计算？最简单的（又能保证一定精确度的）方法是什么？【可以用复权收盘价。精确结果应该是利用市场价格和分股、配股等影响收益的因素结合计算】&/li&&li&回归模型是否需要加入截距项（即常数项）？在什么情况下可以取，什么情况下不能取？【有行业因子时不能加入截距项，因为行业因子之和为全1向量，再加截距项就会导致回归系数不唯一确定】&/li&&li&回归时用OLS和WLS的区别在哪里？使用WLS的依据是什么？【Barra文档里提到两点：一是市场更关注那些流通市值更大的股票；二是对消除异方差有帮助，并且支出sqrt（流通市值）是对异方差的一个较好的估计，可以用作回归权重】&/li&&li&如何评估或衡量多因子模型的效果？&/li&&li&如何判断现有因子是否足够解释收益率？【R^2可以辅助判断，也许有更好的标准？】&/li&&li&中国股票市场多因子模型的R^2通常在什么量级？&/li&&li&为了提高R^2，尽可能多地加入各种因子，会导致什么问题？&/li&&li&如果一个因子与现有因子组均低相关，而且能够显著提高R^2，那么什么样的理由可能会使我们选择不加入这个因子？【因子收益率不稳定】&/li&&li&对于回归法因子测试，能否直接用不同截面的数据叠加在一起进行回归（即面板回归）？可能产生的后果是什么？【牛熊市数据可能分层了，掩盖真正的规律】&/li&&li&进行多元回归时，如何检验共线性、异方差问题？如何解决？&/li&&li&无风险资产在各个市场应该如何选择？中国市场有哪些选择？各自的利弊（例如历史长度、数据完整性、代表性等）？&/li&&li&计算beta值的基准（benchmark）如何选择？不同选择对整个模型影响有哪些方面？&/li&&li&似乎研究者已经惯于用线性模型来解释收益率，为什么不用更复杂的模型？（或者已经存在什么非线性的结果？）&/li&&li&拟合多因子模型时，数据挖掘问题有多严重？怎样降低过拟合的程度？&/li&&/ol&&p&&b&收益预测&/b&&/p&&ol&&li&在多因子回归中，预测的目标是什么？收益率？对行业的超额收益率？对市场的超额收益率？还是其他的？&/li&&li&用于收益预测的多因子模型，在拟合时应侧重考虑哪些方面？&/li&&li&因子收益率如何预测？有哪些方法？是否有必要进行因子择时? 国外的文献对这方面的研究成果如何？&/li&&li&构建选股模型时，通常会对许多因子进行降维、合并，这样做的主要意义是什么？【国信、中信的多因子报告里都有相关介绍】&/li&&li&对将要合并的几个因子，如何分配它们的权重？请对静态、动态赋值各一例，它们各自的优劣是什么？【提示：静态比如简单平均，动态比如IC加权平均，参见安信或中信多因子报告。简单平均的好处是逻辑简洁便于计算，动态平均能更多地利用市场信息】&/li&&li&已知过去若干期的（合并后）因子暴露度，根据以上测试结果，如何预测下期收益率？&/li&&li&用IC（横截面相关性）衡量预测有效性有什么缺陷？&/li&&li&未来1日收益率预测的IC通常在什么水平？未来1月的呢？不同时间尺度之间是否有固定的转换关系？&/li&&li&预测时间尺度如何选择？未来1天、1周、1月、3月还是更长？【看你拥有的信息/因子在哪个时间尺度上最有效】&/li&&li&如何将多因子模型的预测与其它预测（例如定性研究对少数股票的预测）整合？【Black-Litterman模型】&/li&&/ol&&p&&b&风险预测&/b&&/p&&ol&&li&用于风险预测的多因子模型，在拟合时应侧重考虑哪些方面？&/li&&li&是否有必要预测收益的波动率？如何预测收益的波动率？是否要在优化中使用波动率？&/li&&li&多因子模型预测出的协方差矩阵是否会有发生高度接近奇异的情况？&/li&&li&设我们称风险预测模型中的因子为“风险因子”，称收益预测模型中的因子为“alpha因子”。如果一个alpha因子也入选了风险因子，会对组合优化结果产生什么影响？如果在风险模型中特意剔除所有alpha因子，会对组合优化结果产生什么影响？&/li&&li&BARRA的多因子风险预测模型主要在哪些细节上做了精细处理？&/li&&li&BARRA在不同市场上的多因子风险预测模型之间的细微差异，反映了各个市场的哪些特点？&/li&&li&用日数据vs用月数据估计协方差矩阵，各适用于什么需求？用日内（例如分钟级）数据来估计协方差阵的好处与坏处是什么？&/li&&li&怎样衡量或评估风险预测模型的有效性？&/li&&/ol&&p&&b&业绩归因&/b&&/p&&ol&&li&用于业绩归因的多因子模型，在拟合时应侧重考虑哪些方面？&/li&&li&有人认为，与用于预测的多因子模型相比，用于业绩归因的多因子模型，对因子之间的低共线性要求更高，请解释可能的原因？&/li&&li&业绩归因将组合收益分解为若干个因子上的收益和一个特异收益。一位有技术的定性投资经理（基于实地调研和对某些行业、公司的洞察力）的归因结果应该是什么样子？一位利用多因子模型量化选股的投资经理的归因结果应该是什么样子？&/li&&li&在对一个已知策略逻辑大体思路的投资组合进行业绩归因时，采用标准的因子组vs采用针对性的因子组各有什么利弊？【采用标准因子组便于与其它组合横比；采用针对性因子组便于与自身策略逻辑纵比】&/li&&li&多因子业绩归因系统输出的结果中，特异收益（specific
return，即不可被因子解释的收益）如果显著地偏正或偏负，怎样解释？怎样调试归因系统来消除偏离？&/li&&li&纯多头组合业绩归因时，以总头寸或者主动头寸（=总头寸-基准头寸）为分析对象，各有什么利弊？&/li&&li&如果不知道组合持股明细，只知道组合每日收益率，怎样对它进行多因子业绩归因？误差会放大多少？&/li&&li&多因子业绩归因模型怎样与Brinson业绩归因模型整合使用？&/li&&/ol&&p&&b&组合构建&/b&&/p&&ol&&li&利用多因子模型进行选股，求解每期股票权重的问题本质上是一个带约束的最优化问题，请阐述优化目标和约束条件各是什么？&/li&&li&组合优化有哪些常见方法？各要注意什么问题？&/li&&li&股票组合中个股权重上限的设计有什么技巧？大约应设置在什么范围？【个股权重不能太大，否则只会集中买入每个行业预期收益最高的股票；也不能太小，否则可能出现某个行业内所有股票都持仓至上限也无法达到行业中性。参考值：2%～3%，应根据实际情况调整取值】&/li&&li&是否要根据个股的交易量来限制个股权重的上限？&/li&&li&如何预估市场冲击？&/li&&li&是否可以（大概）控制每个版块的持仓个股数？如何做？【参考方法：股权重上限为它所处行业在沪深300（或其他基准）中占比除以希望持仓的个股数】&/li&&li&建立选股模型时，如何控制行业中性、市值中性（或其他条件）？&/li&&li&建立选股模型时，如何处理交易成本、股票停牌等问题？如何计买入、卖出价？&/li&&li&纯多头约束对组合构建的影响不止是少了一半的获利机会，这句话怎样理解？&/li&&li&纯多头股票组合策略应选择怎样的指数作为基准？沪深300、中证500、中证800？各有什么利弊？&/li&&li&应该每日调整头寸，还是更低的频率，例如每月，抑或每次财报集中发布之后？&/li&&li&多因子模型回测过程中，是否应对个股特别设立平仓与开仓条件（即对多因子的结果进行修正）？如何做？&/li&&/ol&&p&&b&实盘&/b&&/p&&ol&&li&新策略从提出到开发，再到上线的流程中，历史回测（back-test）、实时模拟（paper-trading）和实盘交易（real-money）的关键差异何在，各自的优劣何在？&/li&&li&如何检测你的模型是否已经失效？模型因子是否需要定期重选？&/li&&li&实盘中一个历史回测、实时模拟业绩都很好的策略发生了异常回撤，问题可能出在什么地方？应急预案是什么？&/li&&li&如何设计数据库表结构来记录实盘交易流水和每日资产明细？&/li&&li&在实盘交易中，模型给出的交易指令常常不能被精确地执行，如何评估其影响？&/li&&/ol&&p&&b&数据&/b&&/p&&ol&&li&基本信息、行情、基本面等基础数据库的表结构应该怎样设计？出于怎样的考虑？&/li&&li&选择Mysql、SQL及其它数据库管理系统的利弊？&/li&&li&常见的数据来源有哪些，数据提供商有哪些，各有哪些优劣？&/li&&li&用网页抓取生成的数据源的利弊？&/li&&li&如何支持多数据源？&/li&&li&每个数据具有三个关键日期，数据日期、公告日期、录入日期。对于不同类型的数据项，上述三个关键日期之间的时滞情况不同，请对不同情况分别举例。数据库应怎样设计以全息保存三种关键日期，并使历史回测结果更加逼真？&/li&&li&行业分类数据选用哪家的好？&/li&&li&发现一只股票的某个财务数据异常，怎样找到真值？&/li&&li&如何记录基础数据的勘误历史？&/li&&li&怎么进行数据清洗？拥有哪些异常行为的股票应该列入黑名单？&/li&&/ol&&p&&b&程序&/b&&/p&&ol&&li&分析程序用MATLAB、Python、R、C++等语言各自的利弊？哪种背景和需求的人应该选择哪种语言？&/li&&li&10年历史回测，数据量大约是多少，运算量大约是多少？怎样的内存不会溢出？&/li&&li&面向过程的架构vs面向对象架构来实现多因子模型各有什么利弊？&/li&&/ol&&p&&b&综合&/b&&/p&&ol&&li&股票市场是否存在alpha，怎样验证？&/li&&li&传统的基本面投资方法与多因子模型都是为了得到股票组合，他们的异同是什么？&/li&&li&多因子回归模型与CAPM理论和APT理论的关系是什么？&/li&&li&一般的选股模型可以达到多少年化收益率和夏普比率？&/li&&li&在多因子模型的构造过程中，最核心的一个环节是什么？【我认为是预测收益率，也许有人认为是风险（跟踪误差）控制】&/li&&li&不同交易频率的组合投资策略——日内（高频、中频、低频）、日频、中期、长期，其对应的多因子模型有哪些不同？&/li&&li&为什么同样的策略，不同的执行者之间会存在无法抹去的误差（为什么你无法复制另一个人的研究报告成果）？&/li&&li&一般来说，多因子模型对数据敏感性很强，那么它的结果还有参考意义吗？&/li&&li&多因子模型作为一个如此成熟的策略，为什么还有前仆后继的研究者？&/li&&li&基于多因子模型的策略收益没有吸引力，从业者众多，是夕阳产业吗？年轻人学习多因子模型是否值得？&/li&&li&机器学习、人工智能的工具可以应用到多因子模型的哪些地方？&/li&&/ol&&br&&h1&3 评分标准&/h1&&p&市场上，达到“训练有素”级别的人已经为数不多，通常为大型投资研究机构入行5年以上的从业者；“专家”级别的人更少，仅凭资历以不能达到，还需要“天赋+勤奋+际遇”，少数机构投研核心1-2位；“大师”级别的人在全球范围屈指可数。&/p&&figure&&img src=&http://pic4.zhimg.com/01cf29c91ad0b34edf1f_b.png& data-rawwidth=&569& data-rawheight=&311& class=&origin_image zh-lightbox-thumb& width=&569& data-original=&http://pic4.zhimg.com/01cf29c91ad0b34edf1f_r.png&&&/figure&&br&&h2&欢迎大家关注我的微信公众号&/h2&&h2&「科学投资」：kexuetouzi&/h2&&figure&&img src=&http://pic3.zhimg.com/273b4b20ea40b24d5a978ee40cf9c17a_b.jpg& data-rawwidth=&430& data-rawheight=&430& class=&origin_image zh-lightbox-thumb& width=&430& data-original=&http://pic3.zhimg.com/273b4b20ea40b24d5a978ee40cf9c17a_r.jpg&&&/figure&
本试题由李腾、陈烨、邓岳、整理，欢迎补充！ 1 试卷说明测试目标：多因子模型是量化股票组合投资领域的基本工具，介绍性的资料很多。但学习这些资料之后，甚至一些老手也很难判断自己掌握到什么程度，或是在哪些方面有所缺失。因此，我们几位从业…
我仅就我所了解的多因子策略回答:&br&&b&有一个很隐性的未来数据的问题，就是在构建策略的时候，我们是知道有哪些因子是有效的，但实际使用时可能已经失效了。&/b&最常见的就是小市值因子，社区当中包含小市值因子的策略的收益都很惊人，这是我们建立策略时已经知道了小市值因子在过去具有显著的正收益（虽然小市值在2016年依然有效）。&br&&b&然后就是社区中几乎没有几个策略是做过业绩归因分析的，这样策略回测时具体是哪一个因子贡献了收益是说不清楚的，因子失效时不能及时发现&/b&，也不知道组合在各个因子上的暴露有多大。就我自己的归因分析结果来看（还有bug）,小市值因子的收益是在2013年之后（大概是创业板牛市开始之后）才有持续性的正收益，而这之前的正收益实际上来源于流动性不好的股票（估计背后逻辑是流动性补偿，而且如果不对流动性因子做市值中性处理，原始因子数据和市值因子数据有较高的相关性）。然而要做业绩归因分析，工作量是很大的；而且有了因子收益，还需要做因子相关性矩阵，根据因子相关性矩阵做因子选取、风险调整以及最后的组合优化，这是一个人很难完成的，估计这是很少人做归因分析的原因。&br&&b&最后，不要为了净值曲线好看而去过度的优化参数&/b&。如果选股有一定广度（不少于50只），不做止损（这部分工作应该在因子的选取和剔除中完成）的条件下长期相对于基准的超额收益能够达到名义GDP增长率的3倍以上或M2增速的2倍以上应该就是一个比较优秀的策略了。&br&&br&
个人投资者要在量化上能完成以上的工作还真不如定投一只量化基金，毕竟不要管什么事情。
我仅就我所了解的多因子策略回答: 有一个很隐性的未来数据的问题，就是在构建策略的时候，我们是知道有哪些因子是有效的，但实际使用时可能已经失效了。最常见的就是小市值因子，社区当中包含小市值因子的策略的收益都很惊人，这是我们建立策略时已经知道了…
&figure&&img src=&https://pic1.zhimg.com/79c1e556b45f4c7de92be77_b.jpg& data-rawwidth=&600& data-rawheight=&400& class=&origin_image zh-lightbox-thumb& width=&600& data-original=&https://pic1.zhimg.com/79c1e556b45f4c7de92be77_r.jpg&&&/figure&&blockquote&&h3&&strong&量化选股-多因子模型&/strong&&/h3&&/blockquote&&p&总体分为基本面选股、市场行为选股。基本面选股包括：多因子模型，风格轮动模型，行业轮动模型。市场行为选股包括：资金流选股，动量反转模型，一致预期模型，趋势追踪模型和筹码选股。&/p&&p&今天要讲的是&strong&多因子模型&/strong&。&/p&&p&多因子选股模型是广泛应用的一种方法。采用一系列的因子作为选股标准，满足则买入，不满足则卖出。不同的市场时期总有一些因子在发挥作用，该模型相对来说比较稳定。&/p&&p&模型的优点是可以&strong&综合很多信息后给出一个选股结果&/strong&。选取的因子不同以及如何综合各个因子得到最终判断的方法不同会产生不同的模型。一般来说，综合因子的方法有打分法和回归法两种，打分法较为常见。&/p&&br&&br&&blockquote&&h3&&strong&模型构建实例&/strong&&/h3&&/blockquote&&ol&&li&&p&选取09-15年做样本期，进行因子检验。&/p&&/li&&li&&p&benchmark = 000001.XSHG&/p&&/li&&/ol&&br&&br&&blockquote&&h3&&strong&一.备选因子选取&/strong&&/h3&&/blockquote&&p&根据市场经验和经济逻辑选取。选择更多和更有效的因子能增强模型信息捕获能力。如一些基本面指标（PB、PE、EPS、增长率），技术面指标（动量、换手率、波动），或其他指标（预期收益增长、分析师一致预期变化、宏观经济变量）。&br&&/p&&p&结合JQ能提供的数据，具体选取以下三个方面的因子：&br&&/p&&p&（1）估值：账面市值比（B/M)、盈利收益率（EPS）、动态市盈（PEG）&/p&&p&（2）成长性：ROE、ROA、主营毛利率（GP/R)、净利率(P/R)&/p&&p&（3）资本结构：资产负债（L/A)、固定资产比例（FAP）、流通市值（CMV）&/p&&p&下面就上述10个因子的有效性进行验证。&/p&&br&&br&&blockquote&&h3&&strong&二.因子有效性检验&/strong&&/h3&&/blockquote&&p&采用排序的方法检验备选因子的有效性。&/p&&p&对任一个因子，从第一个月月初计算市场每只股票该因子的大小，从小到大对样本股票池排序，平均分为n个组合，一直持有到月末。每月初用同样的方法调整股票池。运用一定样本时期的数据来建立模型。&/p&&br&&br&&h2&&strong&0.导入所需库&/strong&&/h2&&p&&strong&In [1]:&/strong&&br&&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&import pandas as pd
from pandas import Series, DataFrame
import numpy as np
import statsmodels.api as sm
import scipy.stats as scs
import matplotlib.pyplot as plt
&/code&&/pre&&/div&&br&&h2&&strong&1.每月初取所有因子数值（以为例）&/strong&&/h2&&p&（1）估值：账面市值比（B/M)、盈利收益率（EPS）、动态市盈（PEG）&br&&/p&&p&（2）成长性：ROE、ROA、主营毛利率（GP/R)、净利率(P/R)&/p&&p&（3）资本结构：资产负债（L/A)、固定资产比例（FAP）、流通市值（CMV）&/p&&br&&p&&strong&In [2]:&/strong&&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&factors = ['B/M','EPS','PEG','ROE','ROA','GP/R','P/R','L/A','FAP','CMV']
#月初取出因子数值
def get_factors(fdate,factors):
stock_set = get_index_stocks('000001.XSHG',fdate)
q = query(
valuation.code,
balance.total_owner_equities/valuation.market_cap/,
income.basic_eps,
valuation.pe_ratio,
income.net_profit/balance.total_owner_equities,
income.net_profit/balance.total_assets,
income.total_profit/income.operating_revenue,
income.net_profit/income.operating_revenue,
balance.total_liability/balance.total_assets,
balance.fixed_assets/balance.total_assets,
valuation.circulating_market_cap
valuation.code.in_(stock_set),
valuation.circulating_market_cap
fdf = get_fundamentals(q, date=fdate)
fdf.index = fdf['code']
fdf.columns = ['code'] + factors
return fdf.iloc[:,-10:]
fdf = get_factors('',factors)
fdf.head()
&/code&&/pre&&/div&&p&&strong&Out[2]:&/strong&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/6e96345cdf38fe46aacf8c039c073f9d_b.jpg& data-rawwidth=&765& data-rawheight=&213& class=&origin_image zh-lightbox-thumb& width=&765& data-original=&https://pic2.zhimg.com/6e96345cdf38fe46aacf8c039c073f9d_r.jpg&&&/figure&&br&&h3&&strong&2.对每个因子按大小排序（以'B/M'为例）&/strong&&/h3&&p&&strong&In [3]:&/strong&&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&score = fdf['B/M'].order()
score.head()
&/code&&/pre&&/div&&p&&strong&Out[3]:&/strong&&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&code
600301.XSHG
600444.XSHG
600228.XSHG
600217.XSHG
600876.XSHG
Name: B/M, dtype: float64
&/code&&/pre&&/div&&p&股票池中股票数目&/p&&p&&strong&In [4]:&/strong&&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&len(score)
&/code&&/pre&&/div&&p&&strong&Out[4]:&/strong&&br&&/p&&div class=&highligh

致远期货价格影响因素：为什么说哑变量在因素级是对称的

我要回帖

更多关于影响期货郑醇因素的文章

随机推荐

致远期货价格影响因素：为什么说哑变量在因素级是对称的

我要回帖

更多关于 影响期货郑醇因素 的文章

随机推荐

更多关于影响期货郑醇因素的文章