资本市场信息披露学院关于举办“以信息披露为导向上市公司财务会计培训班

原标题:上证信息-文因互联(聯合)发布:知识提取在上市公司信息披露中的应用

课题组:上证信息-文因互联(联合)课题组

课题主办人:上海证券交易所信息公司 赵偉 何曾樑

课题承接单位:北京文因互联科技有限公司

文因互联:张强 王丛 李卫东 丁海星 张梦迪 马新磊

上证信息:王辉 赵伟 何曾樑 王海菲 李煒 陈春燕 奚超

信息披露是资本市场信息披露的重要组成部分是资本市场信息披露法律法规的核心内容之一,也是对市场参与者权益的有利保障

以上市公司信息披露为例,随着市场监管的全面深化以及上市公司数量的逐年增长各类投资者,尤其是中小投资者面临着海量公告信息处理能力不足的困难。

对海量公告信息制作摘要或提取有意义的结构化信息一方面可以提高投资者的信息获取能力,同时也為市场监管及企业研究提供了基础数据支持

本文介绍了一种用于上市公司信息披露自动摘要的方法,本方法使用深度学习与知识规则的混合算法首先将文档划分为句子,将句子进行标注后通过LSTM模型训练计算出关键语句再将输出句子经过规则系统提取,从而得到一篇公告的重要实体与关系最后重组为摘要。本方法在几类高频、重要的上市公司公告中进行了结构化提取与摘要生成的测试并取得理想结果。本文认为这种方法可以低成本、可迁移地部分解决公司公告的知识提取问题

上证所信息网络有限公司

文章节选自上海证券交易所与仩交所技术出版的《2017证券信息技术研究发展中心研究报告》内部刊物。

在我国证券市场上信息披露是一种法规要求,各种信息披露义务囚“应当真实、准确、完整、及时地披露信息”以上市公司为例,信息披露能够使市场及时掌握公司的运营情况评估未来盈利水平和風险情况,从而做出投资决策

上市公司的公告信息披露由各信息披露义务人在指定的信息披露网站发布,主要为PDF格式以沪市上市公司為例,2016年全年披露了123732篇公告2017年共158977篇,并且随着上市公司数量的增加这一数字将会逐年增加每年3月底、4月底、8月底、10月底为定期报告披露高峰期,最多的一天(2017年4月28日)发布了3571篇公告这不但为证券交易所的合规检查带来了压力,也给投资者带来了极大的信息负载尤其昰对中小投资者。

随着上市公司数量日益增多将公告以行之有效的方式让阅读者“读薄”的工作刻不容缓,其中通过自然语言处理、知識图谱、深度学习等技术将公告信息结构化提取或许是关键所在

目前,沪深两所上市公司的信息披露内容中部分定期公告及临时公告巳经利用XBRL技术将信息结构化,其中主要包括公司半年报与年报中的基本信息、股本结构、以及资产负债表、利润表、现金流量表财务报表忣附注这些信息在上市公司撰写公告时,便通过特殊工具进行了采集[1]之后便可以直接将这些信息结构化存储和利用。然而已经格式囮处理的公告仅占全部公告的一部分,加之信息披露的要求逐年变化对公告信息的完整格式化仍然是个挑战。中小投资者通常使用市场信息供应商来获取信息而这些信息供应商由于关注点的不同,所提供的数据在时效性、完整性、准确性上也有很大的提升空间。

上市公司信息披露的种类繁多如上交所将上市公司公告分为35大类,376个小类(上海证券交易所2013)。目前上海证券交易所制作并免费对市场发咘部分公告的摘要信息但由于制作维护成本较高,不易扩展并难以应对公告数量的井喷。

本项工作的初始目的是为了上交所的公告制莋小组提供合适的自动化处理工具减轻公告高峰期的运行压力,降低人工采编风险控制可能增加的成本;在此基础上,考虑为周边系統甚至公众提供通用的公告自动抽取服务

本项工作通过LSTM深度学习网络,首先将不同类别公告的关键语句抽取出来抽取过程仅需公告制莋小组业务专家对少量公告进行标注,期间通过Dropout等方法提供模型泛化能力关键语句抽取后,再通过规则方法进行细粒度提取从而将公告结构化。结构化提取与摘要生成是知识提取的两种展示形式本工作在9类高频公告中分别对两者进行了充分测试,均取得了较为理想的結果

本项目的初始设计目的是为了公告制作小组提供高质量的自动化处理工具。面对公告摘要这特殊类型文本公告制作小组制定了较高的准确性要求,以至于传统(新闻)文本摘要无法完全满足准确率需要本课题需要探索深度学习与知识提取的结合,以平衡开发成本與准确率的矛盾这项工作的探索不仅为扩展更多公告类型奠定基础,也为其他类型文本处理带来宝贵经验

对于不同格式的文档,文本嘚获取是第一步PDF格式是目前信息披露的法定格式。PDF解析是解决公告分析的前提条件而由于PDF转换过程中所带来的信息丢失,噪音干扰段落结构破坏,表格结构破坏会严重影响后续分析于是PDF解析是本课题第一个难点。对于可获取的其他格式文本如Word或TXT,内容获取较易沒有加以特别对待;而对部分由图片转换的PDF,由于涉及到图像识别等其他专项技术未在本项工作中加以覆盖。

深度学习模型需要平衡模型的准确率和泛化能力同样不能采用过于复杂的模型降低运算速度,所以深度学习模型的合理搭建是第二个难点

事件提取是信息提取研究中最具有挑战性的任务之一,如何能够在保证泛化能力的情况下更准确的进行事件元素信息的提取是第三个难点

最后的难点是深度學习模型与知识提取的混合工程架构,要考虑如何能更快让开发人员扩展非常考验工程设计者的架构能力。

声明: 本帐号所发文档来源于網络资源和个人收集,仅用于技术分享交流用版权为原作者所有。如有侵犯原您的版权,请提出指正我会在第一时间删除相关资料。谢謝合作

  “由于证券产品的复杂性、虛拟性和交易方式的特殊性信息不对称问题特别突出,决定了信息披露在整个资本市场信息披露运行过程中处于中心和基础地位”在ㄖ前召开的2014年全国证券期货监管工作会议上,证监会主席肖钢提出只有确保信息真实、准确、完整、及时,才能形成合理的市场定价發挥资本市场信息披露有效配置资源的作用;才能引导市场预期,促进理性的投融资决策和股权文化;才能及时充分地揭示和评估市场风險提高市场运行的稳定性。

  在此次工作会议上肖钢提出了包括推进股票发行注册制改革在内的2014年监管转型的九大任务之一,并明確落实以信息披露为中心的监管理念英大证券首席经济学家李大霄在接受记者采访时表示,这意味着监管理念的巨大转变

  资本市場信息披露是基于信息定价的交易市场,上市公司真实、准确、完整、及时的信息披露是资本市场信息披露健康运行的基础长期以来,盡管监管层在信息披露问题上三令五申但各种有关信息披露的违规违法问题依然屡屡出现,严重违背了资本市场信息披露的“三公”原則数据显示,2013年1月至10月证监会立案调查的信息披露类案件达到46起,为去年同期的3倍占立案总数的比例从15%大幅上升至33%。这些数据在表奣监管者及时调整执法重心、加大对欺诈发行和虚假信息披露打击力度的同时也折射出上市公司信息披露领域已成为事故多发地带。

  随着注册制改革路线图的稳步推进信息披露也逐渐被提升到一个绝对重要的位置。按照证监会的部署新股发行注册制的核心内涵是鉯发行人信息披露为中心,中介机构对发行人信息披露的真实性、准确性、完整性进行把关监管部门对发行人和中介机构的申请文件进荇合规性审核,不判断企业盈利能力在充分披露信息的基础上,由投资者自行判断企业的价值和风险自主做出投资决策。

  在此背景下公开披露的信息便成了投资者决策的重要依据,而充分、准确的信息披露则是对投资者的最大保护这就要求监管层把强化上市公司信息披露、保证信息披露的质量作为促进市场健康发展的重要手段,构建起全方面的信息披露监管体系“实行注册制有两个重要支点:一是有效市场,要求信息完全而对称;二是健全法制对证券违法犯罪要有足够的威慑力。”武汉科技大学金融证券研究所所长董登新表示

  对于下一步监管转型过程中如何落实以信息披露为中心的监管理念,肖钢提出要坚持以投资者需求为导向,使信息披露更好哋为投资者服务而不是以监管自身需求为中心。要把满足投资者的需求作为出发点和落脚点建立发行上市、日常监管等各个环节有机銜接的信息披露规则体系。在股票发行环节要完善招股说明书的格式、语言和内容,针对不同行业制定适应其特点的差异化信息披露要求增强信息披露的有效性。

  有业内人士认为从IPO重启以来出现的各种问题看,上市公司信息披露的时点应该向前延伸给市场更及時的信息;同时,监管部门对上市公司、中介机构的披露内容和关键问题也应该作出更具体的要求此外,还应该加强事后监管和惩戒力喥“信息披露除了保证披露内容的真实性之外,还需明确对不真实信息披露如何处罚明确处罚的轻重和标准。”李大霄说

  还有鈈少业内人士提出,不仅是要加大对信息披露不规范的惩罚力度更需加强对上市公司信息披露的培训,明确什么样的事件需要披露并皷励上市公司进行主动信息披露。此外作为证券市场的“看门人”,中介机构的尽职履责情况直接决定发行人信息披露的质量

  值嘚关注的是,在此次监管工作会议上肖钢还提出,在加强市场主体信息披露监管的同时要加快建设“透明证监会”。政府信息要以公開为原则以不公开为例外,做到规则公开、过程公开、结果公开此外,针对长期以来证监会系统信息分散、部门单位之间沟通交流信息处理方式落后、效率低下的问题肖钢提出,要建设集中统一、信息共享的中央监管信息平台这也是推进监管转型的重要措施。

  董登新表示有效市场应该是一个信息完全而对称的市场,完善信息披露制度的最终目的之一就是要为投资者架构一个及时、准确、完整、便利的信息共享平台,同时为监管层提供高效监管、远程监管的第一手材料和依据因此,有必要借助“大数据”技术充分整合信息资源,充分挖掘信息价值满足投资者和监管者的多样化需要。

您填写的用户名将出现在评论列表中

我要回帖

更多关于 资本市场信息披露 的文章

 

随机推荐