目前,个股公告类型众多,每种类型公告所述重点事件不一,每种类型的个股公告繁多。作为投资者,为了自身利益,及时了解上市公司披露的个股公告内容变得很迫切。但是,每种类型的个股公告众多,篇幅冗余。投资者只想了解其中的核心事件及数据(即摘要),而不是花费大量时间精力去下载浏览每一篇公告内容。
当前从技术上解决该问题方法是采用的基于事件框架的事件信息抽取,基于一整套正则表达式(专家规则),去匹配公告当中的具体事件及数据。这种技术天花板低,专家规则制定繁杂,不能涵盖所有情况,匹配易错,匹配性能差。因此,很多金融资讯公司针对个股公告摘要的提取主要还是靠人来提取,效率较低。
通过观察研究个股公告发现,这些个股公告内容主要是由表格数据及文本组成,其表格条目数据介绍非常规范,结构高度相似。因此,针对性地提取个股公告的表格数据、剩余文本(剔除表格)当中的核心段落或句子,再按照一定的模板(领域权威指定)组织成摘要。
具体实现如下:
(1) 把个股公告内容(一般是pdf格式)通过一定技术转换成html格式。
(2)识别出html当中的表格table标签,通过进一步切分table标签中的行tr、列td等标签,提取出表格的关键指标和数据。
(3) 提取出html剩余的文本(剔除html标签),按照标点符号切分成句子,并把每个句子切分成关键词,按照BM25算法,提取与给定模板最相似的若干句子;
(4) 根据提取的句子和表格关键数据,组织成摘要。
本方法的有益效果是:
(1)本方法针对公告表格进行抽取,可以提取详细条目数据,准确率高,速度快,扩展性强。
(2)采用文本相似算法计算与指定模块相似的句子即可,不需要制定繁杂规则;
(3)指定模块(领域产品指定)只需包括关键词即可,不要专家规则。