人工智能时代前沿技术社区

首页 > 大数据 > 热点

从数据到智慧:人机结合,金融行业知识图谱应用实践

大数据时代以其海量的数据,极大丰富了人们获取知识的来源与途径,为人们更好的掌握与认知事物规律,提供了越来越丰富的手段。

作者:白雪/熊昊/白硕 | 2017-06-27 14:24:37 | 来源:阡寻科技

大数据时代以其海量的数据,极大丰富了人们获取知识的来源与途径,为人们更好的掌握与认知事物规律,提供了越来越丰富的手段。与此同时,随着数据量尤其是非结构化数据的急剧增长,数据的分析与理解已经远远超过人类的理解与分析速度,在某些应用场景甚至会出现随着数据的增长而应用效能下降的“拉弗曲线”效应,困扰着行业的进一步发展。

抛开应用场景的数据解决方案通常都不能取得良好的效果,就针对证券行业这一特定行业而言,存在着结构与非结构化数据并存、数据分析结果要求准确度极高、数据分析结果经济效益明显直接的特点,对我们的分析手段提出了新的要求与挑战。

金融知识图谱,一改传统数据分门别类的存储方式,以一种“活”的方式将实体、属性、关系等非结构化、结构化数据固化并联系起来。构建金融知识图谱作为证券文本语义理解和知识搜索的关键基础技术,为未来证券领域文本分析、舆情监控、知识发现、模式挖掘、推理决策等提供了坚实支撑。

金融知识图谱在证券行业的应用目前尚处于探索阶段,如智能投研,智能公告等等,均可以大大提高传统业务效率。然而,构造和应用领域知识图谱,尚面临着各种挑战和难题,需要行业专家和人工智能专家协作起来,以专家+大数据的方式构筑自生长模式,从而真正将海量非结构化信息自动化利用起来,成为领域应用决策的坚实支持。

1.引言

一部2009年上映的科幻巨作《阿凡达》,以智慧之树的形式承载并实现了历史知识、记忆和现实生灵的万物互联,形象而精准地预测了知识科技的今天:人工智能领域顶尖的工程师,与行业资深专家,正携手致力于基于知识图谱、深度学习、自然语言处理等前沿技术,融合各行各业的知识归集与建模,共同构筑连接万物的知识之网、智慧之树。

知识图谱作为一种大规模的知识表示形态,本质上是一种语义网络。语义网络的核心是以图的方式存储知识并向用户返回经过加工和推理的知识。知识图谱的研究和应用,可分为基于广度的通用知识图谱和基于深度的领域知识图谱。通用知识图谱,主要由各大搜索引擎公司,如Google、百度、搜狗等领衔研究,主要目的是改善搜索体验,直接给出目标答案;而领域知识图谱,则可根据领域特定的情况,有着变化万千的应用。本文将主要讨论领域知识图谱在证券行业的研究和应用。

证券行业正面临着数据爆炸的问题。传统的金融数据服务商,历时数十年,已收集整理了大量高质量的结构化数据,并以分门别类的方式,展示给用户。如何有效的使用这些数据,则需要用户具备专业的金融经济知识,深刻理解某个数据的变动可能引发的关联、传导效应,从而帮助用户做出各种投资决策。金融行业的研究人员,相当于在大脑里存储/训练了一个知识图谱,将相关的行业、产品、公司等各种因素联系在一起,当观察到某个数据变量发生变化的时候,则可以分析推理出各种观点和预测。然而,一个人的脑容量/记忆是有限的,一个专业的行业分析师通常只能对几个行业了如指掌。因此,对市场进行全行业的分析服务则需要一整个分析师团队,从宏观,到各个细分行业。通过人与人之间的交流,以及研报与研报之间的关联和对接,来实现整个经济金融体系的传导与联系。近年来非结构化数据的井喷式涌现,给这种传统的运作方式带来了挑战。财经新闻、经济产业讯息每时每秒都在更新;上市公司的数目众多,所涉及的定期报告、临时报告数量巨大;基于互联网平台的股吧、论坛、门户网站、微信、微博等每时每刻也在产生着大量的资讯,上述信息都将可能对证券市场产生各种各样的影响。这使得在信息爆炸的时代,从海量资讯触发源上,以及分析数据所需的知识的广度深度上,均对传统的资讯处理模式,提出了极大的挑战。

现代信息技术人工智能的发展,已经可以在很多方面提高信息分析和利用的效率。对结构化数据的分析挖掘,已经取得了很多进展,很多成熟的分析预测算法还是针对结构化、关系型数据的。然而,非结构化数据的分析挖掘和利用,尚处于起步阶段。领域知识建模在方法论上的正确性,是决定人工智能应用成功与否的最关键因素。当前“知识图谱”作为领域知识建模的工具正在受到越来越多的重视。基于知识图谱的领域建模、基于规模化大数据的处理能力、针对半结构化标签型数据的分析预测算法三者的结合,是人工智能的优势所在[1]。构建证券领域知识图谱作为证券文本语义理解和知识搜索的关键基础技术,为未来证券领域文本分析、舆情监控、知识发现、模式挖掘、推理决策等提供了坚实支撑。

blob.png

2.金融知识图谱技术实践

金融领域的知识图谱,与其他专业领域图谱相比有着很大的不同。金融领域本就是连接各行各业,世间万物的,因此金融知识图谱中涉及到经济、投资、产业、公司等相关的知识,其实是覆盖全行业的。但金融领域知识图谱,与通用型/百科类知识图谱不同,其行业、产业链知识,经济金融重要指标等大多是以投资的视角来筛选和组织的。

连接万物的金融知识图谱

金融知识图谱常见的实体包括:公司、产品、证券、人等等。实体间的关系,如公司-人之间,主要有股权关系和任职关系;公司-公司间关系,有股权关系,供应商关系,竞争关系等等;公司-产品间关系,有生产关系,采购关系等等;产品-产品间关系,主要有上下游关系等等。这其中,有些实体和关系,可以自动抽取生成。如公司-公司间的股权关系,公司-人之间的股权关系和任职关系,均可来源于工商局注册登记公开信息,其结构化程度很高,实体、关系抽取难度不大。而产品-产品间上下游关系,则很难有系统性的半结构化数据源,其实体和关系呈碎片化分散在百科类网站、研究报告、专家资料等文本/图像中,这给抽取和甄别带来很大挑战。

blob.png

建立金融知识图谱可分为几个步骤:

(1)从海量异构非结构化数据中辨别金融实体;

(2)定义并挖掘金融实体间的各种关系,从而生成知识图谱;

(3)定义并表达业务逻辑,在知识图谱上实现各种具体任务,如推理等等。

实体-关系抽取

实体-关系抽取技术,是信息抽取研究中的重要课题。其主要目的是将非结构化的文本数据转化为结构化或半结构化信息。即:从文本中抽取出特定的实体(Entity)信息,如时间,人物,地点,公司,产品等等;以及实体间的各种关系,如地理位置关系,雇佣关系,股权关系等等。实体确定了知识图谱中的点,而关系则确定了点与点之间的边。

常用的实体关系抽取方法,有基于专家知识库的方法,和基于机器学习的方法等等。基于专家知识库的方法需要专家构筑大规模的领域知识库,这需要大量专家劳动。机器学习算法需要构造特征向量形式的训练数据。然后使用各种机器学习算法,如支持向量机等作为学习机构造分类器。这种方法被称作基于特征向量的学习算法。

构造领域知识图谱,通常来说,会从大量特定类型的文本(尤其是高质量,模板化的专业资料)中来提取实体关系。这类文本,或者是半结构化,或者是模块格式相对明确固定的,例如上市公司公告的XBRL格式数据。这类规范化数据源,降低了信息提取的难度,大大提高了知识提取的准确度和效率。对于非结构化文本,实体识别和关系抽取需要基于NLP算法,以及深度学习算法(例如,用词向量的方式寻找近义词,提高实体模糊识别的准确度),是一个反复迭代不断精进的过程。其中,关系抽取,可以划分为确定类型的关系抽取,和不确定类型的关系抽取。确定类型的关系抽取,例如“is-a”关系,可使用语法模式抽取固定模式,使用迭代方法扩展“is-a”关系,并对生成的“is-a”进行清洗。不确定类型的关系抽取,常基于NLP将目标实体间的谓词提取出来作为候选关系,再进行下一步的筛选鉴别。

基于知识图谱的推理

基于领域知识图谱的推理,与业务场景息息相关。基于通用知识图谱的推理沿边的传递性并不强,例如精准搜索常常只用到一步到二步的推理,再往下传递时,其可信程度将会大大降低。而金融知识图谱,在充分与领域知识相结合的前提下,是可以实现长链推理的。下面列举几个推理案例:

(1)关联关系推理。基于知识图谱中公司、人之间的股东、任职等关系,可以基于聚类算法发现利益相关团体。此时,当其中若干节点发生变动或大的事件时,则可以通过沿知识图谱路径查询或子图发现等方法来计算并绘制发生变动的实体间的关联情况,帮助监管层发掘潜在的关联或违规行为,大大提高关联发现的效率。

(2)产业链关系推理。基于产业链知识图谱,可模拟经济学的涟漪效应:某产业链下游销量大涨,对整个产业链中游、上游的拉动,是非常显著的,且可以沿图谱用量化的方式建模并形成自动化推理传导模型。同样的,上游原材料成本的上涨,对于产业链中下游也可能形成链状的传导效应。这将帮助判断事件的重要程度,并即时给出事件的影响范围和程度,为各类投资决策做数据支持。

领域知识图谱数据库选型

构建领域知识图谱底层数据库,有相当多的选择。从传统的关系型数据库,到NoSQL,到图数据库;或是专一的采用一种数据库,还是多种数据库相结合,这些都是开始研发领域知识图谱前需要反复斟酌考虑的问题。这个问题,并没有统一的答案。数据库的选型,需要充分考虑领域数据自身的特点(以结构化数据为主,还是非结构化数据为主),以及如何使用这些数据(比如,是否经常需要沿图谱进行推理,推理路径长短等等)。通常来说,Neo4j等图数据库擅长长链推理,但对单位基础数据的日常维护较弱;MongoDB、HBase等NoSQL数据库擅长处理文本类非结构化数据,对于传统数值型数据的很多处理则需要额外写代码维护;MySQL等传统数据库,擅长处理和维护结构化数据,在面对沿图谱进行推理等应用则需要比图数据库更多的代码量。

领域知识图谱系统架构示例

最后,从工程实现上来谈,图数据库使用频率和相关人才储备远低于关系型数据库,如果选用图数据库作为主要的底层数据库,研发团队可能经常需要面临无人可招和遇到问题搜遍网络都无帖可解的窘境,即,整个系统工期规划会难以预估。

构筑金融领域的知识图谱,是一个即有着大量结构化数据,又需要整合非结构化文本数据讯息,同时需要沿图谱进行推理的综合性项目。传统的金融数据供应商长期积累了大量结构化数据,例如价格、营收、利润、销量等数据,均为长时期时间序列格式。这与通用型知识图谱相比,呈现出很大的不同。因此,在具体的数据库选型时,需要充分考虑未来的应用将以何种方式何种频率使用各类数据,从而打造出因地制宜的高效底层数据库。

3.应用场景及展望

知识图谱在金融、证券行业应用目前在国内尚处于起步阶段。如果能基于知识图谱技术框架,建立起一个全谱系的上市公司关联图,并将其直接关联、间接关联的各种实体、概念相联系,将极大的帮助证券行业监管层、投资者及其他各种参与者了解并把握市场的脉搏。而在具体业务应用方面,当监控到市场价格出现波动时,可以就股价出现异动的股票在知识图谱中追溯其异动产生的根源;挖掘学习实体之间的隐含关系,来发现潜在的关联与协同动作以预防并打击违法违规行为;自动学习并抽取公告摘要,快速传递并汇总全市场披露的动态信息,以减少信息不对称性并加强证券市场的透明度。

下面以智能投研为例,阐述金融知识图谱在其中起到的重要作用。

这里的智能投研,其定义参考文献[2]“使用人工智能技术进行市场数据及基本面分析并向顾客推送分析结果”,属于广义的智能投顾。其中,使用人工智能技术进行与客户的自然语言互动(即“智能客服”),也可基于同一套技术体系。

智能投研专注于对信息特别是基本面信息的采集和分析。这一领域的技术发展,经历了基于热词、基于情感倾向和基于领域知识图谱三个发展阶段。基于热词的基本面分析,从后验看确实在一些局部做到了先知先觉,但是事前很难知道是哪些局部,所以实用性并不强。自从学术界发现了Twitter上的舆情统计指标与大盘的高度相关性,基于情感倾向的智能投研技术开始逐步向实用环节有所渗透,但专业投资团队对这种技术并不满意,因为大多数情况下,情感倾向的指向性并不精准,而无情感倾向的事实陈述(比如天气状况)却可能经过产业链的传播,在意想不到的落脚点(比如期货)产生对投资判断的关键影响。所以,对智能投研技术的实用化来说,自然语言处理和产业链、作用链的知识图谱建模是最关键的技术[2]。

具体而言,通过构造上下游产业链知识图谱,基于经济基本面建立传导模型。当产业链中重要节点的状态发生变化时,将启动沿产业链传导推理引擎,自动给出影响范围、对象和程度,为事件引发的基本面分析做支持。这种做法,其实是Fundamental analysis 向Quantamental 形式的转变,把基本面数据以及逻辑进行量化。不同于技术分析,基本面分析本身是一个非结构化的方式,无论是数据,还是市场逻辑。基于金融知识图谱和推理逻辑,把这些基础数据进行整合加工,从而找到未来趋势的变化或者解释已经发生过的事情。从局部来看产业链知识图谱,里面各种实体、属性、关系,就像活细胞一样,相互关联影响作用着。这是金融知识图谱+推理链的共同作用的效果。图5为橡胶-轮胎-重卡产业链局部示意图。当发生“重卡销量大增”事件时,可沿产业链向上游进行传导推理,并生成分析影响报告。

blob.png

基于金融知识图谱,还可在智能公告方面展开应用:上市公司公告,是上市公司信息披露尤为重要的组成部分,即时披露了上市公司的最新动向以及各种属性变动。因此,基于公司基本属性与关联关系所生成的知识图谱,更多的是描述某一个时刻公司的整体状态;而公告知识图谱,则是各种事件/概念的集合。前者以现实世界中的真实实体为主,建立实体间关联,并维护其属性值;后者则以事件和概念为主,描述了各种事件的组成部分,包含了哪些主要概念,涉及到哪些重点披露的属性。这两者之间存在着关联和映射的关系,其相对应的属性值可依据关联做交叉验证和时序演化,需研发跨领域图谱关联分析和挖掘算法。具体应用方面,可以做公告摘要、关键词抽取、事件统计、事件演化、关联挖掘等等。

上市公司知识图谱和公告概念图谱

总的来说,基于金融知识图谱的应用,有如下三大特点:

(1)广覆盖

广泛覆盖全量信息源,覆盖宏观、中观、微观各维度信息,覆盖上市及非上市公司,以方便后续算法拓展所有可能的深度关联关系。

(2)深加工

基于知识图谱与智能推理链,实现从数据到智慧的深加工。

(3)浅表达

以可视化的方式和自然语言与用户交互,一目了然,受众更广。

然而,领域知识图谱对专业知识的基础需求,远远大于通用型知识图谱。在建设初期需要大量的专家工作。基于此,可以尝试从两个方面入手来构筑大型领域知识图谱:

(1)建立新的协作方式:开启知识众包时代。构建用户友好的知识众包协作平台,使得专家能很方便的利用碎片化时间在平台上贡献自己的知识,同时设计相应的知识回报模式。就平台自身而言,如何设计自动内容校验和精华内容提取算法,从大量专家碎片化知识中提取重要内容以添加到“主图谱”中,是一个需要长期不断探索的课题。

(2)构造“活”的知识图谱:知识自动抽取,自动生长。

“活”的含义有三:

一是持续不断有消息的输入;

二是可以沿知识图谱定义的作用链进行自动推理;

三是知识图谱自身可以背靠大数据,在“人工+自动”模式下自我生长。

这两个方面,需相辅相成,相互交叉验证,共同支起领域知识图谱的构筑的大任,从而真真正正的将海量非结构化信息自动化利用起来,成为领域应用决策的坚实支持。

4.小结

本文首先探讨了金融知识图谱在证券行业所能发挥的重要作用,然后在知识图谱技术实践方面展开阐述与介绍,最后就金融知识图谱在证券行业实际应用案例和面临的挑战进行了讨论与展望。知识图谱作为证券行业人工智能进程中尤为重要的关键技术之一,需要行业专家与人工智能专家通力协作,从而一同构建自动化高效利用海量非结构化数据的基石。

【责任编辑:橙君】