图片 2

华尔街的矿工们通过机器学习来降低订单的市场冲击

由中国人工智能学会主办,网易科技、网易智能、网易本地、江南大学等共同承办的“人工智能高峰论坛”在无锡华邑酒店正式开启。会上,江南大学博导、科研院院长吴小俊先生做了主题为《大数据时代的人工智能:人工智能的发展是否存在局限》的演讲。

对于Buy
Side的矿工(quant)来说,由于其交易体量太过巨大,一个重要的研究内容就是如何能够理解和掌握自己公司的交易对市场价格的影响,也就是所谓的“市场冲击”,并把这种冲击降低到最低。很多时候人们都把大额的交易比作“把大象推入游泳池”
,避免市场冲击就自然被比作避免“大象入水”的水花了。

导读:大数据、人工智能是目前大家谈论比较多的话题,它们的应用也越来越广泛、与我们的生活关系也越来越密切,影响也越来越深远,其中很多已进入寻常百姓家,如无人机、网约车、自动导航、智能家电、电商推荐、人机对话机器人等等。

吴小俊称,我们每天都面临大量的不同的数据,这个数据量的增长速度也非常快,事实上我们对大数据的理解,无论是政府还是学术界,大数据事实上在中国某程度上存在被滥用的现象。大数据非常的复杂,它所面临的挑战也会非常多。大数据给了我们挑战的同时,事实上也给了我们很多的机遇。

过去人们如果想要了解一个大额交易可能会带来的市场冲击,一般会从历史的交易数据中寻找答案。但是当大家仔细研究就会发现,历史上的交易很少能够有很类似的结果/影响,而且即使新交易和过往交易之间存在相似之处或一定的模式,有时候这种关系也过于微妙或变化太快,以至于交易者很难发现和把握。

大数据是人工智能的基础,而使大数据转变为知识或生产力,离不开机器学习(Machine
Learning),可以说机器学习是人工智能的核心,是使机器具有类似人的智能的根本途径。

在吴小俊看来,大数据和人工智能,让我们面临一个非常矛盾的问题,一方面我们的数据量大、复杂,数据的关联,深度学习是非常复杂的模型,这种大的模型得到了非常令人惊喜的效果,比如说AlphaGo,还有翻译系统,这都是深入学习带给我们的新变化,但是这两者事实上是有一些矛盾的,因此学术界最近正在向这两者融合,如何找到既简单又很高效的大数据处理方法?我想,人和机器协同工作,会使得我们大数据的问题得到解决。

正因为如此,类似于彭博(Bloomberg),摩根大通(JP
Morgan)和Portware等公司已经转向机器学习模型寻求答案。负责摩根大通欧洲、中东和非洲的算法研究负责人David
Fellah表示:“只有当我们具备了硬件技术,更快的机器学习算法,以及对市场冲击的作用模式的更好理解之后,我们才能够把这些因素综合起来并加以运用。”

本文主要介绍机器有关概念、与大数据、人工智能间的关系、机器学习常用架构及算法等,具体如下:

吴小俊称,人工智能的主要技术都可以在物联网当中得到很好的应用。有人认为,聚类对我们大数据的分析非常重要,因为我们的大数据当中大部分数据都没有标签的支持。当然这个聚类分析既是一个老话题又是一个新话题,因为面对我们的大数据聚类实际上非常复杂,我们很难解决。“如果认为现在的大数据的聚类方法跟过去是一样的,那是一个大的错误。我们会有一些新的方法和要求,比如说我们用了一些分布式的算法,我们还可以对大数据进行适当的分类。”吴小俊说到。

机器学习算法可以从几个方面帮助矿工(Quant)们解决“大象入水”的水花问题。一方面,它可以对传统的市场冲击模型起到补充作用。比如说人工智能算法可以帮助人们从稀疏历史数据中挤出更多信息,或帮助人们确定订单流(Order
Flow)中的非线性关系。

机器学习的定义

对于人工智能的发展,吴小俊通过对近年来的一些人工智能的期刊和会议做了一些归纳和分析,发现现在很多主流的人工智能期刊的会议都被深度学习给霸占了,所以使得做原来一些传统研究的人无所适从。深度学习需要海量的计算资源,如何得到比较简捷的资源呢?如何得到更好的模型呢?这将是未来一个很好的方向。

另一方面,在更大胆的应用下,机器学习算法可以用来创造出交易机器人。这些机器人可以教会自己如何对市场变化做出反应。这两种方法都已经在实践中被应用了,而它们所带来的交易成本的节省是十分惊人的,尤其是对那些交易非常频繁的大型基金。

大数据与机器学习

吴小俊称,大数据的人工智能有很多视角,今天我仅仅是给出了非常有限的视角。现在这种简单暴力的模拟事实上是离我们完整的模拟和超越还有非常多的路要走,深度学习应该说也不是人工智能发展的唯一——比如说有人最近提出了宽度学习这样的问题。

据Capital Fund Management研究主管Jean-Philippe
Bouchaud介绍,对一个系统性基金来说,市场冲击带来的成本可能会侵蚀掉多达三分之二的交易收益。一名对冲基金的订单执行专家说,该基金每年由不利市场冲击带来的成本达到约100万美元,约占税前利润的十分之一。

机器学习与人工智能及深度学习

吴小俊说到,爱因斯坦曾经说过,他说任何事情都是越简单越好,直到不能更简单。我们在寻找大数据挖掘发展的时候既要找到简单,同时也要有效的方法。

摩根大通的Fellah同时表示,交易员业绩表现的上限和下限之间通常也只有两个基点(bps):“如果你可以把一个算法的表现提高哪怕几分之一个基点,你的收益就会有很大的不同。”
这主要是由于目前市场上由算法交易的订单数量占绝对多数的原因。

机器学习的基本任务

据悉,吴小俊从事模式识别与人工智能方面的研究,主持国家精品课程《人工智能概论》和国家双语示范课程《人工智能》的建设工作。

目前主流的机器学习技术包括聚类分析(无监督学习),贝叶斯回归,随机森林和强化学习等监督学习技术。聚类分析(Cluster
analysis)首先在70多年前作为宽泛的统计技术被开发出来,用于识别复杂数据中难以觉察的相似之处。贝叶斯回归(Bayesian
regression)和随机森林(Random
Forest)是预测技术,给出既定场景的出现概率。强化学习的目的是通过许多模拟来训练所谓的人工智能(AI)单元,以在特定的情境下选择最佳的行动方式。

如何选择合适算法

图片 1

虽然这些技术本身并不新鲜,但随着人类计算能力和可用数据量的不断增加,它们的应用场景也不断增加。当然人们对市场冲击和人工智能的理论认识不断向前迈进,也是其应用越来越广泛的原因。

Spark在机器学习方面的优势

以下为吴小俊教授演讲实录:

彭博正在使用聚类分析来填补用于校准传统参数模型的数据的空白。这些看起来很基础的模型仍然在行业中占主导地位。虽然与之一起使用的已经是很复杂的工具了,但这些模型还是被迫依赖于稀疏的历史数据。例如彭博的流动性评估工具——LQA。它首先将债券分成直观上类似的大类组合,然后应用聚类分析确定每个大类中最为可比的产品。每种债券都是根据一系列共同特征进行定量测量的,例如货币种类,期限,到期日和未偿还金额。这些衡量指标确定某一个债券在多维向量空间内的位置。

01 机器学习的定义

吴小俊:谢谢主持人对我的介绍,我来自江南大学。大家都知道在大数据我们有很多的机遇,比如说美国的智慧地球、联合国的全球大数据脉动以及我们中国提出来的感知中国,实际上这都会给我们的大数据提供很多的机遇。所以我今天主要谈一谈大数据当中人工智能的一些思想,以及通过大数据时代下人工智能的若干视角,对人工智能未来的走向做一些判断。

例如,交易500手的一种不活跃的美国国债(obscure
bond),LQA将在多维向量空间内寻找与该国债“距离最近”也就是最为相似的债券。
然后LQA将使用它们的组合数据池来校准模型参数,从而达到解决历史数据稀疏的问题。

机器学习是什么?是否有统一或标准定义?目前好像没有,即使在机器学习的专业人士,也好像没有一个被广泛认可的定义。在维基百科上对机器学习有以下几种定义:

我这个PPT是临时做的,所以非常不好意思。因为我考虑到今天有部分国外的嘉宾,所以我也采用了中英结合的方式来介绍。

最初,彭博自己尝试了聚类分析,在聚类上构造线性回归模型以估计预期成本。但这并没有给他们带来预期当中的结果。单纯的聚类分析很容易导致不稳定性,数据的微小变化就可能会带来聚类组合的意外变化。于是,彭博认识到了需要引入一个参数模型来增加模型的稳定性。

“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。

比如说我们每天都面临大量的不同的数据,这个数据量的增长速度也非常快,事实上我们对大数据的理解,无论是政府还是学术界,大数据事实上在中国大陆也是有一定被滥用的。大数据非常的复杂,如果说用现有的工具能够解决的话就不叫大数据了,所以事实上它的挑战是会非常多的。大数据给了我们挑战的同时,事实上也给了我们很多的机遇。世界上主流的媒体都对大数据给予了很大的关心,都进行了关注。在面向大数据时代的人工智能,主要是说我们有没有一些新的方法来处理大数据。实际上我们面对大数据、人工智能,我们面临一个非常矛盾的问题,一方面我们的数据量大、复杂、数据的关联,深度学习是非常复杂的模型,这种大的模型得到了非常令人惊喜的效果,比如说AlphaGo还有翻译系统,这都是深入学习带给我们的新变化,但是这两者事实上是有一些矛盾的,因此学术界最近正在向这两者融合,如何找到既简单又很高效的大数据处理方法。如果说你没有领域的知识,没有办法来处理大数据。包括大数据的数据资源比较丰富,但是因为太大了,所以会带来一些新的挑战,人和机器是协同工作,今后会一起工作,使得我们大数据的问题得到解决。

Bloomberg的量化研究负责人Naz
Quadri说:“聚类分析在某些应用中比其他应用更有效。“我们的研究表明,当用来评估结构性市场冲击时,聚类分析是最有用的,结果也更加稳定。”

“机器学习是对能通过经验自动改进的计算机算法的研究”。

我下面将从物联网、大数据的聚类、深度学习还有我们大家关心的人脸识别四个维度来解读一下我们大数据人工智能的新趋势。比如说我们大家关心的物联网,比如说我们的智能家居、智慧医疗、无人驾驶,这个地方有很多的人工智能问题,我们的物联网掀起了新的技术的革命和挑战,这个当中大数据、人工智能就是新的技术。在物联网当中的人工智能技术可以说无处不在,我们人工智能的主要技术都可以在物联网当中得到很好的应用。因为这个数据量非常大,我们如何进行分析呢?可能聚类是一个很好的方法,所以有人就给出了一个很好的观点,就是说聚类对我们大数据的分析非常重要,因为我们的大数据当中大部分数据都没有标签的支持。当然这个聚类分析既是一个老话题又是一个新话题,因为面对我们的大数据聚类实际上非常复杂,我们很难解决。如果说我们面对我们几百个聚类分析的算法,如果说认为现在的大数据的聚类方法跟过去是一样的,是一个大的错误。

与彭博不同,Portware和摩根大通则通过人工智能来更好的协助交易员选择交易的具体时机,以最大限度地减少市场冲击带来的影响。

“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”

我们会有一些新的方法和要求,比如说我们用了一些分布式的算法,我们还可以对大数据进行适当的分类。大家知道智慧城市涉及到非常多的数据,最主要的是如何为我们的市民、民生服务,这些大数据问题怎么办?这是我们遇到的一些挑战。比如说最近我们在做一些智慧医疗方面的数据处理,因为在医疗系统当中大家可以看到到医院去医生先不给你看病,先叫你做各种各样的检查,做了各种各样的检查以后再对各类数据进行分析。大家都知道现在的深度学习,我们也在研究深度学习,深度学习实际上是对我们大脑的一个很简单的模拟,我这个地方给出了一些我的理解和观察。比如说在深度学习当中最重要的模型就是CNN,这是一个保障,这个保障目前为止全世界的人都在挖这个金矿,每个人挖到的东西是不一样的,这方面我们也在做。这是我们江南大学的图象美景,我们运用深度学习来表示,这个方面很有意思。

Portware和摩根大通两家的市场冲击模型,都是从刻画历史交易对当前交易的市场冲击的影响作为起点。例如,在摩根大通的瞬时模型(transient
model)中,每个交易的市场冲击随着时间的推移而逐渐减弱。这样建模的目的是避免将交易安排得太紧密,从而导致订单叠加的市场冲击过大。

一种经常引用的英文定义是:A computer program is said to learn from
experience with respect to some class of tasks and performance measure ,
if its performance at tasks in T, as measured by P, improves with
experience E。

我对近年来的一些人工智能的期刊和会议做了一些归纳和分析,发现现在很多主流的人工智能期刊的会议都被深度学习给霸占住了,所以使得搞原来一些传统研究的人无所适从。我们总结一下深度学习的方向是什么,因为它需要海量的计算资源,如何得到比较简捷的资源呢?如何得到更好的模型呢?这将是未来一个很好的方向,我们也在里面做了一些工作。最后是讲人脸识别,在这方面我们也有遇到一些挑战,比如说姿态、光照、遮挡、表情、模糊、低分辨率的问题等等。我们面对这样的一些问题提出了一些方法,也就是说我们把深度学习、神经网络做了相关工作,同时我们把从深度学习当中获得的一些营养元素,我们对人脸的支撑做了一些研究,也得到了一些结果。有一个结果是这样的,比如说我们今年在夏威夷的一个全世界的竞赛当中我们获得了全世界第四名,我们的方法是唯一没有用深度学习的方法,这是感到振奋的。这个方面我们事实上还有一些其他的工作,我的学生和同事们在这个方面做了一些初步的工作,时间关系我就不一一介绍了。

这样的模型对流动性好的资产(如股票)效果很好,但其他资产类别可能就没有这么容易了。
Quadri表示:“我知道一些公司试图将瞬时模型应用在固定收益产品上,但是看起来在流动性较低的证券中不尽如人意。”

可以看出机器学习强调三个关键词:算法、经验、性能,其处理过程如图所示。

对于大数据的人工智能,我们遇到的挑战是很多的,比如说这个图象怎么用机器来理解?比如说这个裤子有几条腿,简单来看是3条腿,但是我们人通常是几条腿呢?我们是2条腿,所以这些方面我们遇到很多的挑战。还有比如说这个上面有几个台阶,这个图当中有几个人,你让任何一个现在最好的计算机算法来做都做不好,所以这个方面我们遇到的挑战是非常多的。人工智能的发现是否会存在极限呢?

这些模型被公司用来制定不同情境下的最优交易安排方案,然后使用贝叶斯回归或随机森林等监督学习技术来决定如何随着实际交易进度来调整这些最优的交易实施方案。

图片 2

这是一些主要的观点,最后我做一个简单的总结。大数据事实上从研究来看,应该说才刚刚开始,我们面对的挑战非常多。不是说业界的声音越大这个技术就越成熟了,事实上我们遇到了很多的挑战。大数据的人工智能有很多视角,今天我仅仅是给出了非常有限的视角。现在这种简单暴力的模拟事实上是离我们完整的模拟和超越还有非常多的路要走,深度学习应该说也不是人工智能发展的唯一。比如说有人最近提出了宽度学习这样的问题。

例如,Portware的贝叶斯回归方法可以随着交易的进行,使用多个人工智能单元来同时预测短期波动率,订单流和交易量。模型的输入变量包括市场数据,新闻和社交媒体数据。

▲机器学习处理流程

最后用爱因斯坦的一句话,他说任何事情都是越简单越好,但是不能再简单。我们在寻找大数据挖掘发展的时候既要找到简单,同时也要有效的方法。非常感谢网易给了我这样一个机会向大家分享,谢谢大家。

Portware的研究主管Henri
Waelbroeck说:“订单流的不平衡性实际上是相当可预测的。通过自回归模型可以预测到足够合理的精确度,但是我们发现使用非线性方法可以更进一步地提高准确性。”

上图表明机器学习是使数据通过算法构建出模型,然后对模型性能进行评估,评估后的指标,如果达到要求就用这个模型测试新数据,如果达不到要求就要调整算法重新建立模型,再次进行评估,如此循环往复,最终获得满意结果。