全文2419字 | 大概阅读时间 10 分钟
2018年,谷歌放出了BERT。全称叫做 “Bidirectional Encoder Representations from Transformers language model”,简单点说,就是个双向编码器的语言模型。
当时,这项目是人工智能领域的一大革新。对于科技控来说,它意味着人工智能终于能够跟人类一样理解自然语言了。
BERT里的“T”代表着Transformers,是一种深度学习架构。这个概念最早出现在谷歌2017年的一篇论文里,标题叫做“Attention Is All You Need”。
起初,谷歌研究团队只是想要改进Google翻译技术的。但后来,这项研究成果被认为是引领现代人工智能浪潮的标志。其背后的原因,正是因为 Transformers 架构是支撑着大型语言模型(LLMs)的主要基石。
不过,很多人可能不知道,就在那个时候,有一家创业公司也在关注着谷歌的这项研究成果。为了保持初创公司的竞争力,他们深度剖析,研究了谷歌的BERT。
再后来的后来,这家公司在2022年底推出了一款产品,叫做 ChatGPT……
就像英文里常用的那句话:the rest is history。
金融研究,RMS与AI
资本市场早就开始探索「人工智能」和「大语言模型」在哪些领域能派上用场。而其中一个明显的领域就是投资研究。
我们都知道,研究领域既有供给方也有需求方。而AI恰好能够完美地满足这两边的需求。
对于一份长达几百页的研究报告来说,如果能在短时间内把里面的数据摘出来,并且让读者能够快速概述和查看数据,那堪称完美。
而且,AI还能够提出更高级的问题,把不同的名字和不同的数据、供应链联系起来。使用场景和商业潜力,是巨大的。
对于研究内容的生产者来说,他们也有一系列的问题希望得到回答。比如,他们的研究是如何被使用的,有谁在使用,使用的程度和深度如何,以及他们分享研究的方式。这些问题的答案无疑是极具价值的。
2021年,我在某个项目中曾经触过一家叫做 Verity 的公司。他们专注于研究管理系统,也就是我们经常说的 RMS(Research Management System)。
这家公司是由 MackeyRMS 和另一家文本数据公司 InsiderScore 合并而成的。到了2023年,他们利用 LLM 做了一些有意思的事情。比如让研报读者不必过于在意他们想要的内容,而是利用AI去主动阅读和理解研究标的的文献,并提出相关的重要内容。
按照他们的CEO Andrew Robson的说法,这是RMS系统从第三代进化到第四代的重要转变。第三代 RMS 系统主要是为了收集和整合数据,而第四代则是在原有基础上,增加了推荐和提醒的功能。
Verity 对于 AI 的投入和研究,其实背后还有业内的小故事。在2023年的第一个董事会上,其中一位董事提到他自己的创业公司有在用 ChatGPT 作为生产力工具。
这启发了董事会对AI的商业兴趣。会后,他们迅速组建了一个小团队,召集了来自产品组、工程组和投研部的成员们。
他们的第一步,就是研究可以用于研究管理系统的场景,并开始打造产品的雏形。
从极简的第一步入手,他们把雏形产品定位在「阅读总结 Documents Summarization」这个细分领域里。
在产品初期的开发中,他们意外地发现整个开发流程效率因为AI而得到大大地提高。几周之内Beta版本就出来了,而且质量达到了内测标准。
到了2023年夏天,他们已经进入了「内容产生 Generating」和「打标签 Tagging」这两个流程。
Verity 本身就已经拥有成熟的标签机制。但在实际操作中,他们发现 AI 大幅度地提高了效率。例如,如果用户发布了一份研究报告,但里面没有引用公司的股票代码,比如耐克的「Nike」,系统可以创建metadata,并将它与NKE股票代码进行自动关联。
AI 与 Research 的结合在资本市场并非新鲜事物。
在LLM成为华尔街的新关键字之前,「深度学习」和「自然语言处理」其实在很早就已经被关注和开发。
早在 1996 年就上市的老牌系统公司 FactSet ,在这方面已有一些研究。
在2023年年底,他们悄然地推出了一个叫 Factset Mercury 的测试版,让用户可以通过聊天对话框的方式去查询数据和监管条例等。这有点像微软的Copilot。不同的是,它专注于研究员的使用场景。
比如在季度盈利电话会议之前,用户可以通过这个功能去把历年的环比收入给自动做成一个表格,方便分析师对高管进行提问。
Factset 的产品 Roadmap 应该很清楚。
Mercury 可能只是一个初期产品。他们高管在一次分享中说了 AI 策略的三个方向:
- 广泛的发现能力mile-wide discoverability
- 深度的工作流自动化mile-deep workflow automation
- 高层次的创新加速mile-high innovation acceleration
类似 Factset,我之前接触过的另外一家公司 AlphaSense,也是在公司初创期2015年的时候,就把深度学习刻写在产品的 DNA 里。
他们的 VP Chris Ackerson 也分享过,BERT 是这个领域的重要突破。他们把自己的深度学习模型全部迁移到 BERT 的架构上。
之前那些语言模型虽然已经足够庞大了,但2022到2023年的发展,让整个模式可以吸收的知识量达到了指数级别的提升。这对于 AI 的开发方式和运用,是被迫地进化,而不是一个顺其自然的演变。
当谷歌发布BERT的时候,他们提供了代码和一个可下载的模型。
该模型已经用维基百科进行了 AI 训练。还让 AI 在一个叫做「BookCorpus」的数据库上进行学习。这个维基百科和数据库加起来,大概有300万字左右。
得益于谷歌提供的福利,任何个人和机构都可以进行免费下载。而且,不用再去做那些昂贵,繁琐重复,而且还要耗尽GPU资源的巨型训练过程。这造福了一大批提供NLP产品和服务的公司。他们可以基于谷歌的模型,更有效地进行版本迭代和新产品推送,效率得到大大地提高!
AlphaSense 的 Chris Ackerson 之前在著名的 IBM Watson 担任过要职。在他眼里,AI 的进化让新模型能够实现比前辈们更多的功能。
BERT 的语言模型在情感分析(Sentiment Analysis)和分类任务(Classification Task)上确实表现良好。但是,文本生成能力其实很一般。
然而随着数十亿或百亿参数的模型的诞生,这个领域就迎来到了重大的突破。
在2022年,AlphaSense 将竞争对手 Sentieo 收购了下来。Sentieo 的主打产品是云端 RMS,主要用户群体是投资经理和买方分析师。
早在2021年,AlphaSense 还收购了 Stream,一个提供大量专家访谈原稿的公司。Stream 上涵盖了海量的专家访谈,并全部为文本格式。
通过整合 Stream 的内容,AlphaSense 的市场情报的达到超过1,000个卖方研究提供商、市场新闻、贸易期刊和监管信息等信息。他们利用AI来组织所有内容和数百万份文件,并提供搜索功能。
虽然有一些公司用第三方机构的服务来搭建自己的AI技术,但 AlphaSense(AS)却选择了自己从零开发。
有点像彭博的 BloombergGPT,AlphaSense 的 LLM 更专注于垂直领域的智能培训。它能够在专业领域里进行训练,可以理解金融语言、资本市场和业务背景之间的复杂性和细微差别。也是因为自研开发,AS 可以细调各种问题和答案的属性,让 AI 的答案更符合用户专业领域的场景。
这里值得一提出是,彭博的 BloombergGPT 已经在最近发布了 AI 驱动的财报电话会议摘要应用。这应该是 AlphaSense 和 Factset 在努力试着推出的功能。
总结
无论是国内机构,券商,还是国际上的金融数据供应商,大家都在AI与研究领域投入了不少资源和研究。虽然这看起来是一个相对简单的领域,但真正要做出让金融从业者满意的产品,恐怕还需要一段时间。金融领域之所以无法太过快速地发展,最主要的原因还是因为终端用户对准确性的要求极高。ChatGPT 或许可以“幻想”出一些结果,它永远都能给你结果,但在金融领域,任何“幻想”都可能造成不可预测的后果。
~ 全文(完) ~