柴洪峰:《大模型赋能金融科技思考与展望》
2025-03-15 13:13:41
作者:柴洪峰(中国工程院院士,复旦大学金融科技研究院院长、教授)
随着金融科技的蓬勃发展,金融行业正经历着一场革命性的变革。金融垂直领域模型构建与金融数据的结合成为推动金融科技创新和发展的重要动力。通过整合跨学科研究和系统方法,能够探索金融系统的整体性和复杂性,超越单点技术突破,从而推动金融科技的突破性进展。大数据、人工智能和机器学习等技术的发展,使人们能更快速、高效地获取、分析、存储、共享和整合各种异构数据。然而,金融垂直领域的大模型应用仍面临一些挑战。金融数据和知识的私密性限制了共享和构建大规模数据集的能力。此外,金融数据的多模态特性增加了模型处理和建模的复杂性。为了克服这些难题,加强产学研的合作势在必行,共同构建更强大的金融垂直领域基础模型,提升大模型对多模态数据的表达能力。
一、构建金融垂直领域模型:金融数据与通用大模型的结合
金融科技的崛起正在改变金融行业的面貌,实现金融科技突破对于推动金融领域的创新和发展至关重要。而整体思维和系统认知是实现金融科技突破的首要前提,金融系统是一个开放复杂巨系统,已经很难依靠“点”上的技术突破实现整体提升。所以需要将跨学科的研究和系统方法作为解决重大关键问题的首选项。
系统认知就是要从系统要素构成、互作机理和耦合作用来探索问题的解决途径。金融与实体经济是一个生命共同体,金融领域的科学突破必须突破单要素思维,从资源利用、运作效力、系统弹性和可持续性的整体维度进行思考。
数据科学和信息技术是金融领域的战略性关键技术,数据科学和分析科技的进步为金融领域的研究和知识应用提供了重要的突破机遇。大数据、人工智能、机器学习等技术的发展提供了更快速的收集、分析、存储、共享和集成异构数据的能力和高级分析方法。数据科学和信息技术能够极大提高对复杂问题的解决能力,在动态变化条件下,自动整合数据并进行实时建模,促进形成数据驱动的智慧管控。
人机混合智能技术将成为推动金融领域进步的创新驱动技术。人机混合智能技术包括自然语言处理、机器学习、计算机视觉、语音识别和智能推荐等多个领域。这些技术的发展使得人和机器间的交互变得更加智能化,人机混合智能在金融领域的应用也越来越多,最新的大模型技术,如ChatGPT、MOSS、ChatGLM等,是和目前的金融垂直领域结合的热点。
金融数据底座的构建可以包括各类金融实时数据,各类需解析的文档数据、各类非结构化数据以及信息高度浓缩文本。通过庞大的金融垂直类数据为金融大模型提供数据支撑。
对于金融垂直领域大模型的构造需要解决的关键问题有如下三点:
1.多源、异构金融数据金融数字底座构建、金融数据安全共享使用。
2.金融数据底座与大模型的融合技术,解决通用大模型在垂直领域知识匮乏、知识关联问题,同时实现模型根据数据实时更新、不断迭代。
3.基于金融科技底座的大模型对于金融科技多领域的应用赋能,展现金融垂直领域涌现能力。
然而目前大模型在金融垂直领域仍未挖掘出涌现效应,一方面是由于金融数据及知识的私密性导致难以共享,无法构建一个庞大的数据集,对此可以增强产学研的联动性,共同构建更强的金融垂直领域基座模型。另一方面由于金融数据模态更多,难以进行统一的处理建模,而如今的大模型对此种多模态的表达能力仍有待加强。
二、关于知识图谱与大模型的融合:知识驱动与数据驱动的交互
在过去的研究中,我们构建金融知识图谱系统,其过程多为从研报、财报等各类非结构化文本信息中抽取多源异构知识,通过实体对齐、实体消歧等知识融合方法完善庞大复杂的金融知识图谱,并通过分布式图数据库存储图数据,便于后续分布式图算法的开发与应用,这些已构建的金融知识图谱在大模型时代仍有其不可替代的应用。
三、关于金融大模型的监管:从安全角度解决大模型的部署问题
金融数据和垂直领域大模型密切相关,存在数据安全、大模型安全可信和伦理等问题,同时金融领域也涉及敏感信息和决策,因此对于金融大模型的监管必不可少:
1.建立监管框架与标准,确保大模型在金融领域的应用符合法规与道德要求,通过政产学研的合作制定相关的政策和指南。
2.对于金融大模型的部署与使用,需要协同共治,提升透明度,保证数据质量和可解释性的机制。这可以帮助用户与监管机构理解模型的决策依据,并确保其不带有偏见或歧视性。
3.监管机构还应加强对于金融大模型的审查和风险评估,对于关键人物和系统,应建立审查和测试的机制,确保其性能和安全性。
具体来讲可分为数据安全与版权安全两个方面:
数据安全:
a.大模型的复杂性和规模增加了攻击者进行攻击的可能性。同时,大模型的训练过程涉及更多的数据和计算资源,这也无恶意攻击者提供了更多的机会来入侵和篡改数据模型。目前大模型极易通过对抗攻击、后门攻击、模型窃取等手段而遭受威胁,需要寻找有效的方法规避风险。
b.大模型在辅助金融场景知识问答的过程中,由于无法对用户身份进行识别,容易产生高等级或机密信息泄露等风险,需要对大模型训练过程中的数据安全等级做严格的界定。
版权安全:
在金融垂直领域大模型开源的情况下,被恶意窃取并进行微调的现象时有发生,可利用特定的数据进行输入,模型识别到这一特定的输入,就会给出不同于正常类的输出,通过这一行为来判断模型的归属问题。
作者简介:
柴洪峰:中国工程院院士(金融工程领域的唯一院士),复旦大学金融科技研究院院长、教授,博士生导师,电子商务与电子支付国家工程实验室主任,金融科技研究中心负责人,中国互联网金融协会移动金融专业委员会主任委员,上海区块链技术协会学术委员会总顾问。享受国务院政府津贴专家。1986年10月,任国家外汇管理局信息中心副处长;1994年2月,任中国外汇交易中心副总工程师兼工程技术部总经理、副总裁(副局级);2000年,获西南财经大学国际金融专业硕士学位;2001年8月,任中国银联股份有限公司执行副总裁;2015年,当选为中国工程院院士。2021年10月,加盟复旦大学。柴洪峰长期从事金融信息工程领域研究,专注金融交易机制设计、金融系统信息化工程研制建设和工程管理。主持并从事研制建成了银行卡信息交换系统、全国银行间同业拆借系统、国债交易和结算系统、中国黄金交易系统和中国外汇交易系统等多项国家级金融改革重大信息工程,为推动金融领域信息化建设和银行卡产业整体发展做出了重要贡献。柴洪峰曾获国家科技进步二等奖(1996年度、2014年度)、中国人民银行银行科技发展特等奖(2007年度、2015年度)、中国人民银行金融科技进步一等奖(1995年度)、中国人民银行银行科技发展一等奖(2002年度、2013年度、2014年度、2015年度)、上海市科学技术奖一等奖(2009年度、2013年度)、中国标准创新贡献一等奖(2018年度)、党政机要密码科学技术进步一等奖(2018年度)、全国信息安全标准化技术委员会标准化工作先进个人(2022年度)等。
邀请老师演讲、授课请致电:19821197419 阎老师[微信同号]
免责声明:以上内容(包括文字、图片、视频)为用户上传并发布,本平台仅提供信息存储服务。如涉及版权问题,请联系我们并提供版权证明,我们将立即删除!