a tall building lit up at night

微软亚洲研究院

金融模型、LLMs结构化剪枝、多模态对齐、AI芯片深度学习编译器

分享这个页面

编者按:欢迎阅读“科研上新”栏目!“科研上新”汇聚了微软亚洲研究院最新的创新成果与科研动态。在这里,你可以快速浏览研究院的亮点资讯,保持对前沿领域的敏锐嗅觉,同时也能找到先进实用的开源工具。

本期,我们为大家精心挑选了4篇论文,内容涵盖金融市场元智能体模型、大语言模型的结构化剪枝、多模态感知中的模态对齐以及 AI 芯片的深度学习编译器,感兴趣的朋友快来看看吧!


本期内容速览

01. 通过扩展式模态,对齐推动多模态感知

02. 基于扩散模型引导的元智能体,实现可控金融市场生成

03. NutePrune:采用多个教师模型对大语言模型进行高效渐进式剪枝

04. T10:分布式内存AI芯片的计算新模式

01. 通过扩展式模态,对齐推动多模态感知

paper screenshot

论文链接:https://arxiv.org/abs/2407.17777v1 (opens in new tab)

感知(sensing)技术如今已被广泛地应用于各种领域。人们探索了许多感知模态,如运动传感器(IMU)、毫米波雷达、激光雷达、Wi-Fi、超声等。每一种模态都为感知世界提供了独特而互补的视角,因此人们通常同时部署多种模态感知。

在本篇论文中,微软亚洲研究院的研究员们提出了使用模态对齐的方法来进一步推进多模态感知。模态对齐是将多种模态的信号投射到统一的特征空间中,如图1所示。对齐的过程是利用多种方式来增强多模态感知:首先,对齐是通过一个模态来重构另一种模态的特征,因此模态间能够互补;其次,统一的特征空间可以让多种模态融合(fusion)变得更加容易。不仅如此,多种对齐的感知模态还有潜力催生新的应用:利用统一的特征空间,一种感知模态的信号可以被用来检索另一种模态的表达,例如,通过 Wi-Fi 信道的状态信息(CSI)获取视觉表示,从而实现 Wi-Fi 信号成像;跨模态的对齐特征也可以自然地将感知能力与大语言模型(LLMs)进行连接,让大模型更好地与物理世界交互。

将多种感知模态对齐到统一特征空间中,以增强感知并实现新的感知应用
图1:将多种感知模态对齐到统一特征空间中,以增强感知并实现新的感知应用

为了对齐多种感知模态,,研究员们提出了 BABEL 框架,包括神经网络架构、数据准备与处理,以及训练策略。作为一个可扩展的预训练多模态感知神经网络,BABEL 目前对齐了六种广泛应用的感知模态,包括 Wi-Fi、毫米波、IMU、LiDAR、视觉与深度。BABEL 的关键思想是将 N 模态对齐转化为一系列的两模态对齐过程,从而克服感知研究中数据严重缺乏的问题,特别是完全配对数据的稀缺。同时,BABEL 中也提出了融合异构的预训练单模态解码器,来进一步减少对训练数据的需求,以及使用自适应训练策略来平衡新加入的模态与之前对齐的模态间的贡献。

评估显示,与多种多模态感知框架、单模态感知网络和多模态大语言模型相比,BABEL 在8个人类活动识别数据集上表现出色。BABEL 不仅有效地融合了多个感知模态(准确性提升高达22%),而且还提高了单个模态的性能(平均准确性提高了12%)。利用 BABEL,研究员们还讨论并初步实现了跨感知模态检索,以及将感知模态与 LLMs 进行整合等前沿研究。

02. 基于扩散模型引导的元智能体,实现可控金融市场生成

paper screenshot

论文链接:https://arxiv.org/abs/2408.12991 (opens in new tab)

生成模型在自然语言处理、媒体合成和医疗应用等领域展现了惊人的能力,但在金融数据领域的应用仍然有限。目前大多数金融投资研究依赖于对市场量价数据的回放,然而这种方式难以考虑真实市场中的参与者博弈。相比之下,订单层级的市场模拟提供了最细粒度且更具互动性和真实性的环境,对研究金融市场至关重要。

已有工作尝试通过基于智能体的方法模拟订单层级的金融市场,这些方法包括使用基于规则的智能体和基于学习的智能体,目的是复制真实市场中观察到的特征性事实(stylized facts),如波动聚集。但现有方法模拟的真实度仍然有限,更重要的是,它们不具备对生成市场的可控性,而可控性对于反事实发现等下游任务十分关键。

在本研究中,微软亚洲研究院的研究员们提出了可控金融市场生成问题,并构建了一个名为扩散模型引导的元智能体模型 DiGA 来解决该问题。为了向金融市场生成建模中引入可控性,研究员们将问题表述为一个条件生成任务,以价格的单日变化率、日内振幅或日内波动率为生成目标构建特定场景(如急剧下跌或极端波动)。对此,研究员们首先建立条件扩散模型来捕捉分钟级别的市场动态,表示为分钟价格变化率和订单到达速率;接着,构建一个基于有金融市场微观结构先验的元智能体来根据市场动态生成订单。

实验结果表明,研究员们提出的 DiGA 模型能够有效地进行可控金融市场生成,使生成的金融市场贴近控制目标,且由 DiGA 模型生成的金融市场具有优越的保真度。同时,DiGA 模型生成的数据可以服务于下游任务(如量化交易)。DiGA 模型为生成金融市场数据提供了一个创新的解决方案,为未来的研究和应用提供了新的方向和可能性。

扩散模型引导的元智能体模型(DiGA)框架,包括两个关键模块:元控制器和订单生成器,其中元控制器为条件扩散模型,订单生成器为元智能体。从订单流数据中整合控制目标以及对应的市场状态表示来训练元控制器后,元控制器可引导订单生成器输出生成的订单流。
图2:扩散模型引导的元智能体模型(DiGA)框架,包括两个关键模块:元控制器和订单生成器,其中元控制器为条件扩散模型,订单生成器为元智能体。从订单流数据中整合控制目标以及对应的市场状态表示来训练元控制器后,元控制器可引导订单生成器输出生成的订单流。

03. NutePrune:采用多个教师模型对大语言模型进行高效渐进式剪枝

paper screenshot

论文链接:https://arxiv.org/abs/2402.09773 (opens in new tab)

大语言模型在语言任务中表现出色,但其庞大的尺寸带来了部署和推理的挑战。结构化剪枝是一种有效的压缩方法,但现有方法要么性能下降,要么需要大量后训练资源。那如何在保持模型性能的同时,将模型剪枝到更高的稀疏度,并减少训练数据的需求?

来自微软亚洲研究院和清华大学的研究员们提出了一种高效的结构化剪枝方法 NutePrune,其利用多种不同稀疏度的教师模型逐步指导学生模型学习,从而缩小教师和学生之间的能力差距,提高剪枝效果。

NutePrune 的整体设计
图3:NutePrune 的整体设计

具体而言,NutePrune 将剪枝过程视为一个优化问题,学习掩码来剪枝子模块,并借助 LoRA 更新模型参数。其只加载一个完整的模型,通过添加不同的掩码和 LoRA 模块来切换教师和学生模式,从而避免加载多个教师模型所带来的内存消耗。同时,NutePrune 还采用了渐进式知识蒸馏(PKD)方法,收集和整合多个教师模型,逐步引导学生模型学习,缩小能力差距。

NutePrune 的优势。左图中采用的渐进式蒸馏通过从简单到困难的教师模型引导学生,以避免因大容量差距对学习的损害。但这种方法需要加载大量教师模型,成本高昂。右图则是 NutePrune,其利用不同稀疏度的模型,实现了渐进式蒸馏,并几乎不增加额外成本。
图4:NutePrune 的优势。左图中采用的渐进式蒸馏通过从简单到困难的教师模型引导学生,以避免因大容量差距对学习的损害。但这种方法需要加载大量教师模型,成本高昂。右图则是 NutePrune,其利用不同稀疏度的模型,实现了渐进式蒸馏,并几乎不增加额外成本。

在多个模型的实验中,NutePrune 都取得了优异的性能。在 LLaMA-7B 的零样本实验中,NutePrune 在20%稀疏度下保留了原始模型97.17%的性能,在25%稀疏度下保留了95.07%的性能。与其他剪枝方法相比,NutePrune 在保持性能的同时,实现了更高的稀疏度,并显著降低了推理延迟。NutePrune 通过高效的知识蒸馏方法,有效地实现了 LLMs 的结构化剪枝,为资源受限场景下的大语言模型部署和应用提供了新的思路。

04. T10:分布式内存AI芯片的计算新模式

paper screenshot

论文链接:https://arxiv.org/abs/2408.04808 (opens in new tab)

随着人工智能技术的快速发展,快速增长的模型大小对算力的需求也越来越高。为此,AI 芯片的核心架构在过去几年内发生了显著变化,以满足人工智能应用对算力的巨大需求。传统的芯片设计通常是共享内存架构(shared memory architecture),即所有核心通过访问统一的全局内存来获取数据。然而,计算规模的不断提升,使得全局内存的大小和带宽的增长逐渐无法跟上计算性能的需求。

为了解决这一瓶颈,新的芯片架构采用了核心间互连的分布式内存架构(distributed memory architecture),即:各个核心仅直接访问本地内存,并通过核心间的互联访问其他核心的数据,例如 Graphcore IPU、Groq、Cerebras 以及 H100 的 distributed shared memory 等。这种技术进步不仅提高了计算性能,还为并行计算带来了全新的可能性。 

然而,这种新架构也带来了新挑战。由于当前深度学习软件栈缺乏对这种分布式内存架构的有效支持,用户很难充分利用新的芯片的优势。对此,微软亚洲研究院的研究员们与伊利诺伊大学厄巴纳-香槟分校(UIUC)Jian Huang 老师的团队合作设计了 T10。这是首个针对分布式内存架构 AI 芯片的深度学习编译器,充分利用了核心间通信带宽。

具体来说,T10 通过引入分布式张量抽象(rTensor),将深度学习计算划分为子操作,并将其映射到各个核心,采用“Compute-Shift”的执行模式,使得各核心能够按照可预测的模式进行数据交换。T10 在芯片上的内存消耗与核心间通信开销之间进行了全局优化调度,从庞大的优化空间中选择最佳执行计划,同时减少了不必要的核心间通信。

Compute-Shift 示例:将矩阵乘法(MatMul)运算映射到两个计算核上执行,(b)和(c)均为可行的 Compute-Shift 执行计划,但是两者在内存占用和通信开销方面不同,T10 会通过全局优化调度选取最佳执行计划
图5:Compute-Shift 示例:将矩阵乘法(MatMul)运算映射到两个计算核上执行,(b)和(c)均为可行的 Compute-Shift 执行计划,但是两者在内存占用和通信开销方面不同,T10 会通过全局优化调度选取最佳执行计划

实验结果表明,T10 通过新的计算模式,在真实的分布式内存架构芯片 Graphcore IPU 上,相比于现有深度学习编译器和计算库,取得了最高3.3倍的加速,并可以支持更大的模型规模或者数据规模。该论文已被 SOSP 2024 接收。未来,研究员们将持续在深度学习编译领域进行更加深入的探索。