数十个Pytorch代码线触发了GPU的使用。麻省理工学
栏目:公司资讯 发布时间:2025-06-05 13:29
资料来源:DeepTech只需要数十种Pytorch代码线即可显着改善GPU的使用,而GPU的使用最多可占NVIDIA A100的70%。此功能由张天扬(Zhang Tianyuan)创建的新型模型架构,他是北京大学的本科毕业生,也是美国麻省理工学院(MIT)的博士生。研究人员使用大型片段更新创建了这种新的模型架构,从各种方式的任务中的2000万个令牌。建筑与大量长上下文测试时集成了培训,并将窗户护理机制集成到对本地结构进行建模。由于每个大块内的令牌被认为是一个混乱的集合,因此研究人员将窗户的注意力集成到乳酸中,以捕获块内的本地单位。这可以扩展权重 - 线性高速,从而增加存储容量。此外,这种简单的实现允许轻松整合更有效的测试时间优化器S(例如Mon)。此外,乳中的大型块设计也可以自然地对几个n维数据进行建模,因为可以将块大小适应数据的内部结构,例如分组令牌和块图像中的连续视频帧,以便它们与数据的内部结构一致。为了验证这种方法的有效性,研究人员在各种数据模式和任务中进行了新的观点综合,包括图像,语言模型和视频自我代表性传播的图像。实验结果表明,研究人员模型可以将多达128个输入图像处理至960 x 536的分辨率,从而形成最高100万个令牌的序列,在此入口量表上,3D高斯繁殖技术优于提供质量。语言数据本身并不明确包含块结构,但是与诸如Deltanet之类的SOTA方法相比,研究人员的模型几乎具有可比性的性能。研究设备还将乳酸与滑动窗口的注意相结合到140亿日元。将参数的双向视频传播的输血调整为自尊模型。这种自适应模型可以产生一致的视频,并具有多达56,000个视觉令牌。 (来源:https://tianyuanzhang.com/)与此同时,最长的序列实验对合成超过100万个上下文长度的构成了新的愿景。目前,研究团队对源代码和权重开放,并且有望在竞赛中促进人们长期促进建筑效率的竞赛(https://tianyuanzhang.com/projects/tttt-done-right/)。当前,对长篇小说的需求的处理迅速增加至1%-3%的一般收益率。 SoftMax的注意力成为模拟不同类型数据的解决方案,但其计算成本随序列的长度增加了二次,从GER上下文建模。最近,试验时间训练(TTT,测试时间培训)已成为一种有前途有效的二次测序方法。测试时间训练可以使复发状态的概念在经常出现的神经元网络中与小型在线自适应子网有关。该子网参数也被称为快速权重,并通过自我控制目标快速在线调整以在上下文中记住信息。新的团队已经调查了几个在线目标,优化者和高速网络的架构。但是,现有的测试时间培训方法仍然很难有效地升级长期情况。基本原因是,正在测试的训练层使用非常低的硬件使用,而当前使用GPU硬件的用途小于最大计算机功率的5%。这种效率低下是由于使用小尺寸。这意味着每隔一个令牌或每个令牌16-64都会更新迅速的重量。但是,这个小蝙蝠CH处理方法对有效的硬件实施提出了重要的挑战,尤其是在使用大型高速重量时。效率低下的并行性和计算机密度不足,因此很难使用实际计算机功率破坏了10%的有效状态。据此,研究小组采用了相反的策略并引入了乳。如下图所示,乳酸块由三种类型的层组成:窗口服务层,大块测试训练层和功率层。 (来源:ARXIV)每一层配备了残差连接,此设计还遵循标准的跨体系结构实践。捕获护理层的本地依赖性使局部自我责任。在测试期间,研究人员将序列分为大块。研究小组说,历史背景通过“更新”操作逐渐被逐渐压缩,最后一比则“应用”到当前缺点终极矢量(q)计算相应的输出。前馈层执行类似于变压器的通道混合操作。在测试期间训练的“ Actslization”和“ Application”的操作是隔离的,这允许建立块大小并适应不同的订单,从而允许模拟不同类型的数据依赖项。如果片段大小等于完整的序列长度,则首先执行“ APP”操作,然后执行“更新”操作。 “更新”和“应用程序”操作可以形成一个因果块蒙版,其块大小与块大小相对应。作为集合序列。这是因为此快速重量更新忽略了每个块内代币的顺序和空间城镇。但是,许多数据模式,例如视频,图像和文本的图像,基于机构的观点并不完美。在这些方式中,块内结构和城镇很重要o捕获整个数据结构。因此,研究设备将注意力层与测试时间训练层集成在一起,以处理块内的数据结构。此外,窗户护理机制可以有效地捕获数据中的本地特征。这使得测试时间训练层可以将快速固定尺寸的重量能力集中到建模非本地依赖性。通常,LACT是一种混合体系结构,它可以解决使用二次计算护理机制的结构进行的,并使用线性计算测试时间训练机制用于非本地环境。上下文的并行性(CP,上下文并行性)将沿上下文长度的维度划分,并分布多个设备的片段以进行并行计算。窗口的前进层和注意力都属于本地操作员,这自然支持上下文的并行性。对于测试中的训练层,我们更喜欢张紧器的并行性,因为很难支持小块的上下文平行性。在大型阻止测试中,训练层通过在块内部碎片令牌来实现上下文并行性。当训练新观点的合成时,他们采用了这种平行方法,并观察到从1%到3%的产量超负荷。同时,LACT架构与其他并行策略兼容,例如数据并行性,管道并行性和张紧并行性。实验封面:如上所述,新观点的综合,语言建模,自我代表性视频的产生以及研究人员进行了有关新观点整合,语言建模和自我自我自我捕捉视频的实验。在与线性成本参考方法的比较实验中,研究人员在同一窗口中添加了注意模块,以确保公平比较。性格摘要每个实验的关键因素(来源:ARXIV)的关键因素在新的Beausys中,研究人员在场景级别和对象级别的数据集中评估了此方法。对象级训练使用数据集,然后遵循LVSM和GS -LRM配置。后他完成了培训后,研究人员的分辨率分别为256×256和512×512,在Google(GSO)的扫描对象集中。每个评估都包含4-48个输入视图和8个新对象视图。对于现场评估,研究人员采用了一组具有挑战性的DL3DV场景数据,具有超过11,000个培训方案和140个测试方案。对于身体级别的评估,研究人员使用了两个参考模型:这是一个完整的警告模型,并记录了警告模型。完整的护理参考模型通过块将测试时间训练层替换为因果注意层,这允许入口令牌之间的双向相互作用以及与N的相互作用的相互作用EW视图。注册说明模型在4096年的记录中压缩了进入令牌,并将新愿景解码为与这些记录相互参与的新愿景。对于在阶段级别进行评估,研究人员将其与Longlrm进行了比较。这是一种结合曼巴族和可用于Splat高斯3D预测的完整护理机制的模型。另外,将其与纯粹优化的3D高斯喷雾方法进行了比较。所有模型在评估表伪造性能时的计算复杂性的摘要(来源:ARXIV),研究设备使用损失损失度量标准来评估模型有效使用完整环境的能力。单调的损失减少表明上下文的成功使用,而固定状态表示对上下文的使用有限。还据报道,从原始的乳酸块中删除了窗户服务层,而滑块的注意力层(swasliding ntana)是集成的在大型块测试中直接进入训练层,将模型与全部注意力模型,封闭线性注意(GLA,封闭线性注意力)和Deltanet进行比较。为了确保正义,GLA和DeltanetFortaleca的滑动窗口的同一层层,并用100万个字符串库培训了32K令牌的背景。表“所有方法和训练绩效的一般描述(来源:ARXIV)的所有方法比较了块递归和令牌递归,在有条件地受控的实验中,研究人员,研究人员的递归策略,研究人员的递归策略优于线性递归策略,而不是类似的研究者,例如,研究者缺乏构造的研究者。但是,研究人员的资产与研究人员的资产相同Ken Byte令牌,例如早期的GLA。通过广泛消除特定硬件实现的依赖关系。
服务热线
400-123-4567