1.֪ʶ?知识蒸馏???Դ??
2.精选了61篇三维点云顶会论文及源码分享,含2023最新
3.字节火山与南京大学提出:可逆神经机器翻译
4.gpt既不开源,源码又不允许蒸馏,跟openai这个名字还相符吗?
֪ʶ????Դ??
新整理的最新论文又又来了,今天继续分享十篇今年最新NLP顶级论文,知识蒸馏其中主要包括模型水印添加、源码状态空间模型在语言建模中的知识蒸馏应用、指令元学习、源码山西和陕西源码大型模型训练效率提升、知识蒸馏大模型到小模型推理能力转移、源码大模型简化、知识蒸馏对话模型合规检测等。源码
模型添加水印:
大型语言模型 (LLM) 如 ChatGPT 可以编写文档、知识蒸馏创建可执行代码和回答问题,源码通常具有类似人类的知识蒸馏能力。然而,源码这些系统被用于恶意目的知识蒸馏的风险也越来越大,因此检测和审核机器生成文本的使用能力变得关键。本文提出了「一个为专有语言模型加水印的框架」,以减轻潜在的危害。该水印对于人类是不可见,但可以通过算法检测的方式嵌入到生成的文本中,对文本质量的影响可以忽略不计,并且可以在不访问模型 API 或参数的情况下使用开源算法进行检测。
状态空间模型:
本文研究了「状态空间模型(SSM)在语言建模中的应用」,并将其性能与基于Attention的模型进行比较。作者发现,SSM在回调序列较早的Token以及在整个序列中做Token对比的时候存在困难。为解决这两个问题,他们提出了一种新的SSM层,称为H3,emlog图片源码其在语言合成上与Attention模型相匹配,并接近于Transformer在OpenWebText上的性能。他们还提出了一种名为FlashConv的方法,提高了SSM在当前硬件上的训练效率,同时也让它们可以扩展到更长的序列。
指令元学习:
本文提出了一个「应用于指令元学习(instruction meta-learning)的大型基准」,该基准将8个现有基准的任务类别合并,总计包含了个自然语言处理(NLP)任务。作者评估了不同决策对性能的影响,例如:指令调整基准的规模和多样性、不同任务采样策略、有无示范的微调、使用特定数据集对推理和对话进行训练以及微调目标等。他们使用该基准来训练两个经过指令调指OPT的版本(为OPT-IML B和OPT-IML B),结果显示,这两个版本在四个不同的评估基准上表现出更好的泛化能力,优于普通的OPT模型。
训练效率提升:
本文提出了「一种名为 Cuation in Training (CiT) 的方法,旨在提高大型视觉语言模型的训练效率」,以方便更多机构的进行使用。CiT 自动选择高质量的训练数据来加速对比图文训练,并且不需要离线数据过滤管道,从而允许更广泛的数据源。该算法由两个循环组成:一个管理训练数据的外循环和一个使用管理的训练数据的内循环,这两个循环由文本编码器进行连接。 CiT 将元数据用于感兴趣的任务,例如类名和大量图像文本对,通过测量文本嵌入和元数据嵌入的叫车小程序源码相似性来选择相关的训练数据。实验表明,「CiT 可以显着加快训练速度,尤其是当原始数据量很大时」。
从大模型到小模型:
本文探索了「一种通过知识蒸馏将推理能力从大型语言模型转移到小型模型的方法」。作者指出,利用较大的“教师”模型的输出微调较小的“学生”模型可以提高一系列推理任务的性能,例如算术、常识和符号推理。论文中的实验表明,这种方法可以显着提高任务性能,例如,当在 PaLM-B 生成的思维链上进行微调时,将名为 GSM8K 的数据集上的较小模型的准确性从 8.% 提高到 .%。本文探索了「一种通过微调将推理能力从大型语言模型转移到较小模型的方法」并提出了“Fine-tune-CoT”,这是一种利用超大型语言模型(例如 GPT-3)的能力来生成推理样本并教授较小模型的方法。
大模型简化:
本文提出了「一种名为 SparseGPT 的新型模型简化方法」,它能够将大型生成预训练 Transformer (GPT) 模型中的权重数量至少减少%,并且无需进行任何再训练,并且精度损失最小。作者通过将 SparseGPT 应用于最大的开源模型 OPT-B 和 BLOOM-B ,在几乎没有增加复杂度的情况下,模型权重数量减少了 % 。该方法不仅还与权重量化方法兼容,并且可以推广到其他模式。
模型压缩对并行性的影响:
针对大规模Transformer 模型,本文「研究了不同模型压缩方法对模型并行性的有效性」。作者在当前主要流行的 Transformer 训练框架上使用三种类型的压缩算法进行了实证研究:基于修剪的、基于学习的jvm源码分析jit和基于量化的。在 多个设置和 8 个流行数据集上评估这些方法,同时考虑了不同的超参数、硬件以及微调和预训练阶段。该论文提供了模型并行性和数据并行性之间差异的见解,并为模型并行性压缩算法的未来发展提供了建议。
对话模型合规发布判定:
本文工作「为从业者提供了一个框架,来判定end-to-end神经对话Agent的发布是否合规」。作者出发点是:对话式 AI 领域的最新进展以及从互联网上发布的基于大型数据集训练的模型可能产生的潜在危害。他们调查了最近的相关研究,强调了价值观、潜在的积极影响和潜在的危害之间的紧张关系。他们提出了一个基于价值敏感设计原则的框架,以帮助从业者权衡利弊,并就这些模型的发布做出符合规范的决策。
推荐阅读:
- [1] NLP自然语言处理:生成式人工智能(Generative AI)是 “未来” 还是 “现在” ?
- [2] 「自然语言处理(NLP)」 你必须要知道的 “ 十二个国际顶级会议 ” !
- [3] 年!自然语言处理 大预训练模型
- [4] NLP自然语言处理:分享 8 篇NLP论文,有研究惊奇发现:大语言模型除了学习语言还学到了... ...
- [5] 超详细!一文看懂从逻辑回归(Logistic)到神经网络(NN)
- [6] 北大 |一种细粒度的两阶段训练框架(FiTs)(开放源码)
- [7] NLP自然语言处理:NLP不断突破界限, 十篇必读的顶级NLP论文!
- [8] 颠覆传统神经网络!个神经元驾驶一辆车!
精选了篇三维点云顶会论文及源码分享,含最新
三维点云技术在自动驾驶、机器人和增强现实等领域得到广泛应用。近年来,随着深度学习的发展,3D点云技术成为计算机视觉研究的看透主力macd源码热点,面临数据获取、处理、分析和应用的挑战。学姐整理了近三年各大顶会中关于3D点云的论文,共篇,供有志于发表论文的同学参考。 以下是其中几篇论文的简介: CVPR 1. Attention-based Point Cloud Edge Sampling (APES) 该文提出了一种基于注意力的点云边缘采样方法,通过提取轮廓上的显著点,在多个任务中表现出良好性能。 2. IterativePFN: True Iterative Point Cloud Filtering 作者提出了迭代点云过滤网络IterativePFN,它通过内部模拟真实的迭代过滤过程,使用新颖的损失函数训练,能捕捉中间过滤结果之间的关系。 3. ULIP: Learning a Unified Representation of Language, Images, and Point Clouds 该文提出ULIP,通过预训练学习统一的多模态表示,克服训练三元组不足的问题,利用图像文本模型获得共享的视觉语义空间。 4. SCPNet: Semantic Scene Completion on Point Cloud 论文提出了改进语义场景完成性能的方法,包括重新设计完成子网络、设计师生知识蒸馏和使用泛光分割标签校正完成标签。 5. ACL-SPC: Adaptive Closed-Loop system for Self-Supervised Point Cloud Completion 该论文提出自监督的点云补全框架ACL-SPC,可进行同域训练和测试,无需合成数据,使用自适应闭环系统实现无先验信息的点云自监督补全。 6. Learning Human-to-Robot Handovers from Point Clouds 论文提出一个端到端框架,学习视觉的人机交接控制策略,通过训练实现从模拟到真实的有效迁移。 7. PartManip: Learning Cross-Category Generalizable Part Manipulation Policy from Point Cloud Observations 该文构建了基于部件的跨类别物体操作基准,提出了专家示教和对抗学习方法,实现基于稀疏点云的通用跨类别物体操作策略学习。 8. PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection 论文提出了跨模态自监督预训练框架PiMAE,通过交互、共享解码器和跨模态重建模块,提升点云和图像的表示学习。 9. Complete-to-Partial 4D Distillation for Self-Supervised Point Cloud Sequence Representation Learning 本文提出了一种4D自监督预训练方法,将4D表示学习表述为一个teacher-student知识蒸馏框架,提高学生模型的学习能力。 ICCV . Robo3D: Towards Robust and Reliable 3D Perception against Corruptions 该文提出了一个面向3D检测和分割模型鲁棒性的基准测试集Robo3D,旨在探究模型在非理想场景下的可靠性。字节火山与南京大学提出:可逆神经机器翻译
在翻译技术的前沿,一项突破性的研究由字节火山团队与南京大学联手实现——可逆神经机器翻译(Reversible Duplex Transformer,REDER)。传统神经机器翻译被比作单工通信,但REDER借鉴了电话双向通信的灵感,引入双工序列到序列学习,将模型提升到前所未有的双向处理水平。 在研究的背景中,尽管神经网络的seq2seq模型广泛应用,但它们通常受限于单向信息流,例如Transformer。这如同单向通道,限制了模型利用平行数据的双向潜力。REDER的诞生,正是为了解决这一局限,通过双工序学习,挖掘并有效利用双向信号,提高模型的效率和准确性。 REDER的核心在于其双工序列到序列设计,它构建了一个双向神经网络,可以同时处理正向和反向任务,确保了可逆性和循环一致性,特别适合于可逆机器翻译。这种模型的独特之处在于,它能通过反转网络端口实现反向翻译,从而增强双向翻译的深度建模能力。 实验结果显示,REDER在WMT数据集的双向翻译任务中,其性能超越了单向和自回归模型,且参数更精简,效率与精度兼得(参见图9)。关键发现包括:双向学习显著提升了REDER的翻译质量和效率。
REDER的表现接近或超越了最强的非自回归模型,展现了其强大的双向处理能力。
双工学习的引入使得REDER在参数更少的情况下,性能接近使用back-translation辅助的模型,实现了效率与性能的平衡。
通过细致的消融分析,图揭示了知识蒸馏、CTC以及双工学习在REDER中的关键作用,证明了它们对于提升非自回归模型性能的重要性(图)。 REDER的创新性在于,它不仅能翻译,还能逆向重构输出,展示出极高的可逆性,如图所示。这一成果不仅提升了机器翻译的准确性,也开拓了可逆翻译研究的新领域。 总结,REDER的成功标志着在机器翻译领域的一次重大进步,它首次实现了可逆神经机器翻译的实用应用。论文详细阐述了这一创新,可在此PDF上获取,源代码开源在GitHub,这一切成果都源于南京大学和字节火山的深度合作,展示了科研团队的卓越洞察力和创新精神。gpt既不开源,又不允许蒸馏,跟openai这个名字还相符吗?
ChatGPT 的流行引发了对开源的热烈讨论。一些人认为,只要OpenAI 开放源代码,全球就能迅速获得ChatGPT。然而,这实际上是一种误解。开源是指公开源代码,过去我们常将其理解为免费获取软件项目的原始代码,例如 Linux 操作系统。拿到 Linux 源码后,理论上可以在本地编译相同的系统内核。但实际上,编译过程可能会因编译方法的不同而产生差异,这通常会使人们误解开源的力量,以为开源能带来广泛且快速的普及。然而,大语言模型的开源概念与此完全不同。
如果 OpenAI 真的开放了GPT-4的源代码,那也只是其中的一部分。大语言模型的开源实际上涉及三个主要对象:源码、算法以及数据。算法的核心部分包括模型结构和训练方法,这通常是开源的。然而,要实现与 ChatGPT 类似的模型,还需要高算力和大数据。算法、算力和数据是人工智能时代的三大要素,缺一不可。仅拿到源码并不意味着能构建出类似 ChatGPT 的模型。
高算力是一个关键门槛,但并不是所有企业都能跨越。然而,数据的获取和质量则是另一个巨大的挑战。数据对于人工智能的重要性无需赘言,无论是人工智能时代还是人工智障时代,数据的规模和质量都是影响模型表现的关键因素。数据标注需要投入大量的人力、财力和时间,这使得数据集的建设成为一项艰巨的任务。即使是财力雄厚的企业如 OpenAI,也会在数据标注上寻求成本效益。
开源意味着共享和协作,它对人工智能的快速发展起到了重要作用。学术论文通常是研究成果的一部分,许多作者选择免费公开论文,为研究社区提供了宝贵的知识资源。源码并非必需,有些研究者仅发布论文而不提供源码,可能出于对成果的保护、对源码质量的担忧,或是担心复现效果的问题。大公司和机构在使用开源模型时更为谨慎,他们可能出于社会责任、安全伦理等考虑,选择仅公开模型而不公开所有细节。
就开源数据集而言,其重要性往往被忽视。中文大语言模型面临多种需求,开源数据集的建设是推动这一领域发展的关键。虽然存在诸多挑战,但已有项目开始致力于开源数据集的建设,这些努力如同星星之火,正逐渐点亮中文大语言模型发展的道路。