LLM在生成摘要方面效果到底如何？

来源：公众号机器之心授权

以后文本摘要总结任务，可以放心交给大模型了。

文本摘要，作为自然语言生成（NLG）中的一项任务，主要用来将一大段长文本压缩为简短的摘要，例如新闻文章、源代码和跨语言文本等多种内容都能用到。

随着大模型（LLM）的出现，传统的在特定数据集上进行微调的方法已经不在适用。

我们不禁会问，LLM 在生成摘要方面效果到底如何？

为了回答这一问题，来自北京大学的研究者在论文《 Summarization is (Almost) Dead 》中进行了深入的探讨。他们使用人类生成的评估数据集评估了 LLM 在各种摘要任务（单条新闻、多条新闻、对话、源代码和跨语言摘要）上的表现。

在对 LLM 生成的摘要、人工撰写的摘要和微调模型生成的摘要进行定量和定性的比较后发现，由 LLM 生成的摘要明显受到人类评估者的青睐。

接着该研究在对过去 3 年发表在 ACL、EMNLP、NAACL 和 COLING 上的 100 篇与摘要方法相关的论文进行抽样和检查后，他们发现大约 70% 的论文的主要贡献是提出了一种总结摘要方法并在标准数据集上验证了其有效性。因此，本文表示「摘要（几乎）已死（ Summarization is (Almost) Dead ）」。

尽管如此，研究者表示该领域仍然存在挑战，例如需要更高质量的参考数据集、改进评估方法等还需要解决。

方法及结果

该研究使用最新的数据来构建数据集，每个数据集由 50 个样本组成。

例如在执行单条新闻、多条新闻和对话摘要任务时，本文采用的方法模拟了 CNN/DailyMail 、Multi-News 使用的数据集构建方法。对于跨语言摘要任务，其策略与 Zhu 等人提出的方法一致。关于代码摘要任务，本文采用 Bahrami 等人提出的方法。

数据集构建完成之后，接下来就是方法了。具体来说，针对单条新闻任务本文采用 BART 和 T5 ；多条新闻任务采用 Pegasus 和 BART；T5 和 BART 用于对话任务；跨语言任务使用 MT5 和 MBART ；源代码任务使用 Codet5 。

实验中，该研究聘请人类评估员来比较不同摘要的整体质量。结果如图 1 所示，LLM 生成的摘要在所有任务中始终优于人工生成的摘要和微调模型生成的摘要。

这就提出了一个问题：为什么 LLM 能够胜过人类撰写的摘要，而传统上人们认为这些摘要是完美无缺的。此外，经过初步的观察表明，LLM 生成的摘要表现出高度的流畅性和连贯性。

本文进一步招募注释者来识别人类和 LLM 生成摘要句子中的幻觉问题，结果如表 1 所示，与 GPT-4 生成的摘要相比，人工书写的摘要表现出相同或更高数量的幻觉。在多条新闻和代码摘要等特定任务中，人工编写的摘要表现出明显较差的事实一致性。

人工撰写的摘要和 GPT-4 生成摘要中出现幻觉的比例，如表 2 所示：

本文还发现人工编写的参考摘要存在这样一个问题，即缺乏流畅性。如图 2 (a) 所示，人工编写的参考摘要有时存在信息不完整的缺陷。并且在图 2 (b) 中，一些由人工编写的参考摘要会出现幻觉。

本文还发现微调模型生成的摘要往往具有固定且严格的长度，而 LLM 能够根据输入信息调整输出长度。此外，当输入包含多个主题时，微调模型生成的摘要对主题的覆盖率较低，如图 3 所示，而 LLM 在生成摘要时能够捕获所有主题：

由图 4 可得，人类对大模型的偏好分数超过 50%，表明人们对其摘要有强烈的偏好，并凸显了 LLM 在文本摘要方面的能力：

　　审核编辑：汤梓红

阅读全文

源代码(65419) 源代码(65419)
GPT(14575) GPT(14575)
大模型(200) 大模型(200)
LLM(74) LLM(74)

一种自动生成循环摘要的方法

存放的新值来描述循环语句的执行效果，并将该执行效果定义为循环摘要，同时，提出一种自动生成循环摘要的方法，可以为操作常用数据结构的循环自动生成循环摘要，包含嵌套循环．此外，基于循环摘要，可以自动生成循环语句

2017-12-29 11:12:57

大型语言模型（LLM）的自定义训练：包含代码示例的详细指南

近年来，像 GPT-4 这样的大型语言模型（LLM）因其在自然语言理解和生成方面的惊人能力而受到广泛关注。但是，要根据特定任务或领域定制LLM，定制培训是必要的。本文提供了有关自定义训练 LLM 的详细分步指南，其中包含代码示例和示例。

2023-06-12 09:35:43

1154

Stability AI发布首个用于编程的生成式LLM AI产品—StableCode

Stability AI 近日宣布了他们首个用于编程的生成式 LLM AI 产品 ——StableCode。该产品旨在帮助程序员完成日常工作，并为新手开发者提供实用的学习工具。

2023-08-24 11:27:03

343

基于语义感知的中文短文本摘要生成技术

文本摘要生成技术能够从海量数据中概括岀关键信息，有效解决用户信息过载的问题。目前序列到序列模型被广泛应用于英文文本摘要生成领域，而在中文文本摘要生成领域没有对该模型进行深λ硏究。对于传统的序列到序列

2021-05-28 15:45:25

在生成exe时报如下错误求助

`https://bbs.elecfans.com/forum.ph ... 7%94%9F%E6%88%90exe如题按照上面这个链接的步骤生成exe预览的时候没有报错但是生成结果报如下错误

2015-11-19 09:38:41

基于Transformer的大型语言模型（LLM）的内部机制

本文旨在更好地理解基于 Transformer 的大型语言模型（LLM）的内部机制，以提高它们的可靠性和可解释性。随着大型语言模型（LLM）在使用和部署方面的不断增加，打开黑箱并了解它们的内部

2023-06-25 15:08:49

404

LLM在各种情感分析任务中的表现如何

最近几年，GPT-3、PaLM和GPT-4等LLM刷爆了各种NLP任务，特别是在zero-shot和few-shot方面表现出它们强大的性能。因此，情感分析(SA)领域也必然少不了LLM的影子

2023-05-29 17:24:41

628

SVD的效果到底如何呢？

机器学习中常用的降维方法是主成分分析(PCA)，而主成分分析常用奇异值分解(SVD)。那么SVD的效果到底如何呢？SVD常用来进行图像的压缩，我们就来实验一下。

2017-02-11 17:19:13

1515

NVIDIA 携手微软，在生成式 AI 的新时代推动 Windows PC 创新

模型（LLM）应用、Stable Diffusion 和 Adobe Firefly 等图片生成器，以及 NVIDIA DLSS 3 Frame Generation （DLSS 3 帧生成技术）等

2023-05-25 09:15:02

287

Medusa如何加速大型语言模型（LLM）的生成？

面对推测性解码的复杂性，研究人员推出了Medusa技术，这个框架回归了Transformer模型的本质，减少了复杂度，增强了效率，让每个生成阶段都能快速产出结果。当将Medusa与基于树的注意机制结合时，生成速度提高了2到3倍。

2023-09-20 11:23:59

LLM性能的主要因素

现在是2023年5月，截止目前，网络上已经开源了众多的LLM，如何用较低的成本，判断LLM的基础性能，选到适合自己任务的LLM，成为一个关键。本文会涉及以下几个问题：影响LLM性能的主要因素

2023-05-22 15:26:20

682

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

LLM 与通用人工智能（AGI）之间仍存在显著差距。首先，大多数当前 LLM 只能感知和理解多模态内容，而不能自然而然地生成多模态内容。其次，像图像和语音这样的连续信号不能直接适应接收离散 token 的 LLM。

2023-05-22 14:38:06

205

MLC-LLM的编译部署流程

MLC-LLM部署在各种硬件平台的需求，然后我就开始了解MLC-LLM的编译部署流程和RWKV World模型相比于MLC-LLM已经支持的Raven系列模型的特殊之处。 MLC-LLM的编译部署流程

2023-09-04 09:22:46

386

LLM的长度外推浅谈

苏神最早提出的扩展LLM的context方法，基于bayes启发得到的公式

2023-07-28 17:37:43

1089

基于Patent-Rank的中文专利摘要生成算法

文本摘要任务旨在通过对原文进行压缩提炼，得出简明扼要的内容描述。针对中文专利文本，提出了一种基于 PatentRank算法生成专利摘要的算法。首先，对候选勺群做冗余处理，以去除候选勺群中相似度较高

2021-06-15 17:03:06

基于图集成模型的自动摘要生产方法

现有长文本自动摘要生成方法存在句子特征单一化和无法全面衡量句子相似特征的问题，导致摘要生成的准确率降低。为此，提岀一种基于图集成模型的自动摘要生成方法。在计算得到文本句子词频、语义和句法特征后，利用

2021-03-22 14:40:16

适用于各种NLP任务的开源LLM的finetune教程~

ChatGLM2-6b是清华开源的小尺寸LLM，只需要一块普通的显卡(32G较稳妥)即可推理和微调，是目前社区非常活跃的一个开源LLM。

2023-07-24 09:04:22

331

Meta发布一款可以使用文本提示生成代码的大型语言模型Code Llama

今天，Meta发布了Code Llama，一款可以使用文本提示生成代码的大型语言模型（LLM）。

2023-08-25 09:06:57

460

生成式摘要的经典模型

以往的标题模型产生的都是平实性标题，即简单语言描述的事实性标题。但是，实际上我们可能更需要有记忆点的爆款标题来增加点击量/曝光率。因此，衍生出了一个新任务——带有风格的标题生成，即 Stylistic Headline Generation，简称 SHG 。

2022-07-08 17:04:49

1326

获取大语言模型（LLM）核心开发技能，报名 NVIDIA DLI 实战培训

的不断提升，AI 应用场景将从智能客服、计算机代码编程、文本和多媒体的生成和解释，搜索引擎重构、生物蛋白质和分子研究，延展到各行各业，令 AI 产业有更多的可能性和发展空间，为商业和社会创造更多的价值和成果。开发 LLM 模型如何实现、会遇到怎样的挑战，以及需要掌握哪些核心技能？ NVIDIA 深

2023-04-05 00:25:03

264

YouTube正在测试用人工智能自动生成视频摘要功能

根据谷歌支持页面7月31日的信息显示，YouTube正在测试用人工智能（AI）自动生成视频摘要的功能，这是谷歌在探索生成型 AI 技术的最新尝试之一。通过Android Police

2023-08-15 15:58:02

835

从原理到代码理解语言模型训练和推理，通俗易懂，快速修炼LLM

要理解大语言模型（LLM），首先要理解它的本质，无论预训练、微调还是在推理阶段，核心都是next token prediction，也就是以自回归的方式从左到右逐步生成文本。

2023-09-19 16:25:47

受控文本生成模型的一般架构及故事生成任务等方面的具体应用

任务和常识生成任务上的具体应用，指出了受控文本生成技术在具体应用场景下的改进方向。 0. 什么是受控文本生成文本生成任务是自然语言处理领域十分重要的一类任务。文本摘要、语法纠错、人机对话等很多自然语言处理任务都可

2021-10-13 09:46:39

2679

融合文本分类和摘要的多任务学习摘要模型

文本摘要应包含源文本中所有重要信息，传统基于编码器-解码器架构的摘要模型生成的摘要准确性较低。根据文本分类和文本摘要的相关性，提出一种多任务学习摘要模型。从文本分类辅助任务中学习抽象信息改善摘要生成

2021-04-27 16:18:58

关于如何控制变量在生成代码里的作用分析和介绍

这样在生成代码的时候，参数p1就会定义为int32的数据类型，并且声明为extern。而且它的声明和定义代码会分别写入myHdr.h以及mySrc.c。

2019-09-17 16:18:40

2413

LLM对程序员的冲击和影响

LLM 对软件研发的单点提效，我之前录制过一段视频，大家可以直接观看，里面有详细的演示，我在这里就不再赘述了。

2023-07-24 15:39:06

572

最新综述！当大型语言模型（LLM）遇上知识图谱：两大技术优势互补

LLM 是黑箱模型，缺乏可解释性，因此备受批评。LLM 通过参数隐含地表示知识。因此，我们难以解释和验证 LLM 获得的知识。此外，LLM 是通过概率模型执行推理，而这是一个非决断性的过程。对于 LLM 用以得出预测结果和决策的具体模式和功能，人类难以直接获得详情和解释。

2023-07-10 11:35:00

648

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口

2023-05-22 15:57:33

207

检索增强LLM的方案全面的介绍

ChatGPT 这类模型是如何一步一步训练的，后半部分主要分享了 LLM 模型的一些应用方向，其中就对检索增强 LLM 这个应用方向做了简单介绍。

2023-09-08 16:39:55

122

基于词频统计的多文档自动摘要生成方案

多文档自动摘要技术可以向用户提供一个简洁、全面的摘要信息，因此研究多文档自动摘要技术具有很重要的意义。本文提出了一种上下文敏感的基于词频统计的多文档自动摘要

2009-12-18 16:58:29

虹软图像深度恢复技术与生成式AI的创新生成式AI助力

当前，生成式人工智能（AI）技术的快速发展令人瞩目。它能够理解人类的描述，并在短时间内生成逼真的图像和视频。在生成式AI的应用中，图像深度信息具有重要的价值，准确的深度图像深度信息可以使生成的图像

2023-06-21 09:06:42

146

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口并且不会透露任何模型上技术细节。因此，现阶段，如何利用LLM做一些多模态任务还是有一定的研究价值的。

2023-05-11 17:09:16

349

图像生成领域的一个巨大进展,BigGAN的效果真的有那么好吗？

因此，如果快速浏览BigGAN生成的一系列图像，我们能从中发现不少图具有诡异的美感。比如模型在生成下面几幅景观图时都遵循了从数据集中学到的构图和光影，但当这些来自不同样本的素材杂糅到一起后，它们给人的感觉就成了既熟悉又奇怪。

2018-11-21 09:05:59

6286

在生成中兴概念过程中进行规则提取的算法

决策信息系统的规则提取是数据分析的硏究内容之一。形式概念分析是一种教据分析与信息处理的方法。从决策形式背景出发，定义综合概念以及中心概念，提岀了一种在生成中心概念过程中进行规则提取的算法。在此过程中

2021-04-07 09:27:45

NVIDIA 与 Hugging Face 将连接数百万开发者与生成式 AI 超级计算

8 月 8 日 — NVIDIA 与 Hugging Face 宣布建立合作伙伴关系，为数百万开发者提供生成式 AI 超级计算服务，帮助他们构建大语言模型（LLM）和其他高级 AI 应用。此次

2023-08-09 11:41:59

电力通信模型自动生成方法及其优化

网络中的脆弱节点进行补强。仿真实验结果显示这种结合K-means和脆弱性分析的拓扑生成算法在生成对意外风险具有较强抗性的电力网络拓扑方面具有比较好的效果。

2018-02-02 17:05:55

NVIDIA发布Riva语音AI和大型LLM软件

　　它包括Megatron方面的进步，这是一个由 NVIDIA 研究人员领导的开源项目，旨在开发有效培训法学硕士的技术。企业可以使用 NeMo Megatron 定制 LLM ，如 Megatron 530B ，并使用 NVIDIA Triton 推理服务器跨多个 GPU 和节点进行部署。

2022-04-01 16:27:36

10772

谷歌新作SPAE：GPT等大语言模型可以通过上下文学习解决视觉任务

这篇论文揭示了 PaLM 或 GPT 在通过上下文学习解决视觉任务方面的能力，并提出了新方法 SPAE（Semantic Pyramid AutoEncoder）。这种新方法使得 LLM 能够执行图像生成任务，而无需进行任何参数更新。这也是使用上下文学习使得 LLM 生成图像内容的首个成功方法。

2023-07-09 15:35:06

282

基于一个完整的 LLM 训练流程

在这篇文章中，我们将尽可能详细地梳理一个完整的 LLM 训练流程。包括模型预训练（Pretrain）、Tokenizer 训练、指令微调（Instruction Tuning）等环节。文末

2023-06-29 10:08:59

645

摘要模型理解或捕获输入文本的要点

Abstract Intro 尽管基于预训练的语言模型的摘要取得了成功，但一个尚未解决的问题是生成的摘要并不总是忠实于输入文档。造成不忠实问题的原因可能有两个：（1）摘要模型未能理解或捕获

2022-11-01 11:37:57

472

Macaw-LLM：具有图像、音频、视频和文本集成的多模态语言建模

尽管指令调整的大型语言模型 (LLM) 在各种 NLP 任务中表现出卓越的能力，但它们在文本以外的其他数据模式上的有效性尚未得到充分研究。在这项工作中，我们提出了 Macaw-LLM，一种新颖的多模式 LLM，它无缝集成了视觉、音频和文本信息。

2023-06-19 10:35:33

462

如何利用LLM做一些多模态任务

本文整理了近两年来基于LLM做vision-lanuage任务的一些工作，并将其划分为4个类别：

2023-05-17 15:02:35

255

如何在生成的代码中使用UVM Register Layer？

寄存器模型一般可以使用工具生成或者从头开始编写

2023-06-05 14:14:02

166

基于长度感知注意机制的长度可控摘要模型

本文的方法是在由原始训练数据构建的摘要长度平衡数据集上训练 LAAM，然后像往常一样进行微调。结果表明，这种方法可以有效地生成具有所需长度的高质量摘要，甚至是原始训练集中从未见过的短长度摘要。

2023-01-06 09:49:44

155

基于卷积神经网络的图像描述生成方法

short-term memory，LSTM）的组合框架在生成图像描述方面解决了梯度消失和梯度爆炸问題，但是基于LSTM的模型依赖序列化的生成描述，无法在训练时并行处理，且容易在生成描述时遗忘先前的信息。为

2021-06-03 14:45:21

如何最好地使用所有可用的 LLM 工具

鉴于价格和质量的广泛差异，从业者可能很难决定如何最好地使用所有可用的 LLM 工具。此外，如果服务中断，则依赖单个 API 提供者是不可靠的，这可能发生在意外高需求的情况下。

2023-05-23 17:22:30

290

Python特征生成作用和生成的方法

的，好的特征可以显著地提升模型效果。这意味着通过特征生成（即从数据设计加工出模型可用特征），是特征工程相当关键的一步。本文从特征生成作用、特征生成的方法（人工设计、自动化特征生成）展开阐述并附上代码。 1 特征生成的作用

2021-03-10 15:53:42

1630

LuxStudio增材制造晶格模型自动生成平台

LuxStudio增材制造晶格模型自动生成平台｜LuxCreo目前，市面上大多数的晶格设计软件几乎都有局限性，比如晶格种类过少、生成的晶胞质量本身有问题、效果不理想，另外软件操作门槛较高等，种种弊端

2022-11-09 10:43:02

微软提出Control-GPT：用GPT-4实现可控文本到图像生成！

该研究提出了一个简单而有效的框架 Control-GPT，它利用 LLM 的强大功能根据文本 prompt 生成草图。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代码形式的草图。如下图 1 (c) 所示

2023-06-05 15:31:48

207

基于关键字的自定义古诗句生成设计与实现

当前，古诗勺生成任务大多基于单一的循环神经网络（RNN结构，在生成时需事先给定一个起始字然后以该起始字为基础进行古诗勺生成，生成过程的可控性较差，往往达不到预期效果。针对以上问题，将注意力机制引入

2021-04-12 15:30:57

突破边界：高性能计算引领LLM驶向通用人工智能AGI的创新纪元

ChatGPT的成功带动整个AIGC产业的发展，尤其是LLM（大型语言模型，大语言模型）、NLP、高性能计算和深度学习等领域。LLM的发展将为全球和中国AI芯片、AI服务器市场的增长提供强劲动力，据估算，LLM将为全球和中国AI服务器带来约891.2亿美元和338.2亿美元的市场空间。

2023-06-25 14:31:15

318