0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个真实闲聊多模态数据集TikTalk

深度学习自然语言处理 来源:NLP工作站 2023-02-09 09:31 次阅读

介绍

随着大量预训练语言模型在文本对话任务中的出色表现,以及多模态的发展,在对话中引入多模态信息已经引起了大量学者的关注。目前已经提出了各种各样的多模态对话数据集,主要来自电影、电视剧、社交媒体平台等,但这些数据与真实世界的日常聊天对话之间还是存在一些差距。

对话形式过于同质化。视频中的现场评论缺乏明确背景,更偏向于评论,并充斥着重复的数据用来活跃气氛。而从影视剧中提取出来的对话内容或解说员根据指定图片提出的对话内容,都不是现实对话场景中自然生成的聊天,而是为了推动情节发展设计的一些人物台词或高度依赖形象。

缺乏对话的时间顺序。现实世界的多模态对话场景可能包含具有时间顺序的不同上下文,而目前大多数数据集中的静态图片所能提供的信息有限,限制了对话参与者在主题方面的多样性。并且不同的语言语境中存在着独特的表达方式和流行文化,很难进行翻译或迁移到其他语言。

588c0238-a808-11ed-bfe3-dac502259ad0.png

因此,该论文提出了具有独特特色的中文多模态对话数据集-TikTalk。TikTalk是基于视频的真实世界人类聊天语料库,是开放域的,并由用户自发生成非故意创建的数据集。其中,与图像、音频和外部知识相关的回复占比分别为42%、10%和34%,如图1(a)所示,聊天源于视频内容,图1(b)中的“其他表演”和舞蹈分析需要一些外部知识,图1(c)中的对话建立在音频内容之上。

58a35c12-a808-11ed-bfe3-dac502259ad0.png

最后采用排名、相关性和多样性三种度量指标对现有生成模型进行分析,发现模型与人类表现仍有很大差距,在TikTalk数据集上有相当大的改进空间。

TikTalk Dataset

TikTalk数据集从抖音上采集,其抖音拥有超过25个大类的视频,如教育、美食、游戏、旅游、娱乐等。每个视频都有作者提供的标题和用户的评论。用户可以在视频和一级评论下进行进一步的讨论,这接近于现实世界面对面的多模态聊天场景。

Data Construction

该论文收集了2021年在抖音上发布的视频,以及标题、评论和回复。为了保护隐私,没有抓取任何用户信息。由于视频基数大,视频质量良莠不齐,大部分视频只有一级评论,无法构成对话语料库。由于视频高赞、评论高赞表示用户评分高,因此在爬取数据时通过点赞数过滤低质量的视频和评论。

数据清理时,用正则表达式过滤掉句子中无用的内容,例如:“@某人”、重复的词语、以及一些不道德的言论等;此外,评论中带有的表情符号,通常可以表明用户的情绪,因此,从对话中提取它们,并作为附加信息。

Data Statistics

该论文共爬取153340个视频,最终获取38703个视频和367670个对话来构建TikTalk数据集。将训练集、验证集和测试集按照35703、1000和2000进行划分,详细统计数据见表2。

58b595ee-a808-11ed-bfe3-dac502259ad0.png

可以看出,视频平均长度为34.03s,提供了丰富的视频和音频信息;每段对话的平均轮数为2.25,由于对话的文本上下文较短,回复更有可能来自视频或外部知识。

Data Analysis

TikTalk数据集有如下几个特征:

高度自发和自由,对话是由用户观看视频后发起,没有任何的预先的意图及指导,类似于现实世界中的日常闲聊。

多种模式,对话上下文包括相关的图像、音频和文本,提供了更多样化的信息来源,同时也对聊天场景进行了更多的限制,提高了回答的可信度标准。

开放领域的,由于社交平台是开放域的,讨论话题也十分丰富。

观察数据发现,对话回复中经常包含与上下文信息相关的词语,例如:图1(a)中的“it”为视频中的“海鸥”,图1(c)中讨论了音频描述的故事,图1(b)中的回复中为上下文观点,并分析了视频外的其他节目,与个人经验及常识相关。因此,该论文分析了数据及中数据与各种信息相关的响应占比,包括视频中的视觉内容和音频内容、文本内容及隐形的外部知识。采用众包的方式进行数据标注,并选择另外其他三个具有代表性的对话数据集(每个数据集随机选取300个样本)进行对比。

从回复中提取名词和代词,要求标注人员判断这些词语或完整的回复是否是指:(1)视频上下文;(2)音频上下文;(3)文本上下文;(4)隐藏外部知识;(5)其他。并且,回复可以涉及多种模式的信息。

四种数据的比较如图2(a)所示。TikTalk数据除去文本上下文和外部知识后,信息源占比最高,表示视频中的图像和音频可以提供更多的信息。来自外部知识的回复比例最高(约33%,说明),说明多模态上下文更丰富时,会引入更多与当前对话相关的新信息。

58f0acc4-a808-11ed-bfe3-dac502259ad0.png

进一步探究IGC和TikTalk之间的差异,研究当对话轮数数增加时,IGC和TikTalk对不同上下文的依赖性,如图2(b)和(c)所示。IGC数据集中图像与对话的比例显著下降,而TikTalk数据集中没有这种趋势。可能是因为IGC的每个对话中只使用一个图像,随着时间的推移,可用的信息越来越少。

Experiments

采用三个自动指标(相关性、排序、多样性),从多个角度评估模型在TikTalk上的性能,

相关性:针对模型生成的回复,与5个金标准计算BLEU-2、BLEU-4 、Meteor、Rouge-L和CIDEr。

排序:每段对话构建一个100个样本的候选集,其中包括5个金标准和95个随机选择的错误回复。在推理阶段,模型根据生成每个回复的对数似然分数降序对候选集进行排序。计算Recall@K和Mean Rank。

多样性:计算回复的Dist-1和Dist-2指标。

从不同的任务和设置中评估一些最先进的对话模型,包括:Livebot、DialoGPT、Maria、Maria-Audio、Maria-C3KG等。为了适应TikTalk的特点,在现有的基于图像的对话模型中引入音频和外部知识作为输入,并分别对模型的性能进行评估。

实验结果如表3所示,可以看出TikTalk与以前的任务和数据集有很大不同,需要更强大的多模态对话模型。

590947b6-a808-11ed-bfe3-dac502259ad0.png

从测试集和上述基线模型生成结果中选择了一些数据示例,对比结果如图3所示。由于视频场景和用户个性的多样性,TikTalk数据集需要复杂的理解和推理能力。虽然部分基线偶尔可以产生一些合理的响应,但它们远远不能满足现实世界多模式对话的期望。

591d544a-a808-11ed-bfe3-dac502259ad0.png

总结

中文数据集,且用且珍惜。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • IGCT
    +关注

    关注

    1

    文章

    22

    浏览量

    15903
  • 数据集
    +关注

    关注

    4

    文章

    1036

    浏览量

    24088
收藏 人收藏

    评论

    相关推荐

    lABCIWQmultyWindows模态窗口2010

    模态窗口2010。
    发表于 05-17 17:47 0次下载

    基于模态特征数据标记迁移学习方法的早期阿尔茨海默病诊断

    种基于模态特征数据标记迁移学习方法,并将其应用于早期阿尔茨海默病诊断。所提方法框架主要包括两大模块:标记迁移学习
    发表于 12-14 11:22 3次下载

    文化场景下的模态情感识别

    非常具有挑战性的课题,并且有着广泛的应用价值.本文探讨了在文化场景下的模态情感识别问题.我们从语音声学和面部表情等模态分别提取了不同的情感特征。包括传统的手工定制特征和基于深度
    发表于 12-18 14:47 0次下载

    基于注意力神经网络的模态情感分析方法

    模态数据不断増长。相比单模态数据模态数据包含的信息更丰富,更能揭示用户的
    发表于 04-28 14:41 8次下载
    基于注意力神经网络的<b>多</b><b>模态</b>情感分析方法

    关于模态机器学习综述论文

    数据包括多个这样的模态时,其特征在于模态。 本文主要关注但不仅仅关注三种形式:自然语言既可以是书面的,也可以是口头的; 视觉信号,通常用图像或视频表示; 和声音信号,编码声音和口头信息,如韵律和声音表达。
    的头像 发表于 01-21 13:38 8129次阅读

    DocumentAI的模型、任务和基准数据

    模态大火的,越来越多的任务都被推陈出新为模态版本。譬如,传统对话任务,推出了考虑视觉信息的模态数据;事件抽取,也推出视频形式的模态版本;就连 grammar induction(语法归纳),也有了
    的头像 发表于 08-22 09:55 1025次阅读

    面向社交媒体的模态属性级情感分析

    方面,相比于单的文本数据模态数据包含了多种不同信息,这些信息之间往往一一对应、互为补充,如何对齐不同模态的内容并提出有效的模态融合机制是十分棘手的问题。
    的头像 发表于 10-19 10:10 1016次阅读

    中文模态对话数据

    模态的发展,在对话中引入模态信息已经引起了大量学者的关注。目前已经提出了各种各样的模态对话数据,主要来自电影、电视剧、社交媒体平台等
    的头像 发表于 02-22 11:03 421次阅读
    中文<b>多</b><b>模态</b>对话<b>数据</b><b>集</b>

    模态GPT:国内发布款可以在线使用的模态聊天机器人!

    模态模型 OpenFlamingo,作者使用公开数据创建了各种视觉指令数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,还使用仅包含语言指令数据的语言模型组件进行了训练。
    的头像 发表于 05-12 09:55 559次阅读
    <b>多</b><b>模态</b>GPT:国内发布<b>一</b>款可以在线使用的<b>多</b><b>模态</b>聊天机器人!

    模态上下文指令调优数据MIMIC-IT

    理想的 AI 对话助手应该能够解决涉及多种模态的任务。这需要获得多样化和高质量的模式指令跟随数据。比如,LLaVAInstruct-150K 数据(也被称为 LLaVA)就是
    的头像 发表于 06-12 16:36 239次阅读
    <b>多</b><b>模态</b>上下文指令调优<b>数据</b><b>集</b>MIMIC-IT

    模态数据定制服务:提升智能化应用的关键利器

    数据堂是您的理想合作伙伴。 作为家领先的数据科技公司,数据堂致力于提供模态数据定制服务,帮助企业实现数据驱动决策和智能化转型。数
    的头像 发表于 06-18 21:24 81次阅读

    VisCPM:迈向多语言模态大模型时代

    模态能力的突飞猛进,模态大模型已经成为大模型迈向通用人工智能(AGI)目标的下一个前沿焦点。总体而言,面向图像和文本的模态生成能力
    的头像 发表于 07-10 10:05 117次阅读
    VisCPM:迈向多语言<b>多</b><b>模态</b>大模型时代

    全球首个面向网联智能车的通信与模态感知数据发布

    车和多路端的通信与模态感知数据Mixed Multi-Modal Sensing and Communication (M3SC)。
    的头像 发表于 07-13 15:20 162次阅读

    更强更通用:智源「悟道3.0」Emu模态大模型开源,在模态序列中「补全切」

    模态上下文少样本学习能力。 Flamingo 走的技术路线是将大语言模型与预训练视觉编码器结合,并插入可学习的层来捕捉跨模态依赖,其采用图文对、图文交错文档、视频文本对组成的模态数据训练,在少样本上下文学习
    的头像 发表于 07-16 20:45 169次阅读
    更强更通用:智源「悟道3.0」Emu<b>多</b><b>模态</b>大模型开源,在<b>多</b><b>模态</b>序列中「补全<b>一</b>切」

    UniVL-DR: 模态稠密向量检索模型

    数据,然而多媒体内容的增长直是互联网上最显着趋势之,各种研究表明用户更喜欢搜索结果中出现生动的模态内容。因而,针对于
    的头像 发表于 08-06 22:00 161次阅读
    UniVL-DR: <b>多</b><b>模态</b>稠密向量检索模型