0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数字人“复刻”主播爆火网络,接入大模型有望开启实时互动

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-10-22 07:54 次阅读

电子发烧友网报道(文/李弯弯)数字人(Digital Human / Meta Human)是运用数字技术创造出来的、与人类形象接近的数字化人物形象。近些年数字人发展迅速,在短视频、直播、金融、医疗等各行业上都有所应用。而且随着AI技术的发展,数字人的生成也越来越容易。

在不久前的深圳国际人工智能展,就有众多企业展示其数字人技术,包括出门问问、华为、元境科技、相芯科技等。在展会期间,电子发烧友网记者与现场工作人员进行了详细交流,发现当前数字人技术和应用已经越来越成熟。

可以说多国语言的数字人

此次展会上,华为重点展示了盘古大模型及其行业应用。在其展台上,记者注意到,华为也展示了其盘古数字人直播案例。基于华为云MetaStudio分身数字人,多语种泛化,一次训练匹配多个语种,及多语言克隆,多语言驱动等特点,万兴科技打造了AIGC“真人”出海营销神器万兴播爆视频版及直播版,结合盘古数字人大模型,其实现母语一次训练、多种语言流畅适配,助力企业轻松出海营销。

数字化时代,跨境电商成为了许多企业发展的新方向。然而,从文化差异、语言问题,再到市场洞察、营销引流、用户运营,跨境电商立足海外市场面临重重压力。但全链路AIGC创作的“万能”助理万兴播爆,解决了外籍演员难找、多语言难适配、制作周期长、成本居高不下等痛点,帮助企业大幅降本增效,轻松出海营销。

在今年7月的华为开发者大会2023上,华为宣布,基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务,旨在通过数字人服务和技术赋能,赋能千行百业提升数字内容创作体验和效率。

华为云MetaStudio数字内容生产线,基于华为云盘古基础大模型能力、渲染引擎和实时音视频能力,使用PB级的音视频数据进行训练,构建了数字人通用大模型,包括数字人形象、动作、表情、口型、声音等;每个用户还可以结合个人数据进行训练,构建自己的数字人个性化大模型。数字人生成后,用户通过文字、语音、视频等方式生产驱动向量信息,从而驱动数字人生成高清视频。

除了万兴播爆数字人直播案例之外,现场还展示了多家基于华为云的数字人案例。展会现场,工作人员告诉电子发烧友,目前市面上有很多通过图片、文字生成的数字人,看上去是平面的,并不立体,华为云MetaStudio分身数字人看上去跟真人很相似了。对于数字人直播能否现场互动的问题,现场工作人员表示,当前数字人直播基本难以做到现场互动,不过通过盘古大模型,后续会继续进行优化,使得数字人能够实时回答现场用户提出的部分问题。

展会现场,出门问问的展台吸引了不少观众驻足观看。出门问问成立于2012年,是一家以生成式AI与语音交互为核心的人工智能公司。该公司拥有领先的AI基础设施能力、前沿通用大模型能力(自研大模型「序列猴子」),以及丰富的垂直领域软硬结合的优化算法技术模块,是为数不多的同时服务于消费者、企业、创作者三大类不同群体的公司。

出门问问打造的AI数字人分身奇妙元,是一款专注于数字人短视频和直播服务的软件。包括多类型数字人和百种语言。据现场工作人员介绍,只需输入一段文本内容就能生成数字人视频,几秒钟就能完成,制作起来非常方便。

出门问问提供4种超前沿的克隆与定制服务,包括真人形象克隆、声音克隆、3D数字人定制和IP活化。比如真人形象克隆,可以实现真人形象1:1还原,只需录制一个5分钟视频,即可终身使用,输入文字数字人即可说话,表情神态接近真人。

奇妙元数字人视频制作非常简单,一键就可以将文本合成视频。相比于传统视频制作,奇妙元视频制作的优势在于:1、速度非常快,即使是制作一个真人口播视频,也仅需5分钟;2、数字人视频,可随时修改文本,随时生成;3、数字人更智能,一个数字人可说10国语言,500种声音。

如今数字人已经适用于各种应用场景,包括新闻播报、科普服务、培训视频、线上客服、带货种草、产品宣传、企业代言、金融宣传等。出门问问还提供形象和声音克隆,比如医生、律师等各种需要大量科普的职业,非常适合克隆自己的形象做数字人。

虚拟数字人涉及哪些前沿技术

在此次展会上,除了体验到快速生成数字人之外,我们也看到了数字人生成所涉及到的诸多技术。在参展的企业中,有一家提供全栈式虚拟数字人多场景应用解决方案服务的企业元境科技,该公司成立于2021年12月,由A股上市公司天娱数科战略投资。

元境科技以元享SaaS云平台、元趣AI为基础,通过计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机技术,并打通AI智能交互设备链接,快速打通AI在各个垂直场景中的应用,赋能各行业。元境科技核心技术团队从2016年开始布局虚拟人业务,拥有全球顶尖的动态光场扫描、三维重建算法、无标记点视觉捕捉、AI语音驱动等前沿技术,在北京总部拥有400平米XR动捕基地。

虚拟人生成SaaS云平台“元享”,是以底层数据为核心生成各类产品应用的架构平台。从元境科技提供的材料来看,其包含动态光场扫描建模、三位重建算法、AI驱动、XR动捕基地等技术。制作流程上:1、动态动态光场扫描真人;2、AI算法进行三维重建;3、AI动画绑定;4、渲染;5、AI驱动。

数据方面,元境科技拥有LightStage扫描建模技术,包括面部三位模型与重光照数据采集、亚微米级别超高精度输出等;专业级表演捕捉技术,包括400平米超大动捕棚、实时多人动捕、实现线上线下同步直播;3D视觉捕捉芯片技术,包括3D视觉深度引擎、3D传感和AI计算、SLAM实时跟踪建图引擎。

算法方面,表情学习模型:1、利用LightStage对被采集人员面部动态表情进行扫描数据采集;2、自研SaaS平台对采集数据进行深度学习;3、一键生成虚拟形象独有的动态表情数据库。保障在数字人生成内容时高度还原真人在说话时的面部神经反应与细微表情。

AI算法表情驱动:利用综合动捕方案与自研智能算法,在直播期间可实现面部细微表情的高速传递与智能修正。

元境科技基于全球领先的完备人工智能元鲸框架,推出了数字员工产品线,从数据采集、训练到上线,最快仅需10小时。支持创建拥有情感交互能力、专业技能和内容生产能力的数字人,目前已被应用于很多领域及场景中。

记者在展会现场还看到一家提供数字人服务的企业相芯科技,据现场工作人员介绍,他们公司不直接给C端用户提供生成数字人,而是为需要制作数字人的企业提供SDK,让这些企业能够基于他们的SDK快速的生成数字人。

相芯科技成立于2016年,由全球图形学顶级专家领衔,团队成员来自微软、苹果、华为等国际知名企业。自研的“数字人平台AvatarX”和“数字物平台ObjectX”可刻画人的音容笑貌,描绘物的流光溢彩,已服务数千家海内外企业,实现手机、电商、金融、汽车、互娱、融媒体、政务、文博等领域的规模化应用。

此次展会重点展示其AvatarX数字人平台,该平台依托独创的“虚拟数字人引擎”,为各行各业提供从虚拟形象生成、自定义、驱动、云渲染到应用于一体的跨平台数字人解决方案。用户可通过组合不同能力的SDK,打造更面向未来的,更具差异化的数字人应用产品和数宇资产,赋能元宇由生态布局。

相芯科技拥有全栈数字人技术和全品类数字人产品,包括卡通数字人、视频数字人、超写实数字人、仿真数字人、全真数字人。应用场景包括社交、短视频创作、智能客服、虚拟主播、品牌代言人、智能车载等。相芯科技数字人方案具有诸多优势,比如形象自由生成;支持面部驱动、身体驱动、手势识别、语音驱动;支持实时云端渲染,兼容第三方渲染引擎;不同能力SDK自由组合,帮助开发者快速构建不同应用程序等。

在通过AvatarX SDK DEMO进行体验的时候,可以发现,AI形象生成非常快,只需上传照片,便可一键生成还原度极高的虚拟形象。该平台还支持形象自定义,支持拼脸扭脸、身体捏形、服饰美妆等不同方式对虚拟形象自定义编辑。据介绍,云平台为用户提供海量素材自由选择搭配,并保持定期更新与维护。

根据其官网介绍,其AI面部驱动支持51个维度的面部表情检测与3个维度的舌头活动检测,实时人脸追踪技术实现真人与虚拟人表情同步,即使只有侧脸也能稳定使用。AI身体驱动,通过实时驱动跟踪技术,实现真人与虚拟人动作同步,共同支持全身31个人体点位、26根骨骼方向驱动,单手21个手部点位。AI语音驱动,通过文本或语音驱动虚拟人口型,集成TTS、ASR和NLP服务,支持多种音色自由切换支持虚拟形象情绪和表情设置,并能控制虚拟形象肢体动作。

此外,用户的虚拟形象不仅可以与其他虚拟形象互动,也可与虚拟场景、虚拟道具互动,支持多人聊天功能与视频远程共享功能并实现了WebRTC服务集成。

小结

当前已经有不少虚拟数字人出现在短视频创作、直播等场景中,然而可以看到,不少数字人在表情、动作、语言方面与真人相比还相差甚远,在直播中数字人也无法进行互动,体验还有待提高。虚拟数字人的制作涉及很多技术,包括数据采集、动作捕捉、AI驱动、渲染等,要想让数字人有更好的体验,每个技术环节都需要打磨好。另外大模型的接入也让数字人在直播中能够互动有了可能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数字人
    +关注

    关注

    0

    文章

    80

    浏览量

    1652
  • 大模型
    +关注

    关注

    2

    文章

    584

    浏览量

    226
收藏 人收藏

    评论

    相关推荐

    长春电视台数字总控系统

    网络化、智能化设计,适应全台网发展要求,系统备份周全,播出安全性可靠性高。【关键词】:数字总控系统;;视频服务器;;切换台;;矩阵;;应急备份【DOI】:CNKI:SUN
    发表于 04-23 11:22

    一种新型的ASON安全组信令协议

    模型,通过数字签名和消息反馈等安全机制,对信令消息中的不变对象和重要可变对象实施保护。考虑到组成员的动态变化特性,采用高效的组密钥
    发表于 04-23 11:32

    基于IP组的校园网视音频实时答疑系统的研究

    网络技术的广泛应用,网络实时答疑系统突破传统教学以文字和图片为主的教学限制,使教师与学生跨越时间和空间上的距离实现实时的多媒体教学和互动。系统在设计上可分为软件与专用硬件
    发表于 03-06 18:29

    全球首个AI合成上岗新华社,可24小时不间断工作

    ——“AI合成”,运用最新人工智能技术,“克隆”出与真人主拥有同样播报能力的“分身”。这不仅在全球AI合成领域实现了技术创新和突破,更是在新闻领域开创了实时音视频
    发表于 11-17 09:25

    搜狗与新华社联合发布全球首个站立式AI合成

    ,新的AI合成将从过去的“坐着新闻”升级成结合肢体动作的“站立
    发表于 02-25 09:28

    最近nad数播放老卡,有没有性价比比较高的网络数字音乐播放器推荐?

    播放老卡,有没有性价比比较高的网络数字音乐播放器推荐?
    发表于 03-24 10:39

    基于NGB接入网的组复制点研究

    接入网 的主要模式,揭示组复制点在组传输中的重要地位。重点分析了组复制点和组控制点的原理、规划,实际应用中的网络设计,面临的
    发表于 07-02 18:22 727次下载
    基于NGB<b>接入</b>网的组<b>播</b>复制点研究

    森林防火网络监控解决方案

    火网络监控解决方案设计
    发表于 11-08 17:44 13次下载

    基于多机制的层次型网络实时无缝切换的研究_杜若苏

    机制的层次型网络实时无缝切换的研究_杜若苏
    发表于 03-17 16:57 0次下载

    阿里语音机器首次实现与实时互动 反应速度是Siri的20倍

    首次实现与实时互动。直播过程中,数十万用户同时用语音回答李佳琦的提问,最终机器人在50毫秒内就完成了语音识别和语音反馈全过程
    的头像 发表于 11-02 17:47 1786次阅读

    投石科技人像复刻互动装置的介绍

    互动是不是更有趣。投石科技的人像复刻机就是一个有趣互动装置。该人像复刻互动装置采用3D写实的创作概念,通过4K
    发表于 09-27 15:26 1139次阅读
    投石科技人像<b>复刻</b>机<b>互动</b>装置的介绍

    元宇宙虚拟数字将进入快速发展时期

    数字成为网络、新闻、体育教练,多样化的虚拟数字使这一虚拟概念具体化。
    的头像 发表于 06-27 17:53 855次阅读

    ChatGPT火:谷歌、Meta等压力大 OpenAI全新聊天机器模型

    火:谷歌、Meta等压力大 OpenAI全新聊天机器模型火 人工智能研究实验室OpenAI于2022年11月30日发布了全新聊天机器模型ChatGPT;现在ChatGPT
    发表于 01-30 16:28 723次阅读

    众多企业宣布接入ChatGPT、GPT-4,虚拟数字有望迎来拐点

    模型大火,不少企业宣布,将虚拟数字接入ChatGPT、文心一言等,这意味着将为虚拟数字装上最强AI大脑,虚拟人的发展将迎来拐点。 众多虚拟人将接入GPT、文心一言等大模型 天娱数科是一
    的头像 发表于 05-01 06:12 2652次阅读
    众多企业宣布<b>接入</b>ChatGPT、GPT-4,虚拟<b>数字</b><b>人</b><b>有望</b>迎来拐点

    华为发布盘古数字模型,或可达到“人人实现‘数字’”

    有望实现‘数字’自由”。 据悉,盘古数字通用大模型由华为云 MetaStudio 数字内容生产线构建而成。数字基于华为云盘古基础大模型能力、渲染引擎和实时音视频能力,并使用 PB 级的音视
    的头像 发表于 07-31 10:33 457次阅读