严选除了APP自建直播,也在多个渠道落地
直播已成为电商重要的营销方式,但直播商存在人力成本高、直播时间有限等问题。 严选不仅在APP上打造了自己的直播,还在天猫、京东等渠道推出了直播业务。 为了低成本覆盖更多直播场景,严选与伏羲合作开发了一套可以24小时人工进行直播和互动的虚拟直播技术系统,并已在多个渠道落地。 本文将从技术架构、虚拟人技术、人工素材生成、智能交互等方面介绍相关实践。
一、背景
经过多年的发展,直播已成为网络电商平台重要的推广和销售模块。 直播间高性价比的产品、丰富全面的产品介绍以及主播用户之间的互动,促使用户观看内容并下单。 越来越多的用户也开始通过直播了解品牌、购买产品。 为了充分利用直播场景,严选的技术团队也开始探索,不仅是这个环节的日常内容运营,还有是否有从其他角度切入的空间,以降低成本、提高效率。
1.1 直播
往年正常的直播中,通常会有1~2个真人来到直播间进行现场录制,为观众讲解、演示产品,主播也会通过后台系统或者手机获取观众的评论,并与观众进行互动。 直播的方式特别适合一些需要试穿、品尝的环节。 直播中的实时反馈和互动也会让人产生更强的信任感,达到更好的投放效果。
但对于一些品牌运营商和直播公司来说,直播商也有一些固有的痛点需要解决。
内容
1.2 严选遇到的问题
作为电商平台,严选还搭建了自己的APP直播系统,全天候都会有直播。 同时,作为商品品牌,严选还将在网上商城、京东、抖音等其他第三方渠道和平台开设店铺,并举办相应的直播服务。
目前,严选已在全渠道开设数十家门店。 由于店铺类型和平台要求不同,直播内容也需要不同。 但如果每家门店想要举办直播,就需要聘请同等数量的直播团队进行覆盖,这给直播的运营管理和ROI控制带来了一定的挑战。
2. 解决方案
2.1 程序特点
了解了这类问题后,技术团队从技术角度思考如何切入这个场景,既能有直播的关注度和流量,又能完全控制随着门店数量减少而线性下降的成本。 经过一系列考察,严选人工智能团队与网易伏羲合作,引入AI虚拟人司机,建立了集虚拟图像、人机对话、实时直播等多种技术于一体的虚拟直播系统。
该系统具有以下特点:
这些系统的好处是:
其实也可以直观地发现,这样的系统将会高度依赖于虚拟直播内容的质量和数量、虚拟人的外观以及智能交互系统的智能程度。 因此神户Live,为了做好虚拟直播系统,需要分别解决这些子问题。
2.2 技术框架
经过可行性考察和实际实践,严选制作了以下虚拟直播技术框架:
该系统可分为四层:
最底层是直播任务的基础配置,包括直播间的排版、最原始的脚本内容、直播开始时间、哪个频道直播等,技术栈和平时的后台配置系统有关。 第二层是直播内容的控制,决定现在需要展示什么样的内容,以什么方式展示,是否要实时调整剧本。 这里的技术会涉及任务流调度、数据爬虫、智能问答、WebSocket单向消息通信等。部分内容可能会通过评论区直接展示,不会传递到渲染层。 第三层是渲染层,它将所有需要发布的内容进行聚合叠加,按照预定义的布局进行渲染,生成符合要求的视频流数据。 这里的技术会涉及到WebGL渲染、前端排版、人物建模、语音合成、动作生成等。第四层是直播内容的推送,将第三层建立的视频数据推送到特定渠道(比如严选APP、淘宝等)。 主要技术包括RTC流、虚拟相机生成等。
可以看出,整个系统本身并没有强绑定于特定的渠道,相对独立。 通道绑定的脚本和相关配置可以通过配置系统动态生成或支持实时更改。 其中第三层的虚拟人部分与伏羲合作,目前以WebSDK或Unity客户端的形式提供。 通过套接字输入要播放的文字,自动生成动作视频和语音,然后由后端系统集成到最终屏幕中。
从内容生产的角度来看,整个系统的本质是实时不断地生产各类内容,同时动态决定下一阶段的内容,并将其有机地整合在一起。 最后就可以收到直播推送了。
而如果从数据流的角度来简化,虚拟直播项目可以分解为以下五个核心步骤:
预筛选内容布局和渲染内容推送收集用户反馈根据用户反馈,智能决定下一步内容,返回第一步
2.3 VS中人物虚拟直播
有些人可能也看过B站或者其他媒体的一些虚拟人直播,比如二次元的若天一、写实的许安忆、金橘2049、A魂等,画面和人物的灵活性都比较高。
那么这些直播是如何制作的呢? 和我们要介绍的系统有什么联系呢? 在完全人工的虚拟直播下来之前,为了解决内容输出的新颖性、主播形象虚拟化等问题,市场上出现了中级类型的虚拟主播。 实现的方法是先通过2D或3D建模创建虚拟图像,然后通过眼球捕捉和动作捕捉,由真人驱动幕后的虚拟人进行直播活动。
B站上大量的二次元博主也采用了这种直播方式。 这些技术在业内被称为“众智人直播”。 根据采用的技术方案,会分为几个层次:背部动作捕捉、半身动作捕捉、全身动作捕捉。 为了达到更好的表演效果,通常需要采用肢体动作捕捉的解决方案(如右图)。
由于众智人的直播给后期特效制作带来了很大的修改空间,很容易做出更多非常规的疗效,因此从普通的直播内容(如抖音的猕猴桃、许安忆)中脱颖而出。 但众智人的直播本质上没有解决直播时长覆盖率高、成本高、容易出错的影响。 同时,动作捕捉等设备的引入也带来了一些额外的设备成本。 这些解决方案更适合直播间较少、内容以娱乐为主、制作资金充足、有专业艺人和后勤保障人员的团队。
用下表来比较直播、现场直播、纯虚拟直播的区别:
现场直播
中间的人住
纯虚拟直播
场地要求
居住地点
特别绿幕场地
没有任何
设备要求
灯光、相机和其他摄影设备
根据技术类型,有动作捕捉设备、光学设备、摄像机等。
服务器
人员配置需求
主播、助理等
专业艺术家、助理等
没有任何
内容编程需求
产品选型、主播个人表现
表演剧本、主播个人表演
固定策略和剧本
内容优缺点
主播具有个人魅力和高度信任感,疗效仅限于主播
内容新颖,选秀节目较多,疗效上限与主播和特效团队有关
内容相对固定,信任感差,疗效上限在于技术团队
内容导向
携带物品或娱乐
娱乐、虚拟偶像
带货
流媒体形式
标准流媒体
标准流媒体
标准流媒体
总成本
更高
高的
低的
可以看出,三种直播形式主要在内容制作方式、对设备和人员的依赖上有所不同,但最终都通过相同的方式来推送内容。 我们要推出的虚拟直播主要是从节省人力的角度出发,但同时也确实存在内容吸引力和信任度不足的问题。
3. 实用细节
下面将从虚拟人技术、素材手动化、智能交互、直播控制等方面介绍相应的技术细节。
3.1 虚拟人
虚拟人可以说是虚拟主播的核心灵魂,承担了主播“人”的部分。 它需要像真人一样才能说话、有适当的表情和身体动作,但在视觉上它必须更接近真人。 这里严选与技术相对成熟的伏羲合作,以Unity客户端或者WebSDK的形式将伏羲的虚拟人技术引入到项目中。 输入一句文字,客户端就会开始进行语音讲解,同时匹配合适的表情和动作。
这里涉及到四个子任务:
上述技术本文不会过多介绍。 有兴趣的朋友可以通过伏羲的相关文章来学习和了解。 例如,在论文《Audio2Head: Audio-drivenOne-shotTalking-headGeneration with NaturalHeadMotion》中,提出了一种通过语音输入手动输出回声视频的解决方案Audio2Head。 该方案单独对头部运动进行建模,并提出了一种基于空间编码的神经网络来进行自然头部运动序列预测。 为了对整个图像与语音相关的运动进行建模,伏羲团队提出先用语音驱动整个图像的稠密运动场,然后稠密运动场指导图像合成。 那么如果角色模型本身已经是3D建模导出的,那么整个背部动作的预测空间就会更小,大部分只需要转化为指令集的映射即可。
3.2 物料手册生成
虚拟人是承担内容讲解的“讲述者”,讲解的好坏更多地取决于所讲解的内容。 对于一个真正的人来说,因为他会充分发挥个人的主观能动性,所以他会有真正的尝试品尝的感知,以及作为销售专家的一套具体的说话技巧,然后整合产品本身的一些标准参数和设计,形成现场讲解过程。
按照目前的智能化水平,虚拟主播想要通过人工操作达到与真人一样的疗效是不现实的,所以仍然需要依靠真人的辅助来制作高质量的文案和产品介绍,但输出的结果可以被机器无限次地手动使用。 这种方法有一个问题,需要人工协助。 面对大量需要讲解的产品,每个产品的素材脚本都由专家来完成是不现实且成本高昂的。
那么这里从技术出发,我们需要机器和算法的力量参与到这个过程中,它起到两个作用:
具体来说,根据素材类型的不同,产品标题、产品文案、产品视频、游戏素材都会有不同的重构方式。 对于这些素材的手动合成,严选也建立了相应的技术支撑体系,涉及NLP和CV领域的各项技术,大致可以分为三个层次:基础能力、素材挖掘和模板整理。
3.2.1 商品名称
在直播场景中,每个商品最重要的信息就是标题。 但传统的天猫式长标题(“汽车遮阳伞、后窗遮阳帘、防晒、隔热、遮阳帘、前挡风玻璃板、车根浴帘”),或者文艺风格的标题(“写下爱的篇章,莫扎特铅笔墨水礼盒”),不适合在不适宜文字显示的直播间使用。 通常,虚拟直播的正确排版只为产品标题留下8个字符左右。
那么如何为这些商品制作出相对较短的标题,同时保留核心信息就成为了一种需求。
为了解决这一需求,严选借鉴了业界经典的改进变压器端到端模型。 这个过程可以理解为摘要提取的过程,从原来的长诗中提取出关键信息摘要。
然而,这个seq2seq模型的训练也需要一定量的标记数据。 为了解决数据冷启动的标记问题,这里使用启发式方法,基于依赖复合句树和NER模型生成一些规则来提取短标题。 用一个例子来解释一下,如右图所示。
对于算法策略产生的数据,手动校准就足够了。 这样,创建样本数据的速度会比纯手工手写快很多。
3.2.2 商品文案
产品播文的方式通常是围绕目标产品做200-300字左右的介绍文案,需要介绍产品的基本信息和重要卖点,同时穿插一些促销信息。 因此,为了将内容的丰富性、可读性和业务需求融为一体,主要采用抽取式和模板方式相结合的方式。 提取法的主要流程如右图所示:
3.2.3 游戏素材
为了提高直播环节的趣味性直播聚合平台,直播间里会设计一些小游戏,一般会有猜画什么的游戏。 直播屏幕上出现了简笔画或者具象的绘画内容,书法的内容一点一点出现。 之后,用户在评论区输入答案进行问答,最先回答正确的人可以获得奖品。 从技术角度来看,需要解决的是如何快速手动生成那些满足需求的游戏素材视频。
我们的做法是首先从quickdraw网站上搜索很多不同的有趣的图片。 如下图所示的龙虾图。 然后您需要将其转换为逐帧视频文件。 方法很简单:
最近,我们还注意到一些Text2Image模型,例如CogView、DALLE等,可以通过输入自然语言文本来生成相应的图像。 这些模型也非常适合批量生产可画可猜的游戏素材。
3.3 智能交互
在虚拟主播场景中,交互方式是用户在评论区输入需要关注的问题或词语,后台程序收到后进行分析判断,然后在评论区进行文字回复,或者生成内容供虚拟主播口播,甚至实时生成多媒体内容,放到直播间渲染展示。
对于虚拟主播的智能交互部分,严选团队认为其与智能客服会有非常高的相似度,因此是在现有智能客服系统的基础上,进行了一定程度的改造。 其实两者的场景会有些不同,但是核心的题匹配算法和知识库存储方式似乎是一样的,所以这里只是简单介绍一下。
智能客服
虚拟主机
互动人数
1VS1
1VSN
会话上下文
订单页面或业务详细信息页面等条目
现场直播
目标
售前、售中或售后
预售
用户输入
文字、图片、顺序等