ic制作视频,自动生成短视频软件
chanong
|机心柱
土坯研究
Adobe Research 的研究人员提出了一种方法,可以自动生成包含人类主体的视频的精彩集锦。无需手动注释或用户偏好信息即可完成训练,我们的方法优于现有的匹配人工亮点的最佳方法。 4至12。
以人为中心的视频是专注于人类执行和表达活动、任务和情感的视频。此类视频极大地促进了线下和线上个人和共享媒体的快速增长。这些视频来自各个领域,包括业余体育和表演、讲座、教程、视频博客(vlog) 以及野餐和假期旅行等个人或团体活动。然而,未经编辑的、以人为中心的视频往往包含大量不相关且无趣的内容,因此必须对它们进行编辑和标记才能有效观看。
为了解决这个问题,正在考虑许多方法来自动检测突出显示的片段或摘录并总结视频。对于未经编辑的镜头,亮点检测的目的是检索预定义的感兴趣时刻,而摘要提取的目的是计算最相关和最具代表性的摘录。发现有效的突出显示内容不仅可以加快浏览速度,还可以增加您的突出显示内容被共享和推荐的可能性。现有方法通过监督学**实现这种高光检测,但它们必须依赖于手动标记的高光片段或不同高光类别的示例。此外,这些技术没有明确地模拟人类活动或人际关系,而这与大多数现实世界视频的主要焦点密切相关。
是否可以在不需要人工标注的情况下生成以人为中心的视频精彩片段?最近,我们提出了一种自动生成包含人类主体的视频精彩片段的方法。无需手动注释和用户偏好信息来完成训练,我们的方法优于现有的最佳方法在匹配人工标注方面:准确率分别提高了4%和12%。该工作已被ICCV 2021 接受。
论文链接:https://arxiv.org/pdf/2110.01774.pdf
如果您想进一步联系我们,请联系作者。
嘎乌(gawu@adobe.com),
https://wugangwu.github.io
在本文中,我们提出了一种独立于领域和用户偏好的方法来检测以人为中心的视频精彩片段。我们使用基于图形表示的技术来处理视频中可观察到的多种以人为中心的模式,例如姿势和面部。我们使用具有时空图卷积的自动编码器网络来检测基于这些模式的人类活动和交互。通过训练基于帧表示的网络,我们映射不同模态的基于活动和交互的潜在结构表示,以突出显示每个帧的分数。这些分数用于计算哪些帧脱颖而出,并将相邻帧组合起来创建摘录。我们在大规模动作数据集AVA-Kinetics 上训练网络,并在四个基准视频集锦数据集:DSH、TVSum、PHD 和SumMe 上对其进行评估。在这些数据集中,与最先进的方法相比,在不需要用户偏好信息或新数据集的参数调整的情况下,匹配人工注释的亮点的平均准确度提高了4% 到12%。
1.首先
以人为中心的视频是专注于人类执行和表达活动、任务和情感的视频[62,50]。此类视频极大地促进了离线和在线个人和共享媒体的快速增长[8]。这些视频来自各个领域,包括业余体育和表演、讲座、教程、视频博客(vlog) 以及野餐和假期旅行等个人或团体活动。然而,未经编辑的以人为中心的视频往往包含大量不相关和无趣的内容,必须对其进行编辑和标记才能有效观看[47]。
图1:使用以人为中心的模式检测突出显示的摘录。我们的方法利用多种以人为中心的模式来检测可以在关注人类活动的视频中观察到的身体姿势和面部等亮点。使用每种模态的2D 或3D 互连点表示构建时空图表示并计算亮点分数。
为了解决这个问题,许多方法考虑了自动检测突出显示的片段或摘录并总结视频的技术[11,53,42,63,44,67]。对于未经编辑的镜头,亮点检测的目的是检索预定义的感兴趣时刻,而摘要提取的目的是计算最相关和最具代表性的摘录。检测有效的突出显示内容不仅可以加快浏览速度,还可以增加突出显示内容被共享和推荐的可能性[53]。现有方法通过监督学**实现这种高光检测,但是手动标记高光片段[47, 11] 或不同高光类别的示例,例如,要检测,从滑雪图像中学**,我们必须依赖滑雪高光剪辑[23, 25] 。其他方法了解每个帧或镜头与原始视频相比的代表性如何[36],并学**视频元数据,例如持续时间[53]和镜头相关性[67,64]。消除利用数据进行监控的需要。所有这些方法都假设或与有关未编辑剪辑的特定领域知识一致。例如,跑步和跳跃可能在跑酷视频中更相关,而滑动动作在滑雪视频中可能更相关。其他方法不考虑特定领域的知识,而是考虑多个用户预先记录的偏好,而不是检测个性化亮点[42]。
无论它们是否假设特定领域的知识或用户偏好,现有方法都在构成视频的帧或镜头的二维图像空间中工作。最先进的基于图像的网络可以学**丰富的语义特征并捕获图像中不同检测对象之间的相互关系,从而实现有效的高光检测。然而,这些方法并没有明确地模拟人类活动或人类互动,而这些是以人为中心的视频的主要焦点。与此同时,以人为中心的视频方法的发展不断增加,包括面部表情和情绪识别[34,2,38]、活动识别[56]、场景理解[50,32]、人群分析[51]、和视频超分辨率重建、合成[32]和基于文本的视频捕获[48]。这些方法利用以人为中心的模式(例如姿势和面部)来证明以人为中心的视频的处理方式应与常规视频不同。因此,这证明了引入以人为中心的视频理解机制来突出检测任务的范围和必要性。
我们开发了一个端到端的学**系统,可以检测以人为中心的视频亮点,而不需要特定领域的知识、亮点注释或样本。我们的方法利用通过多种感官通道或方式表达的人类活动和交互,例如面部、眼睛、声音、身体姿势和手势[1,38]。我们对所有以人为中心的模式使用基于图的表示,以充分表示每个模式的独特结构,包括不同的活动和交互如何随着时间的推移而演变。我们的网络使用时空图卷积从这些基于图的表示中学**,并使用自动编码器架构来映射模式并突出显示每帧的分数。精彩得分基于视频中每一帧的代表性,通过将连续帧拼接在一起以创建最终摘录而获得。我们的新贡献包括:
使用以人为中心的模式进行突出显示检测。我们的方法识别每个输入视频中的可观察模式,例如姿势和面部,并将时间的流逝和人与人之间的互动编码为亮点分数以进行亮点检测。无注释的亮点分数训练。无需强调注释、示例、用户设置或特定领域的知识。相反,我们使用现成的模式检测技术来检测一种或多种以人为中心的模式并训练亮点分数。性能独立于域和用户。我们训练有素的网络在由以人为中心的视频组成的多个基准数据集上进行评估,并在跨多个领域和用户偏好的亮点检测方面实现了最先进的性能。我们的方法分别在基准领域特定视频亮点(DSH) 数据集[47] 和个人亮点检测数据集(PHD2) [11] 数据集上匹配人类注释的亮点片段方面表现良好,我们实现了0.64 和0.20 的平均准确度。 4%(绝对值)比相应现有方法提高7%。我们还在TVSum [46] 和SuMMe [15] 的小型基准数据集上实现了最先进的性能,在平均精度和平均F 方面比当前最先进的基线方法高出12% 和4%。 -分数,每个值)。即使在不完全以人类为中心的领域(例如狗展)和未检测到足够的以人类为中心的模式的视频中,我们方法的性能也可以与当前最先进的方法相媲美。
2.相关作品
视频摘要中的显着性检测和相关性问题已在计算机视觉、多媒体和相关领域得到广泛研究。早期的方法使用了多种技术,包括基于代表视觉内容的手工特征的聚类、场景转换图、帧的时间分布[59,6,49]以及面部运动等语义信息[20]。另一方面,最近的方法利用一组令人印象深刻的深度学**工具和技术来实现亮点检测和视频摘要。
高亮检测。亮点检测的目的是检测视频或未经编辑的视频摘录中的有趣时刻[49,47]。许多方法将此视为监督排名问题,其中突出显示的摘录的排名高于所有其他摘录[47,17,58,18,11,60,19,52]。这些方法假设具有高度可读摘录的人工注释标签的可用性,并训练网络学**与这些标签相关的一般或特定领域的排名指标。另一方面,弱监督和无监督的亮点检测方法通过利用样本或视频元数据消除了标签依赖性。这些样本包括描述特定领域动作的网络图像,例如体操或滑雪[25]。视频元数据包括有助于区分未编辑和已编辑视频的属性,例如有关视频类别[57] 或持续时间[53] 的信息。一些方法通过考虑用户偏好来生成个性化亮点[42]。所有这些方法都在每个视频帧的二维图像空间中执行计算,并且不使用以人为中心的模式。
视频总结。视频摘要的主要目的是提供各种格式的简洁视频合成,例如故事情节[24, 54]、关键帧序列[30]、剪辑[15, 64]以及基于用户需求的混合[14]。去做。视频摘要通常被认为是满足一致性[35]、多样性和代表性[40, 67]的无监督子序列估计任务。无监督摘要技术用于视觉共现[7]、视频帧和镜头之间的时间相关性[23、36、44、64]、学**类别感知分类器[41]以及类别的感知特征学**[66、46] ]。其他方法采用弱监督方法,使用样本网络图像和视频[24, 22, 4, 43] 和类别描述[41, 40] 作为先验。然而,其他方法包括使用子集选择[13]、视觉重要性评分[30, 15]、子模块混合[16, 55] 和时间相关性[63, 64, 65] 进行人工注释。使用带标记摘要的监督学**。尽管我们的目标是亮点检测,但我们的方法从这些视频摘要方法中汲取了灵感。特别是,我们确保突出显示分数捕获视频中的表示并实现稳健的特征重建。
多模式学**。大量研究集中在多模态动作识别[5,45,33,10]和情感识别[3,26,61,38,39]上。这些方法观察并结合多种人类表达模式的线索,包括面部、姿势、语气、眼球运动、手部和身体姿势以及步态。现有方法通常使用点和图来对观察到的模式进行建模[33,3,38],并且适合学**行为和情感特征。我们的研究利用了这样一个事实:可以根据这些模式确定复杂的以人为中心的视频摘录。遵循多模式动作和情感识别的最新趋势[33, 38],我们将视频帧中观察到的模式建模为时空图,并利用它们来学**亮点分数。
3. 多模式高光检测
对于以人为中心的视频,我们的目标是检测视频中有趣的时刻和亮点。本节详细介绍如何通过利用视频中观察到的以人为中心的模式来检测这些亮点。
3.1. 以人为本的模式
在我们的研究中,我们使用“模式”一词来表示对人类活动和交互敏感的人类表达通道,例如面部、眼睛、身体姿势、手和步态[5,38,39]。活动由个人的表达和互动组成,包括与其他人、其他生物和无生命物体的互动,并与各种行为[56,10]和情绪[2,39]相关。我们相信人类更喜欢以人为本的视频,重点关注这些活动和互动。因此,我们的目标是从网络中观察到的以人为中心的模式中学**。对于每个检测到的人模态,我们的网络利用不同时间实例的相互关系以及不同人之间的相互关系来检测最具代表性的摘录。
当我们从视频帧的RGB 图像空间表示中提取这些模式时,我们发现这些模式比常见的图像空间表示更好地捕获视频帧的丰富语义信息。图像空间表示基于图像不同部分之间强度差异的变化,而不了解不同部分如何相互作用。另一方面,模式根据其结构提供对交互的洞察。例如,手臂和腿的相对运动可用于表达某些动作,或者各种面部标志的相对运动可用于表达某些表情或情绪。我们构建网络来明确考虑每种模式的结构以及这些结构的演变,包括它们随时间的活动和交互。
我们认为可以从输入视频中观察到M1 个以人为中心的模式。这些模态是使用标准模态检测和跟踪技术[29,12]提取的,并被提取为一组互连的2D或3D点,例如一组2D面部标志或一组3D身体关节。假设它被表达为使用。
我们构造一个时空图表示Gm={Vm, Em} 来表示每个模式m=1,…。 Vm 中的节点表示相应的模态点,Em 中的边表示模态的结构以及该结构如何随时间变化。为了充分捕捉这一点,我们考虑了三种边缘类型:
人体内的边缘捕获各个人体节点之间的空间关系(例如,骨骼和面部标志之间的姿势关节之间的连接器)。这些边缘代表每个视频帧中模态的基线结构。人际边缘连接每个视频帧中不同人的相同节点(例如,根到根、头到头)。这些边捕获不同人的节点之间的交互。这些形成了每对人的二部图,代表每个视频帧上的人类交互。同时边缘是一个人跨多个视频帧连接的同一节点(例如根到根、头到头)。这些边捕捉每个人的节点如何随着时间的推移而演变。这些为每对视频帧形成一个二部图,代表活动和交互随时间的演变。这些节点的空间位置以及所有这些边的组合使网络能够学**视频中的所有人类活动和交互并做出相应的响应,而无需任何视频领域或用户指定设置的先验知识。您可以学**亮点分数。
3.2. 视频帧的代表性
由于我们的目标是在不需要注释或示例的情况下检测视频中的亮点,因此我们的方法类似于视频摘要中所做的工作,使用与帧检测一致的代表性[36, 14]。尽管检测图像空间中的代表性帧可能有利于检测视频中的感兴趣时刻[47],但实际上,检测以人为中心的模式空间中的代表性帧已被观察到这在以人为中心的模式空间中是有益的。中间的视频很有趣。
记下此处的数据
由于形成了满秩张量,STGCN 避免将简并解0 分配给所有内容。
基于我们活动的潜在特征
它连接到记分器,由一层时空图卷积组成,后跟针对每种模态的sigmoid 运算。我们的记分员将每个
转换为
每个节点的标准化突出显示分数
,现在,
(3)
在
表示一个S形函数,
它由可训练的STGCN 参数组成。
我们的解码器采用基于潜在活动的特征
并突出显示每种模式的分数m
,由
用于生成加权潜在特征的Hadamard 产品
征收
的维度
(四)
换句话说,我们的目标是
对应于
最具代表性的框架的潜在特征。在训练期间,得分手成功地掌握了更高的转化率。
分配的值代表更具代表性的框架
了解这些特征并在重建过程中利用它们来发挥自己的优势。
来自加权潜在特征
,我们的解码器使用另一个STGCN 来生成输入图节点的重建。
,现在
(五)
它由解码器中的一组可训练的STGCN 参数组成。
3.4. 训练损失函数
与等式1 类似,我们训练网络架构以最大化所有模式下输入图节点的重建,同时最小化考虑重建的帧数。我们的方法基于这样的前提:具有较高代表性的视频帧构成更清晰的视频摘录。因此,实际的目标是在输入视频的重建中抑制尽可能多的帧,并且仅强调具有高度代表性的帧。
考虑每种模态的显着性得分
,对所有维度的分数进行最大池化,但是
,该模态视频每帧的最大显着性得分,即
(6)
还,
对贡献进行加权,使得权重与显示模态的输入视频中的帧数成正比。如果超过一半的模态组成点在框架内可见,我们将模态定义为在框架内可观察。
根据此定义构造每个模式m 的权重。
为了
(7)
消息
,因为每个帧可能不包含任何模式或包含所有模式。
然后,我们为视频的每一帧构建加权亮点分数。
作为
(8)
最后,假设解码器重建,
每种方式的权重
,构建损失函数L来训练网络。
(9)
组合所有可训练参数
,
和
,
是正则化因子。
4. 实施与测试
我们在大规模AVA-Kinetics 数据集[31] 上训练我们的网络。该数据集由235 个训练视频和64 个验证视频组成,每个视频时长15 分钟,并在1 秒的剪辑中包含动作标签。忽略动作标签并使用原始视频来训练和验证亮点检测网络。该数据集包含各种人类活动,但一些重要的摘录不受监控。因此,它适合检测人类特定的突出显示摘录的学**任务。由于内存限制,每个视频被视为30 秒的非重叠摘录,导致总共7050 个训练摘录和1920 个验证摘录。
4.1. 实施
我们使用M=2 种模式、姿势和面孔。这是我们测试方法的所有数据集中最容易观察到的两种模式。其他模式,例如手势和眼球运动,几乎不可见或检测到有噪声。我们构建了基于CMU 全景模型[21, 37] 的姿势图和基于Geitgey 的面部地标模型[12] 的面部地标图。
我们使用最先进的多人跟踪器[29] 来跟踪每个视频帧中的人物,并使用最先进的姿势检测器[37] 和面部标志检测器[12] 来检测姿势和位置。每个面部标志。
为了构建每种模态的图,我们考虑了每帧中最多P=20 个人以及结合过去和未来时间边缘的最多30f 个时间相邻帧。这里,f是处理后的视频的帧速率。如果可用,请使用相同数量的过去和未来帧进行时间邻接。我们在实验中使用了帧速率f=5,并且在2 到5 之间的帧速率下观察到了准确度和内存要求方面的有效性能。
我们使用Adam 优化器[27] 并训练200 个时期,批量大小为2,初始学**率为10-3,动量为0.9,权重衰减为10^-4。每个训练周期后,学**率都会降低0.999 倍。在NVIDIA GeForce GTX 1080Ti GPU 上大约需要40 分钟,因此GPU 上的总训练时间约为4.6 天。
4.2. 测试
在测试过程中,我们根据公式8 获得输入视频每一帧的加权亮点得分。通过组合超过特定分数阈值的所有连续帧来生成视频精彩片段。还可以使用类似于[44]的方法通过连接摘录来创建基线视频摘要。根据实验结果,我们发现如果0.5,我们就可以在基准数据集中检测到具有代表性的亮点片段。
实际上,它通过提供一种对摘录进行排序的机制,将特定视频的最终选择留给用户。为每个高光片段分配一个分数,该分数是其每个组成帧的加权高光分数的平均值。我们根据这些分数对摘录进行排名,并允许用户为超过这些阈值的摘录选择自己的阈值。您选择的阈值越高,超出阈值的摘录就越少,从而减少了筛选出代表性较差的摘录的人工工作量。
5. 实验
我们在两个大型公共基准数据集上展示了我们的方法和当前最先进的视频:特定领域亮点(DSH)数据集[47]和个人亮点检测数据集(PHD2)。突出检测方法。 [11]。我们还评估了小型公共数据集TVSum [46] 和SumMe [15]。然而,与当前方法不同,我们不会在这些数据集上训练或微调该方法。我们还通过从训练和评估中删除单个模式来测试网络的消融版本的性能。
5.1. 数据集
DSH 数据集[47] 由六个特定领域类别的YouTube 视频组成:狗表演、体操、跑酷、滑冰、滑雪和冲浪。每个域大约有100 个视频,总计大约1,430 分钟,大约600 个视频。 PHD2数据集[11]的测试集由约100,000个YouTube视频组成,总计约55,800分钟,以及850个用户根据自己的喜好注释的精彩片段。小型TVSum 数据集[46] 总共约210 分钟,涉及10 个学科:养蜂(BK)、自行车技能(BT)、狗展(DS)、Shine (FM)、动物美容(GA) 和三明治。包含50 个YouTube 视频。制作(MS)、游行(PR)、跑酷(PK)、车辆轮胎(VT)和车辆释放(VU)。 SumMe数据集[15]仅包含25个个人视频,总计约66分钟。
5.2. 评估指标
我们使用检测与相应视频中带注释的亮点相匹配的亮点的平均准确度(mAP)来评估所有方法。平均准确度是评估高光检测的常用指标[47,17,11,53,42]。请注意,在评估精彩片段时,必须单独考虑每个视频的准确性,而不是整个视频。这是因为从一个视频检测到的突出显示片段不一定比另一视频中的非突出显示片段具有更高的突出显示分数[47]。我们还报告了我们的方法在所有数据集上的平均F 分数(通过平均所有视频的数据获得的精度和召回率的调和平均值)以及SumMe 数据集上的基线方法[15]。
5.3 基线法
我们与DSH 数据集[47] 中的四个基线、PHD2 数据集[11] 中的四个基线、TVSum 数据集[46] 和SumMe 数据集[15] 中的七个基线进行比较。我们报告文献中描述的基线方法的性能。
在DSH 数据集上,Sun 等人的基于潜在SVM 的高亮排序方法(LSVM),使用C3D 特征和全连接层学**进行高亮排序的Video2GIF 方法[17],Yang 等人正在合作跟他们。我们比较了基于无监督鲁棒递归自动编码器(RRAE)的方法[57]和Xiong等人的方法(少即是多)[53]。 Xiong 等人的方法学**使用视频长度作为弱监督标签对精彩内容进行排名,他们认为较短的视频更有可能被编辑,从而获得更多曝光。确实如此。
对于数据集PHD2,我们使用了Video2GIF [17] 方法,该方法使用GoogLeNet 的全卷积序列网络(FCSN)来学**基于图像的特征以进行高光检测,再次与自适应FCSN 方法(ADFCSN)[42] 进行比较。它还包括一个历史编码器,用于调整用户的历史焦点设置并发现个性化的亮点。继[42]之后,我们还使用完全随机的高光检测器作为最低基线方法。
在TVSum数据集上,我们再次使用最大双峰启发式(MBF),这是Chu等人的一种基于视觉的方法,来获得与原始视频相关的同时镜头,基于持续时间的突出显示。我们与检测方法(LessisMore)合作[53]。 7]、波塔波
v等人基于内核在语义一致的片段上训练SVM的视频总结方法(KVS)[41]、Panda等人的使用共识正则化器来检测满足稀疏性、多样性和代表性的突出显示片段的协作视频总结方法(CVS) [40] 以及马哈塞尼等人的使用具有对抗性损失的LSTM(Adv-LSTM)无监督视频总结方法[36]进行比较。 在SumMe数据集上,我们再次比较了Gygli等人[15] 基于兴趣度总结的(Int.)自适应FCSN(Ad-FCSN)[42]、Gygli等人[16]基于子模块化的总结方法(Sub.)、Zhang等人[63]采用行列式点过程(DPP-LSTM)的LSTM网络、基于 GAN 和额外监督 (GAN-S)的方法[35],Zhou 等人基于深度强化学**的具有额外监督的方法(DRL-S) [67]以及使用编码器-解码器体系结构从序列数据中检测具有高度相关性片段的检测方法(S2N)[52]。 5.4. 结果 DSH[47]和TVSum[46]。我们分别在表1和表3中报告了DSH和TVSum数据集中所有域的mAP。除在少数领域之外,我们的方法都优于基线方法。这些非最优的领域要么不是完全以人类为中心(养蜂、狗展、梳理动物和制作三明治),要么由于在视频中没有检测到足够的姿势和脸而使我们的方法受到阻碍(DSH中的冲浪视频)。然而在这些非最优表现的领域上,我们的方法仅次于表现最好的基线方法。平均而言,在所有领域中,我们的方法比性能最好的基线方法高出4%-12%的绝对值。 PHD2[11]。我们在表2中报告了跨数据集的mAP。考虑到在这个数据集的视频中检测到大量的人类数量,我们的方法比表现最好的基线方法高出4%。 SumMe[15]。我们在表4中报告了整个数据集的平均F分数。按照之前的方法[52,42],我们随机选择20%的数据集来计算平均F分数,重复这个实验5次,并报告平均性能。基于这些实验,我们比表现最好的基线方法高出4%的绝对值。这些结果表明,我们使用以人为中心的模式来检测高亮的方法在所有基准数据集上表现出了最先进的性能。 表1:在DSH数据集[47]上的平均精度。粗体:最好,下划线:第二好。我们方法在冲浪领域表现第二好,因为没有检测到足够的姿势和面孔,而在所有其他领域表现最好。 表2:PHD2[11]的平均精度。粗体:最好,下划线:第二好。 表3:TVSum数据集[46]上的平均平均精度。域名的完整形式见第5.1节。粗体:最好,下划线:第二好。我们的方法在不完全以人类为中心的领域(BK、DS、GA、MS)表现第二,在所有其他领域表现最好。 表4:SumMe数据集[15]上的F分数。粗体:最好,下划线:第二好。 5.5. 消融研究 在我们的工作中,我们考虑了两种模式,姿势和面孔。我们依次废除这两种模态,并通过在剩余的模态上训练网络来测试我们方法的性能。我们在表5中报告了我们方法的消融版本在所有四个基准数据集的视频中的平均mAP和平均F分数。 表5:在基准数据集上,我们的方法的不同消融版本的平均mAP和平均f分数的比较。粗体:最好,下划线:第二好。 我们观察到与使用这两种模式相比,仅使用姿势而不使用人脸的方法在数据集中平均 mAP 的绝对值下降了 5%-7%,平均 F 得分下降了 3%-8%。然而,我们观察到只使用面孔而不使用姿势的方法,造成更严重的下降,平均mAP的绝对值下降4%-13%,平均F分数下降2%-13%。这是因为姿势在以人为中心的视频中更为丰富,而且比面部地标更容易被检测到。例如,即使人类被部分遮挡,在黑暗环境中或被不清晰聚焦时,姿势也可以被检测到,而检测到面部标志需要面部有良好的光线和聚焦。因此,不检测姿势造成大量的摘录损失。这一趋势只在PHD2中发生逆转,因为在那里面孔比姿势更容易被检测到。 我们还在图5中展示了我们的方法及其所有消融版本在DSH、PHD2、TVSum和SuMMe四个数据集中的一个样本视频的定性性能结果。我们可以看到,当只观察姿势而不是面孔时,我们的方法无法检测到主要有面部表情和情绪的代表性摘录。相反,当只观察面孔而不是姿势时,我们的方法只能检测面孔突出的摘录,而忽略面孔太小、太遮挡或在黑暗中的摘录。使用这两种模式,我们的方法可以检测到所有有代表性的摘录。 图5:通过我们的方法检测到的高亮显示示例帧。我们展示了使用我们方法不同消融版本检测到的高亮分数范围内的样本视频帧。我们展示了来自数据集SumMe[15](左上)、PHD2[11](右上)、DSH[47](左下)和TVSum[46](右下)的一个示例视频。当只使用面孔或姿势时,我们的方法只基于面部或姿势的代表性来学**高亮分数。结合这两种模式,我们的方法学**基于代表性的突出分数。 5.6. 突出显示分数阈值的效果 在我们的方法中,我们使用高亮分数的阈值来检测高于该阈值的高光摘录。我们在图4中显示了我们的阈值对DSH数据集中[47]中每个域的平均精度(mAP)的影响。我们观察到,随着我们对阈值的增加,mAP的总体趋势逐渐下降,因为我们的方法返回的高光点越来越少。但是,对于某些领域(例如冲浪)而言,情况并非如此,因为其中代表性摘录的高亮分数已经足够高。在实践中,我们考虑阈值的选择取决于用户的偏好,因此我们建议将它作为可供用户为每个视频配置的参数。 图4:不同高亮阈值下的的平均AP得分。在DSH数据集中[47]中的域上。 6. 结论、局限性及未来的工作 我们提出了一种新的基于神经网络的方法来检测以人为中心的视频中的高亮点。我们的方法可以利用视频中可观察到的以人为中心的模式,如面部和姿势,并自动使用这些模式来检测视频中最具代表性的亮点。在特定领域的高光(DSH)数据集[47]、个人高光检测数据集(PHD2)[11]、TVSum数据集[46]和SumMe数据集[15]上的广泛实验结果表明,与几个最先进的基线方法相比,我们提出的方法拥有更好的性能。 不过我们的方法也有一定的局限性。虽然我们的网络设计为可以容纳任意数量的模式,但我们只在基准测试中使用了具有最好平均性能的人脸和姿态两种模式。然而,许多视频(例如,关于梳理动物的视频,制作三明治的视频TVSum)展示了其他模式,如手和手指。因此,我们计划在未来将更多以人类为中心的模式纳入我们的实验中。我们的方法可能不会为以非人类为中心的视频提供太多的性能提升,如通常关注其他类别的生命或无生命物体或自然场景的视频。我们计划在未来使用适当的模式来探索这些领域。我们的方法还可以与特定领域的特性相结合,或与用户偏好相适应,通过微调以检测出更多的高亮点。 参考文献 [1] Hillel Aviezer, Yaacov Trope, and Alexander Todorov. Body cues, not facial expressions, discriminate between intense positive and negative emotions. Science, 338(6111):1225–1229, 2012. 2 [2] Uttaran Bhattacharya, Trisha Mittal, Rohan Chandra, Tanmay Randhavane, Aniket Bera, and Dinesh Manocha. Step: Spatial temporal graph convolutional networks for emotion perception from gaits. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence (AAAI-20), page 1342–1350. AAAI Press, 2020. 2, 3 [3] Carlos Busso, Murtaza Bulut, Chi-Chun Lee, Abe Kazemzadeh, Emily Mower, Samuel Kim, Jeannette N Chang, Sungbok Lee, and Shrikanth S Narayanan. Iemocap: Interactive emotional dyadic motion capture database. Language resources and evaluation, 42(4):335, 2008. 3 [4] Sijia Cai, Wangmeng Zuo, Larry S. Davis, and Lei Zhang. Weakly-supervised video summarization using variational encoder-decoder and web prior. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 2 [5] C. Chen, R. Jafari, and N. Kehtarnavaz. Utd-mhad: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor. In 2015 IEEE International Conference on Image Processing (ICIP), pages 168–172, 2015. 3 [6] Chong-Wah Ngo, Yu-Fei Ma, and Hong-Jiang Zhang. Automatic video summarization by graph modeling. In Proceedings Ninth IEEE International Conference on Computer Vision, pages 104–109 vol.1, 2003. 2 [7] Wen-Sheng Chu, Yale Song, and Alejandro Jaimes. Video co-summarization: Video summarization by visual cooccurrence. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7 [8] Cisco. Annual internet report (2018–2023): https://www.cisco.com/c/en/us/solutions/collateral/service-provider/visual-networking-index-vni/complete-white-paper-c11-481360.html# toc484813989. CISCO White paper, 2020. 1 [9] Micha¨el Defferrard, Xavier Bresson, and Pierre Vandergheynst. Convolutional neural networks on graphs with fast localized spectral filtering. In D. D. Lee, M. Sugiyama, U. V. Luxburg, I. Guyon, and R. Garnett, editors, Advances in Neural Information Processing Systems 29, pages 3844–3852. Curran Associates, Inc., 2016. 4 [10] Annalisa Franco, Antonio Magnani, and Dario Maio. A multimodal approach for human activity recognition based on skeleton and rgb data. Pattern Recognition Letters, 131:293–299, 2020. 3 [11] Ana Garcia del Molino and Michael Gygli. Phd-gifs: Personalized highlight detection for automatic gif creation. In Proceedings of the 26th ACM International Conference on Multimedia, MM ’18, page 600–608, New York, NY, USA, 2018. Association for Computing Machinery. 1, 2, 6, 7, 8 [12] Adam Geitgey. Face Recognition, 2020. 3, 4, 5 [13] Boqing Gong, Wei-Lun Chao, Kristen Grauman, and Fei Sha. Diverse sequential subset selection for supervised video summarization. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Q. Weinberger, editors, Advances in Neural Information Processing Systems, volume 27, pages 2069–2077. Curran Associates, Inc., 2014. 2 [14] Hongxiang Gu and Viswanathan Swaminathan. From thumbnails to summaries-a single deep neural network to rule them all. In 2018 IEEE International Conference on Multimedia and Expo (ICME), pages 1–6. IEEE, 2018. 2, 4 [15] Michael Gygli, Helmut Grabner, Hayko Riemenschneider, and Luc Van Gool. Creating summaries from user videos. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 505–520, Cham, 2014. Springer International Publishing. 2, 6, 7, 8 [16] Michael Gygli, Helmut Grabner, and Luc Van Gool. Video summarization by learning submodular mixtures of objectives. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7 [17] Michael Gygli, Yale Song, and Liangliang Cao. Video2gif: Automatic generation of animated gifs from video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2016. 2, 6, 7 [18] Yifan Jiao, Zhetao Li, Shucheng Huang, Xiaoshan Yang, Bin Liu, and Tianzhu Zhang. Three-dimensional attention-based deep ranking model for video highlight detection. IEEE Transactions on Multimedia, 20(10):2693–2705, 2018. 2 [19] Yifan Jiao, Tianzhu Zhang, Shucheng Huang, Bin Liu, and Changsheng Xu. Video highlight detection via region-based deep ranking model. International Journal of Pattern Recognition and Artificial Intelligence, 33(07):1940001, 2019. 2 [20] Hideo Joho, Jacopo Staiano, Nicu Sebe, and Joemon M Jose. Looking at the viewer: analysing facial activity to detect personal highlights of multimedia contents. Multimedia Tools and Applications, 51(2):505–523, 2011. 2 [21] Hanbyul Joo, Tomas Simon, Xulong Li, Hao Liu, Lei Tan, Lin Gui, Sean Banerjee, Timothy Scott Godisart, Bart Nabbe, Iain Matthews, Takeo Kanade, Shohei Nobuhara, and Yaser Sheikh. Panoptic studio: A massively multiview system for social interaction capture. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017. 5 [22] Aditya Khosla, Raffay Hamid, Chih-Jen Lin, and Neel Sundaresan. Large-scale video summarization using web-image priors. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2 [23] Gunhee Kim, Leonid Sigal, and Eric P. Xing. Joint summarization of large-scale collections of web images and videos for storyline reconstruction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 1, 2 [24] Gunhee Kim and Eric P. Xing. Reconstructing storyline graphs for image recommendation from web community photos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2 [25] Hoseong Kim, Tao Mei, Hyeran Byun, and Ting Yao. Exploiting web images for video highlight detection with triplet deep ranking. IEEE Transactions on Multimedia, 20(9):2415–2426, 2018. 1, 2 [26] Yelin Kim, Honglak Lee, and Emily Mower Provost. Deep learning for robust feature generation in audiovisual emotion recognition. ICASSP, pages 3687–3691, 2013. 3 [27] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 5 [28] Thomas N Kipf and Max Welling. Semi-supervised classification with graph convolutional networks. arXiv preprint arXiv:1609.02907, 2016. 4 [29] Muhammed Kocabas. Simple Multi Person Tracker, 2019. 3, 4, 5 [30] Y. J. Lee, J. Ghosh, and K. Grauman. Discovering important people and objects for egocentric video summarization. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 1346–1353, 2012. 2 [31] Ang Li, Meghana Thotakuri, David A Ross, Jo?ao Carreira, Alexander Vostrikov, and Andrew Zisserman. The ava-kinetics localized human actions video dataset. arXiv preprint arXiv:2005.00214, 2020. 5 [32] G. Li, Y. Zhao, M. Ji, X. Yuan, and L. Fang. Zoom in to the details of human-centric videos. In 2020 IEEE International Conference on Image Processing (ICIP), pages 3089–3093, 2020. 2 [33] Jianan Li, Xuemei Xie, Qingzhe Pan, Yuhan Cao, Zhifu Zhao, and Guangming Shi. Sgm-net: Skeleton-guided multimodal network for action recognition. Pattern Recognition, 104:107356, 2020. 3 [34] S. Li and W. Deng. Deep facial expression recognition: A survey. IEEE Transactions on Affective Computing, pages 1–1, 2020. 2 [35] Zheng Lu and Kristen Grauman. Story-driven summarization for egocentric video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2013. 2, 7 [36] Behrooz Mahasseni, Michael Lam, and Sinisa Todorovic. Unsupervised video summarization with adversarial lstm networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pages 202–211, 2017. 1, 2, 4, 6, 7 [37] D. Mehta, O. Sotnychenko, F. Mueller, W. Xu, S. Sridhar, G. Pons-Moll, and C. Theobalt. Single-shot multi-person 3d pose estimation from monocular rgb. In 2018 International Conference on 3D Vision (3DV), pages 120–130, 2018. 5 [38] Trisha Mittal, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. M3er: Multiplicative multimodal emotion recognition using facial, textual, and speech cues. In Proceedings of the Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI’20, pages 1359–1367. AAAI Press, 2020. 2, 3 [39] Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera, and Dinesh Manocha. Emoticon: Context-aware multimodal emotion recognition using frege’s principle. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 3 [40] Rameswar Panda and Amit K. Roy-Chowdhury. Collaborative summarization of topic-related videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. 2, 6, 7 [41] Danila Potapov, Matthijs Douze, Zaid Harchaoui, and Cordelia Schmid. Category-specific video summarization. In David Fleet, Tomas Pajdla, Bernt Schiele, and Tinne Tuytelaars, editors, Computer Vision – ECCV 2014, pages 540–555, Cham, 2014. Springer International Publishing. 2, 6, 7 [42] Mrigank Rochan, Mahesh Kumar Krishna Reddy, Linwei Ye, and Yang Wang. Adaptive video highlight detection by learning from user history. In Proceedings of the European Conference on Computer Vision (ECCV), August 2020. 1, 2, 4, 6, 7 [43] Mrigank Rochan and Yang Wang. Video summarization by learning from unpaired data. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. 2 [44] Mrigank Rochan, Linwei Ye, and Yang Wang. Video summarization using fully convolutional sequence networks. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2, 6, 7 [45] A. Shahroudy, T. Ng, Y. Gong, and G. Wang. Deep multimodal feature analysis for action recognition in rgb+d videos. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(5):1045–1058, 2018. 3 [46] Yale Song, Jordi Vallmitjana, Amanda Stent, and Alejandro Jaimes. Tvsum: Summarizing web videos using titles. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2, 6, 7, 8 [47] Min Sun, Ali Farhadi, and Steve Seitz. Ranking domain specific highlights by analyzing edited videos. In European conference on computer vision, pages 787–802. Springer, 2014. 1, 2, 4, 6, 7, 8 [48] Zongheng Tang, Yue Liao, Si Liu, Guanbin Li, Xiaojie Jin, Hongxu Jiang, Qian Yu, and Dong Xu. Human-centric spatio-temporal video grounding with visual transformers. arXiv preprint arXiv:2011.05049, 2020. 2 [49] Ba Tu Truong and Svetha Venkatesh. Video abstraction: A systematic review and classification. ACM Trans. Multimedia Comput. Commun. Appl., 3(1):3–es, Feb. 2007. 2 [50] Paul Vicol, Makarand Tapaswi, Llu′?s Castrej′on, and Sanja Fidler. Moviegraphs: Towards understanding human-centric situations from videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2018. 1, 2 [51] Xueyang Wang, Xiya Zhang, Yinheng Zhu, Yuchen Guo, Xiaoyun Yuan, Liuyu Xiang, Zerun Wang, Guiguang Ding, David Brady, Qionghai Dai, and Lu Fang. Panda: A gigapixel-level human-centric video dataset. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 2 [52] Zijun Wei, Boyu Wang, Minh Hoai Nguyen, Jianming Zhang, Zhe Lin, Xiaohui Shen, Radomir Mech, and Dimitris Samaras. Sequence-to-segment networks for segment detection. In S. Bengio, H. Wallach, H. Larochelle, K. Grauman, N. Cesa-Bianchi, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 31, pages 3507–3516. Curran Associates, Inc., 2018. 2, 6, 7 [53] Bo Xiong, Yannis Kalantidis, Deepti Ghadiyaram, and Kristen Grauman. Less is more: Learning highlight detection from video duration. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1258–1267, 2019. 1, 2, 4, 6, 7 [54] Bo Xiong, Gunhee Kim, and Leonid Sigal. Storyline representation of egocentric videos with an applications to story-based search. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2 [55] Jia Xu, Lopamudra Mukherjee, Yin Li, Jamieson Warner, James M. Rehg, and Vikas Singh. Gaze-enabled egocentric video summarization via constrained submodular maximization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015. 2 [56] Sijie Yan, Yuanjun Xiong, and Dahua Lin. Spatial temporal graph convolutional networks for skeleton-based action recognition. In Sheila A. McIlraith and Kilian Q. Weinberger, editors, Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), pages 7444–7452. AAAI Press, 2018. 2, 3, 4 [57] Huan Yang, Baoyuan Wang, Stephen Lin, David Wipf, Minyi Guo, and Baining Guo. Unsupervised extraction of video highlights via robust recurrent auto-encoders. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), December 2015. 2, 6, 7 [58] Ting Yao, Tao Mei, and Yong Rui. Highlight detection with pairwise deep ranking for first-person video summarization. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 982–990, 2016. 2 [59] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94 – 109, 1998. 2 [60] Youngjae Yu, Sangho Lee, Joonil Na, Jaeyun Kang, and Gunhee Kim. A deep ranking model for spatio-temporal highlight detection from a 360 video. pages 7525–7533, 2018. 2 [61] AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph. In ACL (Volume 1: Long Papers), pages 2236–2246, 2018. 3 [62] Wenjun Zeng. Toward human-centric deep video understanding. APSIPA Transactions on Signal and Information Processing, 9:e1, 2020. 1 [63] Ke Zhang, Wei-Lun Chao, Fei Sha, and Kristen Grauman. Video summarization with long short-term memory. In Bastian Leibe, Jiri Matas, Nicu Sebe, and Max Welling, editors, Computer Vision – ECCV 2016, pages 766–782, Cham, 2016. Springer International Publishing. 1, 2, 6, 7 [64] Ke Zhang, Kristen Grauman, and Fei Sha. Retrospective encoders for video summarization. In Proceedings of the European Conference on Computer Vision (ECCV), September 2018. 1, 2 [65] Bin Zhao, Xuelong Li, and Xiaoqiang Lu. Hierarchical recurrent neural network for video summarization. In Proceedings of the 25th ACM International Conference on Multimedia, MM ’17, page 863–871, New York, NY, USA, 2017. Association for Computing Machinery. 2 [66] Bin Zhao and Eric P. Xing. Quasi real-time summarization for consumer videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2 [67] Kaiyang Zhou, Yu Qiao, and Tao Xiang. Deep reinforcement learning for unsupervised video summarization with persity-representativeness reward. pages 7582–7589, 2018. 1, 2, 6, 7







