首页 资讯头条人工智能正文

亚马逊和SenseTime详细介绍了OmniSource,该框架可抓取网络视频以训练AI

2019年9月18日在法国Boves的公司物流中心可以看到亚马逊的徽标

人工智能初创公司SenseTime,亚马逊和香港中文大学的研究人员表示,他们已经开发出一种利用Web数据的新框架OmniSource,该框架可在视频识别域中对记录进行标记。通过克服图像,短视频和长时间未修剪的视频等数据格式之间的障碍,并采用数据平衡等良好做法,表面上它可以比最先进的模型更准确地对视频进行分类,而使用的数据却少了100倍。


将来,OmniSource可以应用于私人和公共场所的安全摄像机。或者,它可以为诸如Facebook之类的网络上使用的调节算法提供信息。


研究人员指出,收集训练分类算法所需的数据既昂贵又费时。由于视频通常包含具有一个或多个主题的多个镜头,因此必须完整观看它们,手动将其剪切成片段,并仔细添加注释。


OmniSource的体系结构图。


然后,OmniSource以集成的方式利用来自来源(搜索引擎,社交媒体)的各种形式的Web数据(例如,图像,修剪的视频和未修剪的视频)。AI系统过滤掉低质量的数据样本并标记那些通过其召集的数据样本(平均70%到80%),对每个样本进行转换以使其适用于目标任务,同时提高分类模型训练的鲁棒性。


在获得识别任务后,OmniSource会为分类法中的每个类名称获取关键字,并从上述来源中抓取Web数据,并自动丢弃所有重复数据。对于静态图像,要准备它们以供联合训练期间使用,它会通过使用移动的摄像机查看它们来生成“伪”视频。


在联合训练阶段,一旦将数据过滤并转换为与目标数据集中相同的格式,OmniSource就会平衡Web和目标语料库,并采用跨数据集混合策略,其中包含示例对及其标签用于训练。(研究人员报告说,当从头训练视频识别模型时,跨数据混合效果很好,尽管微调效果不佳。)


在测试中,团队使用了三个目标数据集:


  • Kinematics-400,其中包含400个课程,每个课程有400个10分钟的视频

  • YouTube汽车,其中包含数千个视频,展示了196种不同类型的汽车

  • UCF101,具有100个剪辑和101个类别的视频识别数据集


关于网络资源,他们从Google图像搜索中收集了200万张图像,从Instagram收集了150万图像和500,000个视频,并从YouTube收集了17,000多个视频。结合目标数据集,所有这些都被输入到几个视频分类模型中。


该团队报告说,在没有人工标记的情况下,只有350万张图像和80万分钟的视频从互联网上爬网(不到先前作品的2%),经过训练的模型相对于Kinetics-400数据集,其准确度至少提高了3.0%,达到83.6%的准确性。同时,他们最好的从零开始训练的模型在Kinetics-400上达到了80.4%的准确性。


“比起现有技术,我们的框架可以通过更简单(也更轻)的主干设计和更小的输入大小来实现可比或更好的性能,” 描述OmniSource 的论文的共同作者写道。“ [它]利用了特定于任务的数据收集,并且数据效率更高,与以前的方法相比,它大大减少了所需的数据量。[此外,]框架可推广到各种视频任务,例如视频识别和细粒度分类。”

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

Copyright © 2020 未知资讯 特别赞助:智慧城市 群晖NAS 苏ICP备19070053号-2