亚马逊和SenseTime详细介绍了OmniSource，该框架可抓取网络视频以训练AI

未知资讯人工智能 2020-04-05 17:04:14 2024

2019年9月18日在法国Boves的公司物流中心可以看到亚马逊的徽标

人工智能初创公司SenseTime，亚马逊和香港中文大学的研究人员表示，他们已经开发出一种利用Web数据的新框架OmniSource，该框架可在视频识别域中对记录进行标记。通过克服图像，短视频和长时间未修剪的视频等数据格式之间的障碍，并采用数据平衡等良好做法，表面上它可以比最先进的模型更准确地对视频进行分类，而使用的数据却少了100倍。

将来，OmniSource可以应用于私人和公共场所的安全摄像机。或者，它可以为诸如Facebook之类的网络上使用的调节算法提供信息。

研究人员指出，收集训练分类算法所需的数据既昂贵又费时。由于视频通常包含具有一个或多个主题的多个镜头，因此必须完整观看它们，手动将其剪切成片段，并仔细添加注释。

OmniSource的体系结构图。

然后，OmniSource以集成的方式利用来自来源（搜索引擎，社交媒体）的各种形式的Web数据（例如，图像，修剪的视频和未修剪的视频）。AI系统过滤掉低质量的数据样本并标记那些通过其召集的数据样本（平均70％到80％），对每个样本进行转换以使其适用于目标任务，同时提高分类模型训练的鲁棒性。

在获得识别任务后，OmniSource会为分类法中的每个类名称获取关键字，并从上述来源中抓取Web数据，并自动丢弃所有重复数据。对于静态图像，要准备它们以供联合训练期间使用，它会通过使用移动的摄像机查看它们来生成“伪”视频。

在联合训练阶段，一旦将数据过滤并转换为与目标数据集中相同的格式，OmniSource就会平衡Web和目标语料库，并采用跨数据集混合策略，其中包含示例对及其标签用于训练。（研究人员报告说，当从头训练视频识别模型时，跨数据混合效果很好，尽管微调效果不佳。）

在测试中，团队使用了三个目标数据集：

Kinematics-400，其中包含400个课程，每个课程有400个10分钟的视频
YouTube汽车，其中包含数千个视频，展示了196种不同类型的汽车
UCF101，具有100个剪辑和101个类别的视频识别数据集

关于网络资源，他们从Google图像搜索中收集了200万张图像，从Instagram收集了150万图像和500,000个视频，并从YouTube收集了17,000多个视频。结合目标数据集，所有这些都被输入到几个视频分类模型中。

该团队报告说，在没有人工标记的情况下，只有350万张图像和80万分钟的视频从互联网上爬网（不到先前作品的2％），经过训练的模型相对于Kinetics-400数据集，其准确度至少提高了3.0％，达到83.6％的准确性。同时，他们最好的从零开始训练的模型在Kinetics-400上达到了80.4％的准确性。

“比起现有技术，我们的框架可以通过更简单（也更轻）的主干设计和更小的输入大小来实现可比或更好的性能，” 描述OmniSource 的论文的共同作者写道。“ [它]利用了特定于任务的数据收集，并且数据效率更高，与以前的方法相比，它大大减少了所需的数据量。[此外，]框架可推广到各种视频任务，例如视频识别和细粒度分类。”

本文链接：https://www.x0x8.com/AI/26.html