Исследователи рекламируют ИИ, который может предсказать 25 видеокадров в будущем

Алгоритмы искусственного интеллекта и машинного обучения становятся все более хорошими в прогнозирование следующих действий в видео. самый лучший может довольно точно предвидеть, куда может переместиться бейсбол после того, как он был разбит, или появление дороги в милях от стартовой позиции. С этой целью новый подход, предложенный исследователями из Google, Мичиганского университета и Adobe, развивает современное состояние благодаря крупномасштабным моделям, которые генерируют высококачественное видео всего из нескольких кадров. Тем более впечатляет, что это происходит без использования таких методов, как оптические потоки (схема видимого движения объектов, поверхностей или краев в сцене) или ориентиров, как это было в предыдущих методах.

«В этой работе мы исследуем, можем ли мы достичь высококачественных предсказаний видео… просто максимизируя пропускную способность стандартной нейронной сети», – писали исследователи. препринтная бумага описывая их работу. «Насколько нам известно, эта работа является первой, в которой проведено тщательное исследование влияния увеличения пропускной способности для предсказания видео».

Базовая модель команды основана на существующей архитектуре стохастической генерации видео (SVG) с компонентом, который моделирует внутреннюю неопределенность в будущих прогнозах. Они отдельно обучали и тестировали несколько версий модели на основе наборов данных, приспособленных к трем категориям предсказания: взаимодействия объектов, структурированное движение и частичная наблюдаемость. Для первого задания – взаимодействия объектов – исследователи отобрали 256 видеороликов из набора видео роликов робота, взаимодействующих с полотенцами, а для второго – структурированного движения – они получили клипы от Human 3.6M, корпуса, содержащего клипы людей, выполняющих действия. как сидеть на стуле. Что касается задачи частичной наблюдаемости, то они использовали открытый набор данных KITTI для вождения, снятый по материалам камеры передней панели автомобиля.

AI прогнозирование видео

Вверху: модель AI предсказывает кадры видео с автомобильных видеорегистраторов.

Команда подготовила каждую модель к двум-пяти видеокадрам и попросила модели прогнозировать от пяти до десяти кадров в будущем во время обучения – с низким разрешением (64 x 64 пикселя) для всех задач и с низким и высоким разрешением (128 x 128). пикселей) для задачи взаимодействия объекта. В ходе тестирования модели сгенерировали до 25 кадров.

читать:  Сколько этажей в особняке Луиджи 3?

Исследователи сообщают, что одна из самых больших моделей предпочиталась в 90,2%, 98,7% и 99,3% времени в отношении задач взаимодействия объектов, структурированного движения и частичной наблюдаемости, соответственно, оценщиками, нанятыми через Amazon Mechanical Turk. Качественно команда отмечает, что модель четко изображала человеческие руки и ноги и делала «очень четкие прогнозы, которые выглядели реалистичными по сравнению с основополагающей правдой.

AI прогнозирование видео

Вверху: модель AI предсказывает кадры с учетом видео человеческой деятельности.

«Наши эксперименты подтверждают важность повторяющихся связей и моделирования стохастичности (или случайности) в присутствии неопределенности (например, видео с неизвестным действием или контролем)», – написали соавторы статьи. «Мы также обнаружили, что максимизация пропускной способности таких моделей улучшает качество предсказания видео. Мы надеемся, что наша работа побудит отрасль продвигаться в аналогичных направлениях в будущем – то есть посмотреть, как далеко мы можем продвинуться … для достижения высококачественного предсказания видео ».

Source / keekoin.com

Исследователи рекламируют ИИ, который может предсказать 25 видеокадров в будущем | keekoin.com | 4.5