Ученые из МТИ разработали алгоритм, озвучивающий видео

Лев Шевченко

Ученые из Лаборатории информатики и искусственного интеллекта Массачусетского технологического института создали алгоритм ИИ, который может озвучивать беззвучные видео. Об этом пишет MIT News.

Исследователи продемонстрировали видео, для которого алгоритм подобрал звуки ударов барабанной палочкой по растению, земле и различным поверхностям. Алгоритм прошел своеобразный тест Тьюринга — в онлайн-исследовании зрители принимали фальшивую дорожку за настоящую в два раза чаще, чем оригинал. Причем респонденты чаще верили звукам ударов по траве или земле, чем «чистым» звукам ударов по металлу или дереву. А сам алгоритм отличает эти звуки в 67% случаев.

Алгоритм создан с помощью технологии глубокого обучения. В течение нескольких месяцев исследователи записали 1000 видео с 46 000 звуков. После того, как видео были «скормлены» алгоритму, он проанализировал их параметры — громкость, высоту и другие. «Для того, чтобы предсказать звук видео, алгоритм смотрит на звуковые свойства каждого кадра, и сравнивает их с подобными звуками в базе данных», — говорит Эндрю Оуэнс, главный автор исследования. После этого система комбинирует звуки, чтобы создать цельное аудио.

Ученые полагают, что эта технология найдет применение в создании спецэффектов для кино, а также поможет роботам лучше понимать свойства объектов. Алгоритм может имитировать как грохот камней, так и шелест травы. По словам исследователей, алгоритм нуждается в доработке. Например, сейчас алгоритм скорее всего проигнорирует удар хаотично движущейся палочкой, а звуки он воспринимает только с визуальным подтверждением. Так, алгоритм пока не может воспроизвести жужжание компьютера или дуновение ветра.

По словам Оуэнса, эта технология поможет роботам взаимодействовать с окружающей средой. «Робот посмотрит под ноги, и увидит, что цемент твердый, а трава — мягкая, и, исходя из этого, поймет, куда ему стоит ступать», — говорит ученый.

Загрузить еще