Нейросеть научили распознавать музыкальный инструмент на видео

Редакция Apparat

Разработчики из MIT создали алгоритм PixelPlayer, позволяющий на видео определять звук нужного музыкального инструмента и изменять его громкость. Теоретическое обоснование работы опубликовано на Arvix.org, а сама программа будет представлена на сентябрьской конференции по компьютерному зрению European Conference on Computer Vision.

Для обучения нейросети «скормили» 714 видео с 60 часами записи игры музыкантов на 11 инструментах: аккордеоне, акустической гитаре, виолончели, кларнете, эрху (китайской скрипке), флейте, саксофоне, трубе, тубе, скрипке и ксилофоне. При этом в отличие от других алгоритмов распознавания отдельных источников в звуковой дорожке, для PixelPlayer не нужно ставить вручную метки. Для этого исследователи использовали «самоконтролируемое» глубинное обучение, поэтому всю необходимую информацию программа извлекает самостоятельно.

В демонстрационном видео показано, как пользователь может сделать звук отдельного инструмента громче. Для этого что достаточно кликнуть в область кадра, где запечатлен инструмент.

Загрузить еще