Командой Sber AI были сгенерировали видео на основе музыкальной дорожки и полного текста песни с помощью state-of-the-art-архитектур нейронных сетей.

Основной из них является BigGAN, используемая для генерации картинок.

Вторая технология — SBERT применяется для выделения общего смысла из любой строки с текстом. Это языковая модель, которая умеет представлять любой текст в виде числового вектора так, чтобы близкие векторы соответствовали фразам, схожим по смыслу. Таким образом, можно по любой строке из любой песни найти близкую ей по смыслу категорию, понятную BigGAN. А уже затем с помощью BigGAN сгенерировать картинку с изображением объекта из этой категории.

Проделав такую процедуру для каждой строки из песни, а затем объединив полученные образы с автоматическими колебаниями кадров в такт музыке, были получены действительно захватывающие видеоролики, которые соответствуют смыслу представленных треков и наглядно отражают представление AI о смысле композиции.

2020.12.05 // AI Journey // Генерация изображения с помощью AI// Егор Шип // Dior