Производитель графических решений Nvidia продемонстрировала технологию, благодаря которой генерировать 3D-графику можно при помощи системы искусственного интеллекта.
Компания Nvidia показала демонстрационный проект - симулятор вождения, созданный искусственным интеллектом. ИИ отсканировал реальную городскую среду и создал алгоритм, с помощью которого можно управлять автомобилем. Игра сделана на движке Unreal Engine 4.
Конечно, пока генерация не происходит идеально и разработчики подправили некоторые аспекты кода и графики, но по большей части игровое пространство создано самим искусственным интеллектом.
«ИИ позволит разработчикам и художникам создавать новые интерактивные трехмерные виртуальные миры для автомобильной, игровой индустрии и для проектов в виртуальной реальности, просто обучаясь на видео из реального мира. Это снизит стоимость и время разработки. Нейронные сети, а в частности генеративные модели, изменят способ создания графики», - говорится в заявлении компании.
В отличие от большинства похожих решений, алгоритм Nvidia работает не с отдельными кадрами, а со всем видеопотоком сразу. Для обучения ИИ разработчики использовали графические процессоры NVIDIA Tesla V100 с алгоритмом глубокого обучения cuDNN, а также несколько тысяч видео городских пейзажей для обучения системы. Помимо генерации виртуальных миров, ИИ может также создавать и анимировать 3D-модели людей.
Система Nvidia использует метод генеративно-состязательной сети, который построен на комбинации из двух нейронных сетей, одна из которых генерирует образцы, а другая отклоняет неточные по её мнению. В результате ИИ самообучается созданию всё более качественных результатов с течением времени. Этот подход применяется довольно широко при создании изображений - самым известным примером являются многочисленные проекты по замере лиц знаменитостей.
Тот же метод использовался в искусственном интеллекте, создававшем оригинальный портрет на основе полотен известных живописцев. Для этого алгоритм использовал 15 тыс. картин, которые были написаны в период между XIV и XX веками. Картина была продана на аукционе за $432 тыс.
Технология NVIDIA генерирует графику в несколько шагов. Вначале исследователи должны собрать данные для обучения: в данном случае это были материалы, используемые при разработке автопилота. Затем видео сегментируется: каждый кадр разбивается на категории вроде неба, автомобилей, деревьев, дороги, зданий и так далее. Затем алгоритм обучается на основе этих данных для последующей генерации новых объектов.
Симуляция происходит на одном графическом процессоре, однако геймерам радоваться рано - речь идёт о Titan V за $3000, который обычно используется для продвинутой симуляции, а не для игр.
Одной из главных проблем, с которой столкнулись инженеры, заключалась в том, что алгоритм глубинного обучения генерируют графику с высокой частотой кадров, так что цвета и текстуры менялись в каждом кадре. Пришлось создать систему кратковременной памяти для сравнения каждого нового кадра с предыдущим. Она также призвана предсказывать направление движения и затем создавать кадры, согласованные с существующими. Все эти вычисления весьма требовательны к ресурсам, потому игровая демонстрация выводит лишь 25 кадров/с.