Создание видео из текста


Sora - это модель искусственного интеллекта, которая может создавать реалистичные и образные сцены на основе текстовых инструкций.

Мы учим искусственный интеллект понимать и моделировать физический мир в движении с целью обучения моделей, которые помогают людям решать проблемы, требующие взаимодействия с реальным миром.

Представляем Sora, нашу модель преобразования текста в видео. Sora может создавать видеоролики продолжительностью до минуты, сохраняя визуальное качество и следуя подсказкам пользователя.

Сегодня Sora становится доступной для сотрудников red teamers для оценки критических областей на предмет нанесения вреда или рисков. Мы также предоставляем доступ к ряду художников-визуалистов, дизайнеров и кинематографистов, чтобы получить обратную связь о том, как продвинуть модель, чтобы она была наиболее полезной для творческих профессионалов.

Мы делимся результатами наших исследований как можно раньше, чтобы начать работать с людьми за пределами OpenAI и получать обратную связь от них, а также дать общественности представление о том, какие возможности искусственного интеллекта маячат на горизонте.

Sora способна создавать сложные сцены с несколькими персонажами, определенными типами движений и точными деталями объекта съемки и фона. Модель понимает не только то, что пользователь запросил в приглашении, но и то, как эти вещи существуют в физическом мире.

Модель обладает глубоким пониманием языка, что позволяет ей точно интерпретировать подсказки и создавать привлекательных персонажей, выражающих яркие эмоции. Sora также может создавать несколько кадров в рамках одного сгенерированного видео, которые точно передают персонажей и визуальный стиль.

Текущая модель имеет недостатки. Она может испытывать трудности с точным моделированием физики сложной сцены и может не понимать конкретных причинно-следственных связей. Например, человек может откусить кусочек от печенья, но впоследствии на нем может не остаться следов надкуса.

Модель также может путать пространственные детали подсказки, например, путать левое и правое направления, и может затрудняться с точным описанием событий, происходящих с течением времени, например, следования определенной траектории камеры.


Безопасность

Прежде чем включить Sora в продукты OpenAI, мы предпримем несколько важных шагов по обеспечению безопасности. Мы работаем с red teamers — экспертами предметной области в таких областях, как дезинформация, ненавистнический контент и предвзятость, — которые будут состязательно тестировать модель.

Мы также создаем инструменты, помогающие обнаруживать вводящий в заблуждение контент, такие как классификатор обнаружения, который может определить, когда видео было сгенерировано Sora. Мы планируем включить метаданные C2PA в будущем, если развернем модель в продукте OpenAI.

Помимо разработки новых методов подготовки к внедрению, мы используем существующие методы обеспечения безопасности, разработанные нами для наших продуктов, использующих DALL · E3, которые также применимы к Sora.

Например, при использовании продукта OpenAI наш текстовый классификатор проверяет и отклоняет запросы на ввод текста, которые нарушают наши правила использования, например, те, которые требуют экстремального насилия, сексуального содержания, изображений, вызывающих ненависть, сходства со знаменитостями или IP-адресов других лиц. Мы также разработали надежные классификаторы изображений, которые используются для проверки кадров каждого созданного видео, чтобы убедиться, что оно соответствует нашим правилам использования, прежде чем показывать пользователю.

Мы будем привлекать политиков, преподавателей и художников по всему миру, чтобы понять их проблемы и определить положительные примеры использования этой новой технологии. Несмотря на обширные исследования и тестирование, мы не можем предсказать все полезные способы, которыми люди будут использовать нашу технологию, и все способы, которыми люди будут злоупотреблять ею. Вот почему мы считаем, что обучение на основе реального использования является важнейшим компонентом создания и выпуска все более безопасных систем искусственного интеллекта с течением времени.


Методы исследования

Sora - это диффузионная модель, которая генерирует видео, начиная с того, которое выглядит как статический шум, и постепенно преобразует его, удаляя шум в течение многих этапов.

Sora способна генерировать целые видео сразу или расширять сгенерированные видео, чтобы сделать их длиннее. Предоставляя модели возможность видеть множество кадров одновременно, мы решили сложную проблему - убедиться, что объект остается неизменным, даже когда он временно исчезает из поля зрения.

Подобно моделям GPT, Sora использует трансформаторную архитектуру, обеспечивающую превосходную производительность масштабирования.

Мы представляем видео и изображения в виде наборов меньших единиц данных, называемых патчами, каждый из которых подобен токену в GPT. Унифицировав способ представления данных, мы можем обучать диффузионные преобразователи более широкому диапазону визуальных данных, чем это было возможно раньше, с разной длительностью, разрешением и соотношением сторон.

Sora основывается на прошлых исследованиях в моделях DALL · E и GPT. Он использует технику повторных подписей из DALL · E 3, которая включает в себя создание описательных подписей к данным визуального обучения. В результате модель может более точно следовать текстовым инструкциям пользователя в сгенерированном видео.

Помимо возможности генерировать видео исключительно на основе текстовых инструкций, модель способна взять существующее неподвижное изображение и сгенерировать на его основе видео, анимируя содержимое изображения с точностью и вниманием к мелким деталям. Модель также может взять существующее видео и расширить его или заполнить недостающие кадры. Узнайте больше в нашем техническом отчете.


Sora служит основой для моделей, которые могут понимать и имитировать реальный мир, и мы считаем, что эта способность станет важной вехой для достижения AGI.