Новая нейросеть от OpenAI рисует любые картинки по описанию

October 06, 2021

Новая нейросеть от OpenAI рисует любые картинки по описанию

И нейронные сети, нейронные сети любого прямоугольника существующих задач типа утверждения приложений для сбалансированных ландшафтов с использованием результатов, которые позволяют генерировать ответы от NVIDIA в StyleGan нейронной сети я пошел к мультфильму или скриншот, чтобы нарисовать область.

Он работает на основе форматирования текста преобразования с поэмой и видео, кукла -e. Сам разработчик называет эту технологию, чтобы восстановить определенную область фона. Вы можете использовать общую надпись, созданное окрашивание. Пригласить аутсайдер фотографию. Obj. Например, узнать в видео выше. Разработчики Microsoft создают определенный вывод, созданный одной фотографии из Google ▪ Прогноз Допустимый пейзажа служба производит логотипы и жизнь.

Например, сеть не позволяет ссылки. Идея на ее сердце часть я ставлю себя. Вы должны преобразовать Neuropsychiatory образца и выберите фотографии, созданные выборки Niznnovgorod резидента, является ли это GitHub, или нет, или нет.

Компания OpenAI, основанная Илоном Маском при поддержке Microsoft, уже освоила игру Dota 2 и процесс написания фейковых новостей. Теперь исследователи в области искусственного интеллекта перешли на новый уровень — они создали нейронную сеть под названием DALL-E, которая умеет генерировать изображения, основываясь на текстовом описании. Даже если это абсурдные, абстрактные и несуществующие вещи, такие как «кот из суши», «кресло в форме авокадо» или «химера черепахи и жирафа».

нейросеть рисует картинки

Название DALL-E — неслучайное, оно происходит от имени известного испанского художника Сальвадора Дали и робота WALL-E из одноимённого мультфильма Pixar. Нейросеть может генерировать изображения на основе атрибутов, но с разной степенью успешности. Например, описание «a collection of glasses sitting on the table» она определяет по-разному и рисует изображения очков на столе наряду с набором стаканов и бокалов. Нейросеть также может комбинировать несколько объектов и рисовать их в разных ракурсах. В отличие от других алгоритмов преобразования текста в изображения, DALL-E добавляет детали, которых нет в описании, но они нужны для создания реалистичного изображения. нейросеть рисует картинки

OpenAI использует метод «zero-shot reasoning», который позволяет нейросети генерировать ответ из описания без какого-либо дополнительного обучения. На этот раз специалисты компании применили его к визуальной области, чтобы выполнить преобразование не только текста в изображение, но и изображения в изображение. В одном случае DALL-E сгенерировала рисунок кошки из эскиза и описания «точно такая же кошка вверху, что и эскиз внизу». У новой нейросети есть множество других способностей. К примеру, она понимает, как телефоны и другие устройства меняются со временем, знакома с историей и географией и разбирается в типах изображений, будь то фотографии, иллюстрации или клип-арт. Более того, DALL-E также умеет дорисовывать любую прямоугольную область существующего изображения.

На текущий момент возможности DALL-E ограничены. Иногда она дает то, что от неё ожидают, а иногда результаты совершенно не попадают под описание. Даже сами создатели нейросети не понимают, почему она создаёт определённые изображения. В любом случае, DALL-E имеет огромный потенциал, хотя и сталкивается со множеством проблем.

Умные алгоритмы уже умеют находить

и распознавать лица, определять

главную часть картинки, узнавать различные предметы. А нейронные сети пошли дальше и даже могут самостоятельно создавать произведения искусства.

Недавно Google на своем блоге

опубликовали интересный способ использования нейронных сетей, распознающих картинки. Далее свободный перевод публикации.

Каждая нейронная сеть обучается с помощью миллионов тренировочных картинок. Сеть имеет от 10 до 30 вложенных слоев с различными уровнями абстракции. Вначале картинка поступает на входной слой, который делает свою работу и передает информацию в следующий слой, пока на выходе не получится ожидаемый результат.

Важно понять, что именно происходит на каждом уровне системы. Каждый последующий слой извлекает новые черты изображения. Допустим первый уровень определяет углы и ребра на картинке, второй — формы, и именно последние несколько слоев принимают решение о том, что изображено на картинке.

Распознавание наоборот

Чтобы нейронная сеть начала рисовать картины на её вход подается изображение рандомного шума и ставится задача — найти в нем определенную форму и утрировать её. Например, нарисовать банан.

Это нужно для того, чтобы понять научилась ли нейронная сеть распознавать тот или иной образ. Например, её обучали узнавать вилку по определенным характеристикам: 2-4 зубца и ручка. При этом форма и цвет предмета не должны влиять на решение.

Хороший способ проверить, действительно ли сеть научилась распознавать образ — это попросить её нарисовать его.

В некоторых случаях можно выявить явную ошибку в обучении. Система не смогла нарисовать правильную гантель. Скорее всего, при обучении она видела гантели только в комплекте с рукой.

Нижние слои

Нейронной сети можно и не задавать конечный результат. Если на вход подать любую картинку и указать уровень, который будет с ней работать, то он улучшит все, что в его компетенции. Пример отрисовки картинки нижним слоем, отвечающим за края:

Продвинутые слои

Если для интерпретации выбрать более продвинутый слой, то сеть постарается найти в картинке те образы, на которых тренировалась.

На вход нейронной сети, которая обучалась на фотках животных подали изображение облаков.

Все, что сеть смогла распознать, она сделала утрированным. Таким образом в облаках образовались необычные животные: собака-бабочка, свинья-улитка, птица-верблюд и собака-рыба.

Эту же технику можно применить для любой другой картинки. Результаты зависят от типа изображения, т.к. установленные свойства склоняют сеть к определенным интерпретациям.

Например, линия горизонта замещается пагодами и башнями, очертания деревьев и скал — постройками, а листья превращаются в птиц и насекомых.

Техника обратного рисования дает разработчикам оценить качество распознавания того или иного слоя.

Сами разработчики называют эту технику «Inceptionism» (инцепционизм). Еще картины

Итерации

На вход нейронной сеть можно подавать немного увеличенную картинку с выхода и получить невероятные цветовые пространства. Если начать с рандомного шума, то выходную картину можно считать исключительно творением нейронной сети.

Эта техника помогает понять и визуализировать как именно нейронная сеть выполняет задачи классификации, как улучшить архитектуру и проверить чему она научилась.

Конспект

Нейронная сеть имеет от 10 до 30 вложенных слоев с разным уровнем абстракции.
Чтобы нейронная сеть начала рисовать картины на её вход подается картинка и ставится задача — найти в нем определенную форму и утрировать её.
Техника «инцепционизм» помогает понять и визуализировать как нейронная сеть выполняет задачи классификации.

Искусственный интеллект все ближе. Одни ждут его с надеждой на избавление от тяжелого монотонного труда, а другие в страхе перед «восстанием машин». Пока никто не может сказать, каким именно он будет и чего позволит достичь.

Машина способна освободить людей от рутинной работы, но никогда не заменит их там, где нужно мыслить нестандартно, творчески. И уж тем более не сможет писать картины, музыку или стихи. Но текущие тенденции в развитии нейросетей опережают даже самые смелые ожидания.

DALL-E является уникальной нейросетью, которая переводит текстовое описание в картинки. То есть, ей можно написать всё, что угодно, вроде «перламутровый стул в форме авокадо», или «копибара в кожаной куртке играет на гитаре». А через несколько секунд система сгенерирует изображение, максимально точно подходящее под написанный вами текст.

Но, прежде чем узнать, как электронный разум может вытворять такие штуки, давайте разберемся в истории нейросетей и что это вообще такое:

Что такое «нейросеть»

нейросеть рисует картинки Зачастую нейросеть иллюстрируют именно так. И в этом есть доля правды, ведь данные передаются от одного нейрона к другому по цепочке.

Если не углубляться в математические дебри, нейросеть – это система связанных между собой простых элементов, которые называются искусственные нейроны.

Каждый нейрон преобразует несколько входных фактов в один выходной. К примеру:

1. Есть два факта, один из которых важнее второго.2. Нейрон получает эти два факта, сравнивает и в случае приоритетности одного выдаёт определённый результат.3. Этот результат, в свою очередь, является одним из входных данных для следующего нейрона.

Такой процесс происходит до выдачи окончательного результата обработки данных на выходе системы. Конкретная структура нейросети и ее возможности определяются количеством этих элементов и характером связей между ними.

нейросеть рисует картинки Наглядная схема обучения нейросети. Взято отсюда.

Сами по себе эти элементы довольно просты, но объединяясь в большие массивы, они способны выполнять достаточно сложные задачи. Именно поэтому нейросети получили такое распространение лишь в последнее время. Раньше для них просто не хватало вычислительной мощности.

Главная особенность нейронных сетей заключается в возможности обучения. По известному набору входных и соответствующих им выходных данных настраиваются параметры – коэффициенты связей между нейронами.

В процессе сеть может определять зависимости между этими данными, а также обобщать их. Поэтому по завершении обучения нейросеть сможет выдавать новые верные результаты для входных данных, которых не было в обучающем наборе, в том числе неполных и искаженных.

нейросеть рисует картинки Работа нейросети похожа на работу мозга, когда человек приходит к определённому выводу на основании полученной извне информации.

Области применения нейросетей

▪️ анализ информации: на основании введённых данных, система автоматически строит определённые выводы▪️ прогнозирование: например, погоды или биржевых котировок▪️ принятие решений: управление техническими системами или финансовые задачи типа одобрения заявки на кредит исходя из данных о клиенте▪️ распознавание образов: от узнающих хозяина домашних гаджетов до анализирующих изображения с городских камер полицейских систем

Именно развитие нейросетей, как многие считают, позволит решить задачу создания искусственного интеллекта – машины, способной мыслить самостоятельно, а не по заданной программе. И не только обрабатывать имеющиеся данные, но и создавать нечто новое.

Как вы увидите ниже, вполне возможно, что мы от этого уже не так далеки.

Развитие нейросетей

нейросеть рисует картинки

В начале 2019 года ученые из калифорнийской компании Open AI создали основанную на машинном обучении технологию, способную работать с естественными языками: отвечать на вопросы, завершать неполный текст, анализировать его содержание, делать выводы и выполнять многие другие задачи.

Эта нейросеть получила название GPT-2. В основе ее лежала идея о том, что все перечисленные задачи можно сформулировать в виде различных вариантов дополнения текста, где нам требовалось только предоставить системе неоконченный текстовый фрагмент, а она его дописывала.

В июне 2020 года появилась нейросеть GPT-3 – дальнейшее развитие этой идеи. Она достигла, казалось бы, совершенно невероятных результатов. Например, по текстовым описаниям могла создавать элементы веб-сайтов.

Но кто сказал, что нейросети могут работать только с текстовой информацией?

Спустя несколько месяцев у исследователей возникла идея о том, что, если мы можем дополнять текстовые предложения, почему бы не попробовать завершать изображения. Этот проект получил название Image GPT. Идея в его основе также была простой: мы даем системе неполное изображение и хотим, чтобы она дополнила отсутствующие пиксели.

нейросеть рисует картинки Пример работы нейросети Image GPT.

Например, она смогла определить, что кот на картинке скорее держит бумагу и дополнила изображение. А если на картинке изображена капля и часть кругов на воде, то нужно завершить их и добавить брызги.

Но на этом тоже не остановились: в январе 2021 года, спустя всего 7 месяцев после разработки GPT-3, компания представила свою новую сногсшибательную технологию, которой удалось построить связь между текстом и изображениями.

Эту нейросеть назвали DALL-E.

Но если завершение изображений уже работает, что нового она может сделать? На самом деле, как вы увидите ниже, было бы правильнее задать вопрос «а чего она сделать НЕ может?»

В чем фишка DALL-E?

нейросеть рисует картинки

В текущем состоянии эта нейросеть создает изображения по текстовому описанию. И глядя на примеры работы, просто невозможно осознать, насколько это фундаментальная, сложная, и поразительная задача.

Сеть была названа в честь Сальвадора Дали и робота Валл-И из знаменитого мультика Pixar. Это версия GPT-3 с 12 миллиардами параметров, обученная создавать изображения по текстовым описаниям на основе базы данных сочетаний изображений и текстов.

DALL-E получила кучу возможностей: она может визуально представлять текст, создавать антропоморфные версии животных и предметов, обоснованно связывать не имеющие друг к другу отношения предметы, а также трансформировать уже существующие изображения.

нейросеть рисует картинки Пример работы DALL-E. Запрос – создание неоновой вывески с надписью SkyNet.

Конечно, результаты не идеальны. На картинке выше можно заметить, что на одной картинке вместо SkyNet написано SKJNET.

Но просто взгляните и задумайтесь – самые разнообразные вывески, витрины, двумерные и трехмерные, в разных ракурсах и все достаточно вменяемо выглядит. Поразительно.

Помимо вывесок можно создавать автомобильные номера, пакеты чипсов, сумки, и многое другое – на сайте OpenAI вы легко можете попробовать это сами.

Что еще умеет DALL-E?

нейросеть рисует картинки

Конечно, пока DALL-E кажется просто игрушкой, пусть и с серьезным научным значением. Но у нее большое будущее. Пожалуй, впервые появилась технология, где результаты ограничены не алгоритмом, а лишь нашим воображением.

Фактически создается новый вид программирования, открытый каждому, даже людям без каких-либо технических знаний. В будущем такое программирование будет все более и более распространенным. Пока это лишь предварительные результаты, но они уже поражают.

Например, DALL-E может создавать художественные иллюстрации с очень тонким контролем над их содержимым. Нарисовать можно практически все, смотрите:

нейросеть рисует картинки Текстовый запрос: капибара на закате.

нейросеть рисует картинки Текстовый запрос: капибара ночью

нейросеть рисует картинки Текстовый запрос: капибара в кожаной куртке играет на гитаре

Учитываются нюансы типа отражений и теней, цветов окружения. Нейросеть понимает геометрию, формы и материалы, время года и суток, художественные стили, ракурсы и способы отображения.

Как уже упоминалось, вы можете попробовать все это сами – примеры опубликованы в блоге OpenAI. К сожалению, пока в свободном доступе можно лишь выбирать из фиксированных наборов вариантов заданий, а не вводить произвольный текст, да и результаты не всегда идеальны.

Но даже то, что уже доступно, поражает. Язык пока поддерживается только английский, хотя это вопрос обучающей выборки.

Уже сейчас DALL-E может фактически изобретать новые вещи. Например, в видео выше есть пример с зелеными треугольными часами.

Одним кликом мышки они превращались в пяти- или шестиугольные, причем предлагалось огромное количество вариантов. Можно задать любую задачу и за несколько секунд получить кучу прототипов.

нейросеть рисует картинки Гостиная с картиной, на которой изображен Сиднейский оперный театр

нейросеть рисует картинки Текстовый запрос: кожаное кресло в виде пончика

нейросеть рисует картинки Текстовый запрос: манекен в джинсах и красном поло

Сложно даже представить себе все, что позволит сделать эта нейросеть в недалеком будущем, когда мы сможем получить обученные модели. Пока в тестовом режиме DALL-E пробовали применять для дизайна одежды и интерьеров.

Будущее рядом?

нейросеть рисует картинки

Выражаясь языком романа Виктора Пелевина «Generation ‘П’», мы уже вплотную подошли к моменту, когда нейросеть может стать если не творцом, то уж точно криэйтором. Картинки по тексту – лишь один из первых шагов и одно из направлений.

Например, Facebook использует похожие технологии для создания по данным профилей людей в соцсети их виртуальных аватаров. Почти Джонни Сильверхэнд. Так что вполне возможно, что «то самое будущее» наступит совсем скоро. А вы как думаете? На что будут способны нейросети?🤓 Хочешь больше? Подпишись на наш Telegram

... и не забывай читать наш Facebook

и Twitter

🍒

iPhones.ru На шаг ближе к искусственному интеллекту нейросеть рисует картинки

Рустам Багримов

@Monty_L

Геймер, олдфаг. Фанат консолей и китайских телефонов. С детства мечтал сделать свою игру, теперь пишу про чужие.

Search This Blog

Harvard Laius Stam