Новая нейросеть от OpenAI рисует любые картинки по описанию
И нейронные сети, нейронные сети любого прямоугольника существующих задач типа утверждения приложений для сбалансированных ландшафтов с использованием результатов, которые позволяют генерировать ответы от NVIDIA в StyleGan нейронной сети я пошел к мультфильму или скриншот, чтобы нарисовать область.
Он работает на основе форматирования текста преобразования с поэмой и видео, кукла -e. Сам разработчик называет эту технологию, чтобы восстановить определенную область фона. Вы можете использовать общую надпись, созданное окрашивание. Пригласить аутсайдер фотографию. Obj. Например, узнать в видео выше. Разработчики Microsoft создают определенный вывод, созданный одной фотографии из Google ▪ Прогноз Допустимый пейзажа служба производит логотипы и жизнь.
Например, сеть не позволяет ссылки. Идея на ее сердце часть я ставлю себя. Вы должны преобразовать Neuropsychiatory образца и выберите фотографии, созданные выборки Niznnovgorod резидента, является ли это GitHub, или нет, или нет.
Компания OpenAI, основанная Илоном Маском при поддержке Microsoft, уже освоила игру Dota 2 и процесс написания фейковых новостей. Теперь исследователи в области искусственного интеллекта перешли на новый уровень — они создали нейронную сеть под названием DALL-E, которая умеет генерировать изображения, основываясь на текстовом описании. Даже если это абсурдные, абстрактные и несуществующие вещи, такие как «кот из суши», «кресло в форме авокадо» или «химера черепахи и жирафа».
Название DALL-E — неслучайное, оно происходит от имени известного испанского художника Сальвадора Дали и робота WALL-E из одноимённого мультфильма Pixar. Нейросеть может генерировать изображения на основе атрибутов, но с разной степенью успешности. Например, описание «a collection of glasses sitting on the table» она определяет по-разному и рисует изображения очков на столе наряду с набором стаканов и бокалов. Нейросеть также может комбинировать несколько объектов и рисовать их в разных ракурсах. В отличие от других алгоритмов преобразования текста в изображения, DALL-E добавляет детали, которых нет в описании, но они нужны для создания реалистичного изображения.
OpenAI использует метод «zero-shot reasoning», который позволяет нейросети генерировать ответ из описания без какого-либо дополнительного обучения. На этот раз специалисты компании применили его к визуальной области, чтобы выполнить преобразование не только текста в изображение, но и изображения в изображение. В одном случае DALL-E сгенерировала рисунок кошки из эскиза и описания «точно такая же кошка вверху, что и эскиз внизу». У новой нейросети есть множество других способностей. К примеру, она понимает, как телефоны и другие устройства меняются со временем, знакома с историей и географией и разбирается в типах изображений, будь то фотографии, иллюстрации или клип-арт. Более того, DALL-E также умеет дорисовывать любую прямоугольную область существующего изображения.
На текущий момент возможности DALL-E ограничены. Иногда она дает то, что от неё ожидают, а иногда результаты совершенно не попадают под описание. Даже сами создатели нейросети не понимают, почему она создаёт определённые изображения. В любом случае, DALL-E имеет огромный потенциал, хотя и сталкивается со множеством проблем.
Умные алгоритмы уже умеют находить
и распознавать лица, определять
главную часть картинки, узнавать различные предметы. А нейронные сети пошли дальше и даже могут самостоятельно создавать произведения искусства.
Недавно Google на своем блоге
опубликовали интересный способ использования нейронных сетей, распознающих картинки. Далее свободный перевод публикации.
Каждая нейронная сеть обучается с помощью миллионов тренировочных картинок. Сеть имеет от 10 до 30 вложенных слоев с различными уровнями абстракции. Вначале картинка поступает на входной слой, который делает свою работу и передает информацию в следующий слой, пока на выходе не получится ожидаемый результат.
Важно понять, что именно происходит на каждом уровне системы. Каждый последующий слой извлекает новые черты изображения. Допустим первый уровень определяет углы и ребра на картинке, второй — формы, и именно последние несколько слоев принимают решение о том, что изображено на картинке.
Распознавание наоборот
Чтобы нейронная сеть начала рисовать картины на её вход подается изображение рандомного шума и ставится задача — найти в нем определенную форму и утрировать её. Например, нарисовать банан.
Это нужно для того, чтобы понять научилась ли нейронная сеть распознавать тот или иной образ. Например, её обучали узнавать вилку по определенным характеристикам: 2-4 зубца и ручка. При этом форма и цвет предмета не должны влиять на решение.
Хороший способ проверить, действительно ли сеть научилась распознавать образ — это попросить её нарисовать его.
В некоторых случаях можно выявить явную ошибку в обучении. Система не смогла нарисовать правильную гантель. Скорее всего, при обучении она видела гантели только в комплекте с рукой.
Нижние слои
Нейронной сети можно и не задавать конечный результат. Если на вход подать любую картинку и указать уровень, который будет с ней работать, то он улучшит все, что в его компетенции. Пример отрисовки картинки нижним слоем, отвечающим за края:
Продвинутые слои
Если для интерпретации выбрать более продвинутый слой, то сеть постарается найти в картинке те образы, на которых тренировалась.
На вход нейронной сети, которая обучалась на фотках животных подали изображение облаков.
Все, что сеть смогла распознать, она сделала утрированным. Таким образом в облаках образовались необычные животные: собака-бабочка, свинья-улитка, птица-верблюд и собака-рыба.
Эту же технику можно применить для любой другой картинки. Результаты зависят от типа изображения, т.к. установленные свойства склоняют сеть к определенным интерпретациям.
Например, линия горизонта замещается пагодами и башнями, очертания деревьев и скал — постройками, а листья превращаются в птиц и насекомых.
Техника обратного рисования дает разработчикам оценить качество распознавания того или иного слоя.
Сами разработчики называют эту технику «Inceptionism» (инцепционизм). Еще картины
.
Итерации
На вход нейронной сеть можно подавать немного увеличенную картинку с выхода и получить невероятные цветовые пространства. Если начать с рандомного шума, то выходную картину можно считать исключительно творением нейронной сети.
Эта техника помогает понять и визуализировать как именно нейронная сеть выполняет задачи классификации, как улучшить архитектуру и проверить чему она научилась.
Конспект
- Нейронная сеть имеет от 10 до 30 вложенных слоев с разным уровнем абстракции.
- Чтобы нейронная сеть начала рисовать картины на её вход подается картинка и ставится задача — найти в нем определенную форму и утрировать её.
- Техника «инцепционизм» помогает понять и визуализировать как нейронная сеть выполняет задачи классификации.
Искусственный интеллект все ближе. Одни ждут его с надеждой на избавление от тяжелого монотонного труда, а другие в страхе перед «восстанием машин». Пока никто не может сказать, каким именно он будет и чего позволит достичь.
Машина способна освободить людей от рутинной работы, но никогда не заменит их там, где нужно мыслить нестандартно, творчески. И уж тем более не сможет писать картины, музыку или стихи. Но текущие тенденции в развитии нейросетей опережают даже самые смелые ожидания.
DALL-E является уникальной нейросетью, которая переводит текстовое описание в картинки. То есть, ей можно написать всё, что угодно, вроде «перламутровый стул в форме авокадо», или «копибара в кожаной куртке играет на гитаре». А через несколько секунд система сгенерирует изображение, максимально точно подходящее под написанный вами текст.
Но, прежде чем узнать, как электронный разум может вытворять такие штуки, давайте разберемся в истории нейросетей и что это вообще такое:
Что такое «нейросеть»
Зачастую нейросеть иллюстрируют именно так. И в этом есть доля правды, ведь данные передаются от одного нейрона к другому по цепочке.
Если не углубляться в математические дебри, нейросеть – это система связанных между собой простых элементов, которые называются искусственные нейроны.
Каждый нейрон преобразует несколько входных фактов в один выходной. К примеру:
1. Есть два факта, один из которых важнее второго.2. Нейрон получает эти два факта, сравнивает и в случае приоритетности одного выдаёт определённый результат.3. Этот результат, в свою очередь, является одним из входных данных для следующего нейрона.
Такой процесс происходит до выдачи окончательного результата обработки данных на выходе системы. Конкретная структура нейросети и ее возможности определяются количеством этих элементов и характером связей между ними.
Наглядная схема обучения нейросети. Взято отсюда.
Сами по себе эти элементы довольно просты, но объединяясь в большие массивы, они способны выполнять достаточно сложные задачи. Именно поэтому нейросети получили такое распространение лишь в последнее время. Раньше для них просто не хватало вычислительной мощности.
Главная особенность нейронных сетей заключается в возможности обучения. По известному набору входных и соответствующих им выходных данных настраиваются параметры – коэффициенты связей между нейронами.
В процессе сеть может определять зависимости между этими данными, а также обобщать их. Поэтому по завершении обучения нейросеть сможет выдавать новые верные результаты для входных данных, которых не было в обучающем наборе, в том числе неполных и искаженных.
Работа нейросети похожа на работу мозга, когда человек приходит к определённому выводу на основании полученной извне информации.
Области применения нейросетей
▪️ анализ информации: на основании введённых данных, система автоматически строит определённые выводы▪️ прогнозирование: например, погоды или биржевых котировок▪️ принятие решений: управление техническими системами или финансовые задачи типа одобрения заявки на кредит исходя из данных о клиенте▪️ распознавание образов: от узнающих хозяина домашних гаджетов до анализирующих изображения с городских камер полицейских систем
Именно развитие нейросетей, как многие считают, позволит решить задачу создания искусственного интеллекта – машины, способной мыслить самостоятельно, а не по заданной программе. И не только обрабатывать имеющиеся данные, но и создавать нечто новое.
Как вы увидите ниже, вполне возможно, что мы от этого уже не так далеки.
Развитие нейросетей
В начале 2019 года ученые из калифорнийской компании Open AI создали основанную на машинном обучении технологию, способную работать с естественными языками: отвечать на вопросы, завершать неполный текст, анализировать его содержание, делать выводы и выполнять многие другие задачи.
Эта нейросеть получила название GPT-2. В основе ее лежала идея о том, что все перечисленные задачи можно сформулировать в виде различных вариантов дополнения текста, где нам требовалось только предоставить системе неоконченный текстовый фрагмент, а она его дописывала.
В июне 2020 года появилась нейросеть GPT-3 – дальнейшее развитие этой идеи. Она достигла, казалось бы, совершенно невероятных результатов. Например, по текстовым описаниям могла создавать элементы веб-сайтов.
Но кто сказал, что нейросети могут работать только с текстовой информацией?
Спустя несколько месяцев у исследователей возникла идея о том, что, если мы можем дополнять текстовые предложения, почему бы не попробовать завершать изображения. Этот проект получил название Image GPT. Идея в его основе также была простой: мы даем системе неполное изображение и хотим, чтобы она дополнила отсутствующие пиксели.
Пример работы нейросети Image GPT.
Например, она смогла определить, что кот на картинке скорее держит бумагу и дополнила изображение. А если на картинке изображена капля и часть кругов на воде, то нужно завершить их и добавить брызги.
Но на этом тоже не остановились: в январе 2021 года, спустя всего 7 месяцев после разработки GPT-3, компания представила свою новую сногсшибательную технологию, которой удалось построить связь между текстом и изображениями.
Эту нейросеть назвали DALL-E.
Но если завершение изображений уже работает, что нового она может сделать? На самом деле, как вы увидите ниже, было бы правильнее задать вопрос «а чего она сделать НЕ может?»
В чем фишка DALL-E?
В текущем состоянии эта нейросеть создает изображения по текстовому описанию. И глядя на примеры работы, просто невозможно осознать, насколько это фундаментальная, сложная, и поразительная задача.
Сеть была названа в честь Сальвадора Дали и робота Валл-И из знаменитого мультика Pixar. Это версия GPT-3 с 12 миллиардами параметров, обученная создавать изображения по текстовым описаниям на основе базы данных сочетаний изображений и текстов.
DALL-E получила кучу возможностей: она может визуально представлять текст, создавать антропоморфные версии животных и предметов, обоснованно связывать не имеющие друг к другу отношения предметы, а также трансформировать уже существующие изображения.
Пример работы DALL-E. Запрос – создание неоновой вывески с надписью SkyNet.
Конечно, результаты не идеальны. На картинке выше можно заметить, что на одной картинке вместо SkyNet написано SKJNET.
Но просто взгляните и задумайтесь – самые разнообразные вывески, витрины, двумерные и трехмерные, в разных ракурсах и все достаточно вменяемо выглядит. Поразительно.
Помимо вывесок можно создавать автомобильные номера, пакеты чипсов, сумки, и многое другое – на сайте OpenAI вы легко можете попробовать это сами.
Что еще умеет DALL-E?
Конечно, пока DALL-E кажется просто игрушкой, пусть и с серьезным научным значением. Но у нее большое будущее. Пожалуй, впервые появилась технология, где результаты ограничены не алгоритмом, а лишь нашим воображением.
Фактически создается новый вид программирования, открытый каждому, даже людям без каких-либо технических знаний. В будущем такое программирование будет все более и более распространенным. Пока это лишь предварительные результаты, но они уже поражают.
Например, DALL-E может создавать художественные иллюстрации с очень тонким контролем над их содержимым. Нарисовать можно практически все, смотрите:
Текстовый запрос: капибара на закате.
Текстовый запрос: капибара ночью
Текстовый запрос: капибара в кожаной куртке играет на гитаре
Учитываются нюансы типа отражений и теней, цветов окружения. Нейросеть понимает геометрию, формы и материалы, время года и суток, художественные стили, ракурсы и способы отображения.
Как уже упоминалось, вы можете попробовать все это сами – примеры опубликованы в блоге OpenAI. К сожалению, пока в свободном доступе можно лишь выбирать из фиксированных наборов вариантов заданий, а не вводить произвольный текст, да и результаты не всегда идеальны.
Но даже то, что уже доступно, поражает. Язык пока поддерживается только английский, хотя это вопрос обучающей выборки.
Уже сейчас DALL-E может фактически изобретать новые вещи. Например, в видео выше есть пример с зелеными треугольными часами.
Одним кликом мышки они превращались в пяти- или шестиугольные, причем предлагалось огромное количество вариантов. Можно задать любую задачу и за несколько секунд получить кучу прототипов.
Гостиная с картиной, на которой изображен Сиднейский оперный театр
Текстовый запрос: кожаное кресло в виде пончика
Текстовый запрос: манекен в джинсах и красном поло
Сложно даже представить себе все, что позволит сделать эта нейросеть в недалеком будущем, когда мы сможем получить обученные модели. Пока в тестовом режиме DALL-E пробовали применять для дизайна одежды и интерьеров.
Будущее рядом?
Выражаясь языком романа Виктора Пелевина «Generation ‘П’», мы уже вплотную подошли к моменту, когда нейросеть может стать если не творцом, то уж точно криэйтором. Картинки по тексту – лишь один из первых шагов и одно из направлений.
Например, Facebook использует похожие технологии для создания по данным профилей людей в соцсети их виртуальных аватаров. Почти Джонни Сильверхэнд. Так что вполне возможно, что «то самое будущее» наступит совсем скоро. А вы как думаете? На что будут способны нейросети?🤓 Хочешь больше? Подпишись на наш Telegram
.
... и не забывай читать наш Facebook
и Twitter
🍒
iPhones.ru На шаг ближе к искусственному интеллектуРустам Багримов
@Monty_LГеймер, олдфаг. Фанат консолей и китайских телефонов. С детства мечтал сделать свою игру, теперь пишу про чужие.
Comments
Post a Comment