Не смотря на название статьи, речь пойдет не о паровозике, а о поезде, который несется на бешенной скорости, но в который вы еще можете успеть запрыгнуть. А именно - о генеративных нейросетях.
Помните, как все начиналось? Когда появилась первая нейросеть от нвидиа, которая по скетчу из пейнта могла нарисовать гору? Все такие "ну ок, прикольненько, типо пейнт с кнопкой деланья красиво". Но когда вышла Midjourney отношение было уже другое. Сперва был восторг, после, буквально через пол часа, ужас. Прошло несколько AntiAI бунтов на разных площадках для художников, жаркое обсуждение, пару законов, пару судебных прецедентов (неадекватных, по такой же логике нужно забрать все авторские права у режиссеров фильмов, ведь не они же фильмы снимают, а операторы). Но дальше разочарование. Потому что оказалось, что эта штука хоть и делает очень красивые, "вкусные" и атмосферные картинки, тем не менее эти картинки абсолютно "пустые" и бесполезные. Ну вот попросит условный заказчик нарисовать такую же девушку, только в брекетах, и что? А все, тупик. Если нейросеть и нарисует девушку, то не такую, или без брекетов, а "такую же, но в брекетах" - уже никак. Красиво, прикольно, но юзлесс (бесполезно). Такой вывод сделали большинство тех, кто "потыкал" нейросеть год назад. Ну а дальше просто то и дело где то в сети всплывают красивые "бесполезные" картинки, и на этом все вроде как и закончилось с этими нейросетями. Кто то для чего то их использует, но для чего - вообще не понятно. Да и зачем?
А что если я вам скажу, что мир перевернулся, просто вы еще этого не успели заметить, и это чревато тем, что вы окажетесь за бортом, так и не успев в последний вагон. Ведь поезд разгоняется.
Дальше пойдет разговор о такой генеративной нейросети как Stable Diffusion.
Думаю те, кто ее пробовал год назад, пришли к выводу, что "не торт, да и миджорни лучше". Тогда почему именно о ней?
Потому что разработчики этой нейросети сделали "ход конем" и выложили ее в открытый доступ, сделав "опенсорс", и "понеслась".
Для начала она устанавливается на локальную машину, а не используется на сервере. На крайний случай используется в облаке (гугл колаб), но там не удобно. Колаб подходит разве что для тренировки моделей, но не для работы по генерации сложных изображений.
Сейчас, всего за год, Stable Diffusion обросла таким количеством бесплатных моделей, плагинов, пре и постпроцессоров, интерпретаторов, обработчиков и референсов (с настройками), что охватить все - не хватит и года. И более того, каждый день этого всего появляется больше, чем вы способны успеть выучить (я теперь понимаю, как выглядит сингулярность, а главное, как она ощущается). Это не 3д макс, где за 5 лет добавили одну кнопку, или корона, где добавили новый материал за 3 года. Тут каждый день выходит что то новое, и не одно. Более того, за год оно сделало скачок с разрешения 512 до разрешения 1024. И сейчас при помощи этой нейросети можно создавать сложнейшие композиции, с кучей деталей, персонажей, техникой и т.д. То, чем вы восхищались еще пару лет на арстейшене, что делали условные "азиаты-ноулайферы" (как их в шутку называли), сейчас делается за час. Те картины, которые раньше занимали месяцы, и стоили тысячи долларов (за человекочасы затраченные на их создание), сейчас делаются за день. Причем не "как получиться", а "как нужно".
Правда стоит сделать отступление, и сказать, что значит "как получится" и "как нужно". Обычно когда люди знакомятся с генеративными нейросетями, они сталкиваются с тем, что они что от там написали, оно что то там сделало, после выбрали лучший вариант, порадовались, и готово. То-есть результат они не контролируют, даже если он получается "вкусным" и красивым.
И подобное особенно сильно расстроило (или обрадовало, кого как) художников, которые почему то решили, что нейросеть - это карандаш (инструмент) сродни фотошопу или 3д максу.
Но нейросеть это не карандаш, это художник, который держит карандаш. Представьте, что не вы рисуете картину руками, и ведете линии, а вы даете задачу художнику нарисовать вам картину. Может заказываете на фрилансе, может вы арт-директор или проект менеджер, не важно. Рисуете не вы, вы заказчик или арт директор (первое или второе зависит от степени погружения). А нейросеть - сотрудник (художник в штате) или исполнитель (на фрилансе).
И теперь представьте, что вы приходите, и говорите "хочу робота". Какого вам робота нарисует художник? Ну, какого видит. Ведь он художник, и как он видит, так и получится. Он дает вам готовую выполненную работу, а вы говорите "да не такого робота". И художник закономерно спрашивает "а какого?". Да, конечно, человек-художник не хочет делать работу за зря, и он понимает что надо выяснить какого робота хочет заказчик до того, как его нарисовать, но суть я думаю понятна.
Но если вы покажете художнику примеры роботов, которые вам нравятся, распишете позу, детали, укажете, где у робота что должно находиться, не забудете про цвет, свет, фактуру, и в добавок ко всему этому расскажете о стилистике (аниме, реализм или что еще), то думаю что вы получите своего робота (плюс минус), если не с первого раза, то после небольших правок так точно. Ну при условии что вы друг друга понимаете и достаточно долго обсуждаете концепцию, делаете много набросков, эскизов и т.д.
Ну и конечно же это займет у вас какое то время. Несколько десятков часов на согласование, утверждение, правки и т.д. и пару месяцев на рисование (если мы говорим о каком то крутом арте, ну там, например, иллюстрации на обложку для книги).
Так вот нейросеть это тот же художник. Только важно понимать, что между вами языковый барьер. Ну условно представьте, что вы говорите на русском, художник на японском, а между собой вы общаетесь на ломаном английском, который для вас двоих не родной. Так и с нейросетью. Английский для нее не родной, и она его "понимает" по своему, через специальный "дешифратор" (интерпретатор).
И что бы получить нужный результат, нужно активно пользоваться примерами, эскизами и т.д.
И это все актуальная версия Stable Diffusion умеет. Там есть специальные плагины и модули, которые позволяют загрузить позу персонажа, цветовую палитру, эскиз, референс, лайнарт и т.д. В добавок там еще можно указать зоны, какие как сделать и т.д.
Но даже так, часто возникает вопрос "а вот мне надо вот так, но что бы из раза в раз, вот я сделал модель персонажа, или корабля, и вот этот корабль я теперь могу рендерить пока не надоест", а как в нейросети сделать одного и того же персонажа, стилистику и т.д.?
Еще возникают вопросы по типу: ну вот допустим у меня здание вот такое, и мне надо что бы все комнаты были в этом стиле, плюс-минус больше или меньше стиля, но все равно оно должно быть в одном стиле, или вот мне надо сделать тут дверь, а там окно, как мне это сделать?
И это можно сделать. Делается это при помощи добавления специальных "мини моделей". В нейросети есть большая генеративная модель, обученная на тысячах изображений, а есть модели поменьше, обученные на десятке изображений, вот эти модели "делают нужного персонажа" или "нужный стиль" на всех генерациях, где они используются. Скачиваются либо готовые (тысячи их), либо делаются самостоятельно (либо на основе генерируемых изображений, либо изображений из интернета). Да, не со всем этот способ справляется хорошо. Например он хорошо делает людей и человекоподобных персонажей, но не очень хорошо рисует технику (один и тот же танк в разных сюжетах оно сделает немного разным).
Изображение - пример использования таких моделей стилизации на примере кофеварки:
Да, важно сказать, что в основном это все имеет отношение к тем, кто занимается 2д или концепт 3д. Иллюстраторы, концепт художники и т.д. Это все касается по большей части их. А особенно касается тех, кто зарабатывает, работая на "конечного заказчика". Так как здесь нет точных требований к единой стилистике, не нужно делать подробную раскадровку, как в каком то комиксе, и т.д.
Хотя для нейросети и это не проблема уже, просто чуть сложнее, и это повторюсь, за год существования, что будет еще через год? Сложно представить, так как работы в этом направлении идут. Предположительно через год-два будет делаться полноценное видео. Фактически можно будет скормить нейросети сценарий с "заметками режиссера", и получить на выходе фильм или мультик. Ну это не в ближайший год, но в ближайшие 5 лет думаю каждый сможет снимать и делать мультики типа "пиксар".
Ну по крайней мере сейчас я могу делать арты уровня топовых художников, тратя на это день (день на арт).
И да, если вдруг кто то скажет, что "ну все равно, ты же не контролируешь процесс так, как художник, у тебя получается что получается", то я повторю то, что написал выше. Относиться к нейросети нужно как к исполнителю, а не как к карандашу. Да и как тот, кто много лет занимался 3д, могу сказать, что результат в 3д тоже не получается так, как рисуешь изначально в голове. Да и как рисуешь изначально в голове? Обычно так: "тут стул, тут стол, погнали, тут окно, погнали" и по ходу добавляешь детали, освещение и т.д. пробуя разные варианты и смотря что получится, выбираешь лучший. Художники точно так же "ищут" концепт, а после его прорабатывают. Посмотрите спидпеинтинг, сколько раз они перерисовывают скетч, меняя одежду, позу? По несколько раз, даже если опытные.
То-есть результат фактически художником тоже "генерируется" по ходу, и получается "классным" (или нет), но далеко не таким, как был изначальный план (если только художник не перерисовывает скетч, но в другой позе, как например в случае с концепт артом персонажей и т.д. или если он постоянно не сверяется с референсом, занимаясь по сути срисовыванием, но нейросеть так тоже может).
Таким образом сейчас генеративные нейросети - это мощная штука, которая если не облегчает, то ускоряет и удешевляет работу так точно. Во всяком случае в некоторых задачах. Да, есть задачи, которые нейросеть сделать не может, например она вообще не умеет в текст и цифры. Но это "языковый барьер", как я говорил раньше. Вы тоже не сможете читать и писать на арабском или корейском, если его не знаете в письменности, даже если умеете на нем говорить. Максимум будете срисовывать завитушки.
А в будущем генеративные нейросети будут инструментом на уровне с сценаристом, режиссером и оператором. Будут писать в титрах "Режиссер - Кристофер Нолан и AIMV Diffusion", или что то в таком роде. И желательно до того момента понимать, что такое это за "Diffusion" и с чем его едят. Если конечно не хочется остаться на обочине.
-----
Дальше пойдут примеры моих работ (много картинок). Все работы сделаны по сценарию (по книжному описанию). То-есть это не просто "задал запрос, получил что то там". Здесь конкретно как задумывалось, так и вышло. Совпадение 80-90% с тем, что было нужно (примерно такое же совпадение у хорошего художника того, что он рисует с тем, что он придумал, совпадение же представления заказчика с представлением художника, что рисует для него картину, хорошо если будет в районе 60-70%). Ну то есть смотря на результат, я могу с уверенностью сказать "это оно". Ну или как минимум "это оно, только сделайте рога черными" (хотя рога черными тоже можно сделать, просто мне было лень тратить на это еще час)..
Важная ремарка. Я называю это именно "мои работы", потому что сделать подобное требует усилий не меньших, чем работа режиссера во время создания фильма или арт директора при работе над крупным проектом. Да, не режиссер бегает по площадке, и тягает камеру, и даже не он пишет сценарий, но считается, что именно режиссеры создают фильмы, так и тут. Только здесь я выступаю арт-директором, так как это не фильм, а статика.
Все это иллюстрации к книгам (двум книгам).
Обложка для книги.
Альтернативная версия (альтернативных цветовых решений я сделал три десятка за час).
Еще один вариант, отличающийся по стилистике (ретрофутуризм теперь, против сайфая, который выше).
Если присматриваться к деталям, то конечно можно найти мелкие огрехи. Но если бы вы это делали в 3д, и не расставляли бы здания и детали вручную, а просто насыпали бы форестпаком условным, то косяки были бы аналогичные, а что бы их не было, нужно было бы это моделить вручную месяцами. Если же это делать в 2д, то "рендер" был бы даже не близко такого качества. Была бы просто схематическая "мазня" (не в обиду художникам, мазней я называю те работы, где видно мазки, это не плохо, но тут очевидно, что это в стиле "реализм" (не путать с фотореализмом)).
Локация для той же книги:
Еще арты (локации).
Иллюстрация к эпизоду в книге и один из персонажей книги (да, не только красивости, лоснящиеся блестящие тела и сияющие доспехи, но и страдания можно делать).
Еще вариант персонажа (другое лицо) с дорисовкой локации (аутпейнтингом).
На эту дополнительную версию ушло 20 минут. Плюс локаций у меня таких (разных, с разным хламом) еще было получено три десятка за 10 минут, пока я ходил за чаем.
Дальше идет один и тот же персонаж в разных стилях (артреализм и реализм, не путать с фотореализмом).
Думаю очевидно, что это один и тот же персонаж.
Причем это только пару картинок, а у меня их под три сотни, плюс еще и куча "фансервиса" так называемого, так же по этому персонажу есть "жесть" (кровь, кишки, и вот это вот все). Но понятно, что сюда я это не буду выкладывать.
Просто представьте, сколько бы стоили все эти иллюстрации, если бы их заказывать у кого то, или сколько времени потребовалось бы, что бы нарисовать их самостоятельно (если умеется). Плюс художник в лучшем случае предоставляет один два варианта, плюс скетчи, и цена ошибки - это неделя работы. Тут же можно получить 30-60 вариантов просто пока завариваешь чай (зависит от мощности видеокарты, разрешения и вот этого вот всего).
Пока чай заварился, уже куча черновиков с разным вариантом мусора и т.д. (как пример). И не надо рендерить это все. Вариант уже сразу условно "финальные". И как видно - результат более чем (лучше сделают только топовые художники, берущие сотни долларов в час).
Ну и как я уже сказал, совпадение с идеей - 80-90%. Причем важно, что это картинки не "отшлифованные" (видно местами огрехи, в частности руки кривые, ноги и т.д.). Это просто "черновики", если можно так выразиться, потому что сейчас книги, для которых они сделаны, не на той стадии, что бы вышлифовывать детали, так как концепция может еще поменяться.
В некоторых из работ использовались позы, в некоторых - эскизы, сделанные в 3д (как то эскиз космического корабля или города-базы с круглым зданием), в некоторых плагины для создания композиции кадра такой, какая нужна, а не такой, как получается (например, вид снизу вверх на предпоследнем кадре, или сидящая девушка на куске конструкции здания, это не случайные генерации, это именно так задумано, и так сделано).
Опять же, правило третей, правило золотого сечения и т.д. - все это можно делать (по дефолту нейросеть рисует персонажа в центре кадра, но как видно, персонаж сидит на диване не по центру). Можно даже освещение делать свое (есть специальные модели).
--------------------
Таким образом, сейчас генеративные нейросети это очень мощная штука, которая заменяет штат художников. Не всех конечно, все равно некоторые детали бывает нужно допиливать, и хорошо, если есть кто то, кто может нарисовать скетч, что бы потом по нем "вписать" в генерацию кусок. Так как нейросеть аналогично как и художник, не может сделать то, что никогда не видела. Но только скорость и цена этого всего просто не сопоставима с работой художника. Плюс опять же, есть задачи, для которых генеративные нейросети просто незаменимы. Одна из таких вещей - это, например, иллюстрации для книг. Иллюстрации работают в две стороны. Автор текста, делая (или получая) по ходу книги иллюстрации, корректирует концепцию и образ персонажа, так как не все можно представить в голове и понять как оно будет смотреться.
Обычно как происходит: автор такой представил, что персонаж будет с зелеными волосами, но темной кожей, и написал это в книге, книгу выпустили, книга стала популярной, решили делать по ней мультик, комикс или фильм. Попробовали нарисовать - получилась жуть. Показали автору, автор сам удивился, и сказал, что жуть. Поменяли дизайн персонажа, сделав волосы, допустим, белые, а не зеленые, как в книге. Набежала толпа, которая "книгалучше", и давай писать что "ааа, все пропало, все полимеры прое... волосы то должны быть зеленые, сценаристы тупые", и вот это вот все.
Да и в конце концов автору или сценаристу проще делать работу (писать), когда в голове есть ХОТЯ БЫ ОДНО изображение персонажа, с которым он работает. Ну проще представлять себе персонажа в тех или иных сценах, когда ты его видишь перед собой, что бы не получилось потом, что "маленькая девочка взяла двухметровый меч, и как жахнет" просто потому, что автор забыл, что его персонаж - маленькая девочка, и почему то решил, что она не такая уж и маленькая и вполне себе может взять двухметровый меч.
Ну и аналогично то же самое справедливо для сценаристов и концепт художников игр и фильмов, а так же тех, кто занимается постановкой сцен, раскадровкой и т.д.
Держать перед собой картинку с персонажем намного удобней, чем представлять из зеленого нечто (человек в зеленом костюме с датчиками) то, что должно получиться в итоге.
Понятно что в крупных студиях есть и арты, и раскадровки, но это все, во первых, требует времени и денег, а во вторых, когда только начинаешь работу, надо с чего то начинать, и вот это "с чего то" можно получить не за месяцы рисования и перерисовывания, занимаясь "творческим поиском" (например для сериала Аркейн персонажей придумывали несколько лет), а просто за месяц и за условно бесплатно все это получить.
Не говоря уже о том, что эта штука может дорисовывать, красить и т.д. почти что угодно (нарисовали скетч лайнартом, получили раскраску, дорисовку и т.д. в нужном стиле, хоть аниме, хоть реализм).
Ну допустим сейчас основная техника в концепт арте - это условный инпейнтинг (врисовывание) в 3д. Когда художник делает простенькую сцену в сермате в 3д, что бы получить перспективу, масштаб, композицию, свет, а после садиться и начинает ее разукрашивать уже руками, добавлять детали, делать "2д рендер" так называемый.
Так вот вот это все "садиться и разукрашивает, добавляет детали, делает 2д рендер" делается нейросетью за несколько часов ковыряния. Просто закидывается туда тот же самый отрендереный 3д скетч, и уже с ним дальше работа идет (генерация не с нуля, а на базе скетча).
В контексте 3д можно делать быстрые композиции интерьеров, как вариант, или текстуры (в том числе и бесшовные, в том числе и по референсу). Так же есть плагины, которые судя по описанию, умеют делать 3д модели, но я их даже не ставил (думаю еще не пришло их время, нужно еще годик подождать), так что не могу ничего сказать по этому поводу.
------
Резюмируя:
Понятно что эта штука решает не все задачи. Например в архивизе она только концептуальную часть может делать. Но есть и задачи, где она закрывает до 90% всех потребностей в графическом контенте (как те же иллюстрации к книгам, фансервис по персонажам мультиков т.д.). И если вы связаны с этим, есть смысл заняться углубленным изучением этого всего. По крайней мере я был поражен, провалившись с головой в этот мир. Хотя хотел только "ноги замочить" (попробовать, потыкать, мне просто обложка была нужна для книжки).
И сейчас уже очевидно, что нейросети, это что то такое, что как в своей время маркетинг, или интернет. Те компании, кто игнорировал маркетинг или интернет в свое время, сейчас просто не существуют. Те художники, которые игнорируют маркетинг или интернет, сейчас в лучшем случае на набережной рисуют свои картины для случайных прохожих. И те, кто игнорирует генеративные нейросети, будут в той же ситуации через несколько лет.
-----------------
Ну и на последок, так как сейчас капитализм на дворе, поэтому если будет желание войти в этот дивный мир генеративных нейросетей, могу "провести". Частные уроки - 300 баксов за "курс", где покажу в течении нескольких дней (примерно 3 дня по 4 часа в день) как делать то, что нужно, а не то, что получается (плюс установка, настройка, установка нужных плагинов, основы работы, основные приемы и т.д.). Ну и по 100-150 баксов с человека, если наберется несколько человек желающих (зависит от количества человек).
Так как я не слона продаю, а свое время и экспертизу, то сообщаю, что конечно же всему этому можно научиться самостоятельно, и вся информация в открытых источниках (на ютубе например), но там информация по кусочкам (например, как пользоваться тем то и тем то режимом какого то конкретного инструмента) по 20-30 минут видео. И в последствии эта информация будет использоваться для работы. Таким образом я не научу всему, я не научу как стать художником и создавать шедевры, я научу, как быть "оператором стейбл дифьюжин", расскажу важные принципы, понимание которых сэкономит дни или даже недели при самообучении, а так же расскажу, с какой ноги в это все лучше "влапяться".
Опыт преподавания имеется (когда то учил людей делать интерьеры, но так и не стал Куприяненком, он, кстати, жив вообще?).
Если кому интересно, можно добавляться в телегу, сюда: https://t.me/ (если что - это не кружок по интересам, а группа для желающих взять у меня уроки, так что просто так просьба не вступать, кружки по нейросетевым интересам есть в дискорде).
Обязательное условие для прохождения обучения - видеокарта от Nvidia 10хх серии и выше с видеопамятью 8гб и выше. Можно и с другими видеокартами работать тоже, но тратить три дня на решение аппаратных проблем не прикольно. Да и будете страдать. Поэтому так. И второе условие - не иметь ничего общего с зетнутыми и прочим хороводом безумия.
Ну и на последок пару приколов:
Когда забыл ввести промт, и нейросеть нарисовала тебя, и твою жизнь, и вот это вот все.
Когда попросил нейросеть нарисовать человека с конкретным лицом в броне мандалорца, но нейросеть знает, что мандалорец никогда не снимает шлем (три десятка генераций в разных версиях брони, с разными запросами и т.д. везде шлем, если есть слово "броня мандалорца" в запросе, то шлем всегда присутствует, только откуда это может знать нейросеть? После таких приколов начинаешь понимать человека, который решил, что у лямбда есть сознание и эмоции).