Искусственный интеллект рисует онлайн. Что из этого получилось?

Как оказалось у искусственного интеллекта не все в порядке с изображением рук человека.

Будь то руки с семью пальцами или очень длинные ладони, ИИ просто не может понять это правильно.

В этом году искусственный интеллект выиграл художественные конкурсы, доминировал в Интернете, сдал экзамены по юриспруденции и доказал, что это технология будущего, но он до сих пор не может точно изобразить человеческую руку.

Несмотря на огромную работу, проделанную над генераторами изображений ИИ, руки стали их врагом, выставляя напоказ слабые стороны модели.

Хотя это было заметной проблемой с появлением Dall-E 2 и всех его последующих конкурентов, проблема стала центром внимания с коллекцией изображений, созданной генератором искусственного интеллекта Midjourney.

Midjourney, конечно, очень мощный генератор — ни одна из этих фотографий не является реальной, и ни один из людей на них не существует.

Искусственный интеллект рисует онлайн. Что из этого получилось?
Искусственный интеллект рисует онлайн. Что из этого получилось?
Искусственный интеллект рисует онлайн. Что из этого получилось?
Искусственный интеллект рисует онлайн. Что из этого получилось?

На первый взгляд, они впечатляют, создавая группу реалистично выглядящих людей на вечеринке. И тем не менее, на одном фото у кого-то три руки, у другого семь пальцев и очень длинная ладонь, а на финальном изображении видно, как кто-то с загнутым назад пальцем просматривает телефон.

Так почему же такое маленькое препятствие вызывает сбой в машине? 

«Это генераторы 2D-изображений, которые абсолютно не имеют понятия о трехмерной геометрии чего-то вроде руки», — говорит профессор Питер Бентли , ученый-компьютерщик и автор из Университетского колледжа Лондона.

Они уловили общее представление о руке. У человека есть ладонь, пальцы и ногти, но ни одна из этих моделей на самом деле не понимает, что это такое.

Если вы просто пытаетесь получить общее изображение руки, это не будет проблемой для ИИ. Проблемы начинаются тогда, как только вы даете модели описание, как необходимо изобразить руки. Если он не может понять трехмерную природу руки или ситуации, ему будет сложно точно воссоздать ее.

руки нарисованные ИИ

Например, рука, держащая такой предмет, как нож или фотоаппарат, мгновенно запутает модель, у которой нет понимания 3D руки или геометрической формы объекта, который она держит.

«Я попросил Dall-E показать фотографию двух рук с переплетенными пальцами и получил странные результаты. Он показал мне два запястья и подушечку пальцев на одном из них», — говорит Бентли. — Но тут можно понять, почему. Он на самом деле не знает, что делает, и просто комбинирует все эти изображения, которые он видел, чтобы максимально соответствовать вашему текстовому описанию».

Однако это проблема не только у Dall-E 2. Другие популярные модели изображений, такие как Midjourney и Stable Diffusion, столкнулись с той же невыполнимой задачей — создать нормальную руку.

Присмотритесь к картинке

Хотя часто может показаться, что изображения, создаваемые этими моделями, почти идеальны, на самом деле они часто очень ошибочны. Чем больше вы смотрите, тем больше вероятность того, что вы обнаружите множество неточных деталей.

Частично это зависит от пользователя и насколько были подробны подсказки, которые он использует, при этом некоторые люди получают почти безупречные изображения из своих подробных подсказок. Но на самом деле это в основном проблема самих моделей.

«Если присмотреться к фото повнимательнее, то можно увидеть явный сигнал о том, что законы физики каким-то образом нарушаются. Может быть, чей-то живот пронзила рука, или осьминог со слишком большим количеством щупалец, или дерево, которое парит над землей», — говорит Бентли.

Поскольку им только что дали много-много примеров вещей, он пытается собрать все воедино как можно лучше.

Иногда это может приводить к некоторым причудливым результатам, часто создавая сказочное ощущение, похожее на картину Сальвадора Дали.

Эти модели оторваны от реальности, у них нет никакого контекста, и у них фактически нет ни знания, ни способности учитывать контекст изображения. Они просто комбинируют весь хлам, который мы ему дали.

Искусственный интеллект рисует онлайн. Что из этого получилось?

Основное препятствие для изображений ИИ

Так что эти модели хорошие, даже отличные… но им еще далеко до создания идеальных образов. Что должно было произойти, чтобы решить эту проблему и, наконец, создать руку, которая не выглядит так, будто ее создал Дали?

«В будущем все может измениться. Эти сети постепенно обучаются трехмерной геометрии, чтобы они могли понимать форму, скрывающуюся за изображениями. Это даст нам более связное изображение даже со сложными подсказками», — говорит Бентли.

Получение достаточного количества данных 3D-проектирования может занять некоторое время. На данный момент мы получаем простые результаты в виде этих 2D-изображений. Легко порыться в Интернете и получить миллион изображений без контекста.

Это то, над чем OpenAI начинает работать со своей технологией Point-E, создавая систему, которая может создавать 3D-модели из текстовых подсказок. Хотя в настоящее время он может использоваться общественностью, но он далек от получения точных результатов.

Однако, когда результаты все-таки появятся, они могут привести к высокодетализированным 3D-рендерингам и даже цифровым мирам. 

Как объясняет Бентли: «Много денег уходит на такие вещи, как метавселенная с интересом к 3D-моделям. Так что вполне возможно, что с этими объединенными бюджетами мы сможем увидеть все более впечатляющие 3D-модели, созданные с помощью ИИ».

Это технология, которая может продолжать совершенствоваться до более крупных и впечатляющих вещей. Прямо сейчас мы смотрим на 2D-изображения, созданные с помощью ИИ, в будущем могут быть высокодетализированные 3D-рендеринги и даже цифровые миры.

Оцените статью
Захватывающие Факты о Нашем Мире | DailySci
Добавить комментарий