Главная » Новости и комментарии » 2023 » Мета запускает модель мультисенсорного генеративного искусственного интеллекта

Мета запускает модель мультисенсорного генеративного искусственного интеллекта

12.05.2023
917

https://www.theverge.com/2023/5/9/23716558/meta-imagebind-open-source-multisensory-modal-ai-model-research

Meta анонсировала новую модель искусственного интеллекта с открытым исходным кодом , которая связывает воедино несколько потоков данных, включая текст, аудио, визуальные данные, температуру и показания движения.

На данный момент модель представляет собой лишь исследовательский проект, не имеющий непосредственного потребительского или практического применения, но она указывает на будущее генеративных систем ИИ, которые могут создавать захватывающий мультисенсорный опыт, и показывает, что Meta продолжает делиться исследованиями ИИ в то время, когда конкуренты как OpenAI и Google становятся все более закрытыми.

Основная концепция исследования заключается в объединении нескольких типов данных в единый многомерный индекс (или «встраивание пространства», если использовать язык ИИ). Эта идея может показаться немного абстрактной, но именно эта концепция лежит в основе наблюдаемого бума систем генеративного ИИ.

Например, генераторы изображений с искусственным интеллектом, такие как DALL-E, Stable Diffusion и Midjourney, полагаются на системы, которые связывают вместе текст и изображения на этапе обучения. Они ищут закономерности в визуальных данных и связывают эту информацию с описаниями изображений. Именно это позволяет этим системам генерировать изображения, которые следуют за вводом текста пользователем. То же самое относится ко многим инструментам искусственного интеллекта, которые аналогичным образом генерируют видео или аудио.

Meta говорит, что ее модель ImageBind — первая, объединяющая шесть типов данных в единое пространство для встраивания. Шесть типов данных, включенных в модель: визуальные (как в виде изображения, так и в виде видео); тепловые (инфракрасные изображения); текст; аудио; информация о глубине; и — самое интригующее — показания движения, генерируемые инерциальным измерительным блоком, или IMU. (IMU можно найти в телефонах и смарт-часах, где они используются для целого ряда задач, от переключения телефона с альбомной ориентации на портретную до различения различных типов физической активности.)

Идея состоит в том, что будущие системы ИИ смогут ссылаться на эти данные так же, как современные системы ИИ делают это для ввода текста. Представьте, например, футуристическое устройство виртуальной реальности, которое не только генерирует звуковой и визуальный ввод, но также ваше окружение и движения на физической платформе. Вы можете попросить его имитировать долгое морское путешествие, и он не только поместит вас на корабль с шумом волн на заднем плане, но и с раскачиванием палубы под ногами и прохладным бризом океанского воздуха.

В сообщении в блоге Мета отмечает, что в будущие модели можно добавить другой поток сенсорной информации, включая «осязание, речь, обоняние и сигналы МРТ мозга». В нем также утверждается, что исследование «приближает машины к способности людей учиться одновременно, целостно и напрямую из множества различных форм информации». 

Противники открытого исходного кода, такие как OpenAI, говорят, что эта практика вредна для создателей, потому что конкуренты могут копировать их работу и что это может быть потенциально опасно, позволяя злоумышленникам использовать в своих интересах современные модели ИИ. Сторонники отвечают, что открытый исходный код позволяет третьим сторонам тщательно проверять системы на наличие ошибок и устранять некоторые из их недостатков. Они отмечают, что это может даже принести коммерческую выгоду, поскольку, по сути, позволяет компаниям нанимать сторонних разработчиков в качестве бесплатных работников для улучшения своей работы.

 

Читайте также:

Глав крупнейших IT-компаний вызвали в Белый дом для обсуждения безопасности ИИ

Создатель искусственного интеллекта предупредил о его опасности и уволился из Google