Головна » Новини і коментарі » 2023 » Мета запускає модель мультисенсорного генеративного штучного інтелекту

Мета запускає модель мультисенсорного генеративного штучного інтелекту

12.05.2023
882

https://www.theverge.com/2023/5/9/23716558/meta-imagebind-open-source-multisensory-modal-ai-model-research

Meta анонсувала нову модель штучного інтелекту з відкритим вихідним кодом, яка пов'язує кілька потоків даних, включаючи текст, аудіо, візуальні дані, температуру і показання руху.

На даний момент модель являє собою лише дослідницький проект, який не має безпосереднього споживчого чи практичного застосування, але вона вказує на майбутнє генеративних систем ШІ, які можуть створювати захоплюючий мультисенсорний досвід, і показує, що Meta продовжує ділитися дослідженнями ШІ в той час, коли конкуренти як OpenAI і Google стають все більш закритими.

Основна концепція дослідження полягає в об'єднанні кількох типів даних в єдиний багатовимірний індекс (або вбудовування простору, якщо використовувати мову ШІ). Ця ідея може здатися трохи абстрактною, але саме ця концепція є основою спостережуваного буму систем генеративного ШІ.

Наприклад, генератори зображень зі штучним інтелектом, такі як DALL-E, Stable Diffusion та Midjourney, покладаються на системи, які пов'язують разом текст та зображення на етапі навчання. Вони шукають закономірності візуальних даних і пов'язують цю інформацію з описами зображень. Саме це дозволяє цим системам генерувати зображення, які йдуть за введенням тексту користувачем. Те саме стосується багатьох інструментів штучного інтелекту, які аналогічним чином генерують відео або аудіо.

Meta каже, що її модель ImageBind – перша, що об'єднує шість типів даних у єдиний простір для вбудовування. Шість типів даних, включених до моделі: візуальні (як у вигляді зображення, так і у вигляді відео); теплові (інфрачервоні зображення); текст; аудіо; інформація про глибину; і - найбільш інтригуюче - показання руху, що генеруються інерційним вимірювальним блоком, або IMU. (IMU можна знайти в телефонах та смарт-годинниках, де вони використовуються для цілого ряду завдань, від перемикання телефону з альбомної орієнтації на портретну до розрізнення різних типів фізичної активності.)

Ідея полягає в тому, що майбутні системи ШІ зможуть посилатися на ці дані так само, як сучасні ШІ системи роблять це для введення тексту. Уявіть, наприклад, футуристичний пристрій віртуальної реальності, який не тільки генерує звукове та візуальне введення, але також ваше оточення та рухи на фізичній платформі. Ви можете попросити його імітувати довгу морську подорож, і він не тільки помістить вас на корабель із шумом хвиль на задньому плані, але й з розгойдуванням палуби під ногами та прохолодним бризом океанського повітря.

У повідомленні в блозі Мета зазначає, що до майбутніх моделей можна додати інший потік сенсорної інформації, включаючи «дотик, мовлення, нюх та сигнали МРТ мозку». У ньому також стверджується, що дослідження «наближає машини до здатності людей вчитися одночасно, цілісно і безпосередньо з різних форм інформації».

Противники відкритого вихідного коду, такі як OpenAI, кажуть, що ця практика шкідлива для творців, тому що конкуренти можуть копіювати їхню роботу і що це може бути потенційно небезпечним, дозволяючи зловмисникам використовувати у своїх інтересах сучасні моделі ШІ. Прихильники відповідають, що відкритий вихідний код дозволяє третім сторонам ретельно перевіряти системи на наявність помилок та усувати деякі з їхніх недоліків. Вони зазначають, що це може навіть принести комерційну вигоду, оскільки, по суті, дозволяє компаніям наймати сторонніх розробників як безкоштовних працівників для покращення своєї роботи.

 

Читайте також:

Голови найбільших IT-компаній були викликані до Білого дому для обговорення безпеки ШІ

Автор штучного інтелекту попередив про його небезпеку і звільнився з Google