Новият модел, версия 1.5, е значително по-добър по отношение на способността му да разбира и обработва дълъг контекст в различни модалности като текст, видео, код и аудио.
Google твърди, че 1.5 Pro превъзхожда 1.0 Pro в 87% от тестовете и достига или дори надвишава нивото на 1.0 Ultra във всички измервания, като същевременно изисква по-малко изчислителни ресурси.
Стандартната версия на Gemini 1.5 Pro е в състояние да обработва входящи данни с до 128 000 токена, което я прави еквивалентна на най-добрата версия на GPT-4 (GPT-4 Turbo).
Изключително впечатляващ обаче е фактът, че ограничена група разработчици ще имат достъп до версия на Gemini 1.5 Pro с възможност за обработка на до 1 милион токена, което се равнява на приблизително 1 час видео, 11 часа аудио или 700 000 думи текст.
In December, we launched Gemini 1.0 Pro. Today, we're introducing Gemini 1.5 Pro! 🚀
— Sundar Pichai (@sundarpichai) February 15, 2024
This next-gen model uses a Mixture-of-Experts (MoE) approach for more efficient training & higher-quality responses. Gemini 1.5 Pro, our mid-sized model, will soon come standard with a… pic.twitter.com/m2BNufHd8C
Технологичният гигант подчертава, че „1.5 Pro може да се справи по-добре с решаването на проблеми, свързани с дълги блокове код“. Например, когато се сблъска с проблем, включващ 100 000 реда код, моделът може да “предложи полезни модификации и да обясни как функционират различните части на кода.”
В един от представените от Google демонстрационни видеоклипове, илюстриращи възможностите на версията с милион токена, изследователите подават на модела стенограма от 402 страници на мисията на „Аполо“ от кацането на Луната. След това те представят на Gemini ръчно нарисувана скица на ботуш и му поставят задачата да идентифицира момента в записа, който съответства на рисунката.
Това е моментът, в който Нийл Армстронг кацна на Луната. Една малка стъпка за човека, един огромен скок за човечеството
– отговаря чатботът.
Технологичният гигант посочва, че способността на модела да обработва по-големи входни данни е резултат от прогресв т.нар. mixture-of-experts архитектура. Изкуствен интелект, използващ този дизайн, разделя невронната си мрежа на части, като активира само тези, които са от значение за дадената задача, вместо да задейства цялата мрежа наведнъж.
В известен смисъл работи подобно на нашия мозък, където не целият мозък се активира през цялото време
– казва Ориол Винялс, ръководител на екипа за дълбоко обучение в DeepMind за MIT Technology Review.
Това разбиване на части спестява на изкуствения интелект изчислителна мощност и му позволява да генерира отговори по-бързо.
Гладкото преминавамежду различни модалности и да ги използва за търсене и разбиране е впечатляваща
– казва Орен Етциони, бивш технически директор на Института за изкуствен интелект „Алън“, който не е участвал в проекта.
Това е нещо, което не съм виждал преди.
Изкуствен интелект, който може да работи с различни модалности, би се доближил повече до начина, по който се държат хората
– добавя той.
Хората по природа са мултимодални. Защото можем без усилие да превключваме между говорене, писане и рисуване на изображения или диаграми, за да предадем идеите си.
Етциони обаче предупреждава да не се доверяваме много на демонстрациите на изкуствен интелект.
Засега Gemini 1.5 ще бъде достъпен само за бизнес потребители и разработчици чрез Vertex AI и AI Studio на Google. В крайна сметка той ще замени Gemini 1.0, а стандартната версия на Gemini Pro – тази, която е достъпна за всички на gemini.google.com – ще бъде 1.5 Pro с контекстен прозорец от 128 000 токена.
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!