xAI, компанията за изкуствен интелект на Илон Мъск, представи Grok-1.5 Vision (Grok-1.5V).
Grok-1.5V e мултимодален AI модел, който може да обработва и разбира широк спектър от визуална информация, включително документи, диаграми, графики, екранни снимки и фотографии. От компанията съобщиха, че „моделът скоро ще бъде достъпен за ранни тестери и съществуващите потребители на Grok в социалната мрежа X (Twitter)“.
Grok-1.5 Vision https://t.co/B9LkGwviWs
— Elon Musk (@elonmusk) April 13, 2024
На своя уебсайт xAI демонстрира някои интересни приложения на Grok-1.5V, като например преобразуване на диаграми в програмен код на Python, превръщане на детски рисунки в приказки за лека нощ, конвертиране на таблици в CSV файлове и др.
Според xAI, за да се създадат наистина полезни AI асистенти, способни да оперират ефективно в реалния свят, е изключително важно да се подобри способността на моделите да разбират и интерпретират физическия свят.
За да постигне тази цел, компанията представи нов сравнителен тест, наречен RealWorldQA. Неговата основна задача е да оценява уменията на мултимодалните модели в разбирането на реалния свят. RealWorldQA се състои от над 700 изображения, като всяко изображение е съпроводено от въпрос и лесен за проверка отговор. Наборът от данни включва снимки, заснети от превозни средства, както и други изображения от реалния свят, споделят от компанията.
Според тестове, проведени от xAI, Grok-1.5V демонстрира резултати, съизмерими с тези на най-добрите модели в индустрията, като GPT-4V, Claude 3 Sonnet, Claude 3 Opus и Gemini Pro 1.5, а при новия RealWorldQA тест, моделът превъзхожда всички от тях.
xAI планира да продължи да подобрява мултимодалните възможности на Grok през следващите месеци, тъй като смята, че те са от ключово значение за “създаването на полезен изкуствен общ интелект (AGI), способен да разбира вселената”.
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!