DeepMind, подразделението за изкуствен интелект на Google, представи SIMA (Scalable Instructable Multiworld Agent) – AI агент, предназначен за работа в игрови 3D среди, който е способен да преобразува инструкции, формулирани на естествен език, в конкретни действия.
Много водещи учени в областта на изкуствения интелект, като например директорът на AI отдела на Meta, Ян Лекун, са на мнение, че големите езикови модели (LLMs), като GPT-4 на OpenAI, няма да ни доведат до изкуствен общ интелект (AGI). Основният аргумент е свързан с необходимостта от изграждане на AI системи, способни да възприемат и разбират реалния свят. Именно тук в действие влизат игрите, където AI агенти могат да планират, предприемат действия и изпълняват задачи. Те са ключов полигон за тестване, тъй като, подобно на реалния свят, предоставят богата среда за обучение в реално време и постоянно променящи се цели.
DeepMind има дълга история в областта – от игрите Atari до системата AlphaStar, която играе StarCraft II на ниво човешки гросмайстор.
Днес те обявяват нов ключов етап на развитие – преминаване от фокус върху отделни игри към генерализиран и инструктивен агент, способен да функционира в множество игрови среди.
Новият генерализиран агент SIMA е тестван в девет различни видеоигри, сред които No Man’s Sky на Hello Games, Teardown на Tuxedo Labs и др. Този разнообразен тренировъчен набор включва редица графични стилове, перспективи (от първо и трето лице) и задачи – от проста навигация до сложни действия като изработване на изделия или управление на космически кораб.
Изследването е първият случай, в който AI система демонстрира умения в широк спектър от виртуални среди и следва инструкции на естествен език, за да изпълнява задачи в тях, точно както би направил и човек.
Системата се състои от модел, предназначен за прецизно картографиране на изображения и езици, и видеомодел, който предсказва какво ще се случи след това на екрана. Учейки се от различни игрови светове, SIMA улавя как езикът се свързва с игровите действия, обясняват още изследователите.
Забележителното е, че SIMA не изисква достъп до сорс кода или API на играта. Системата работи с комерсиални версии, като разчита единствено на визуализациите на екрана и инструкциите. Благодарение на този подход SIMA може да функционира в практически всяка виртуална среда.
Например, агент, обучен в няколко игри, се представя значително по-добре от агент, обучен в една игра. Тази способност за обобщаване е от решаващо значение за неговата адаптивност и ефективност в нови, невиждани среди, споделят учените.
Резултатите от SIMA показват потенциала за разработване на нова вълна от генерализирани AI агенти, управлявани от естествен език
– пишат от DeepMind в блог пост по темата.
Крайната цел на нашите изследвания е насочена към по-общи системи и агенти с изкуствен интелект, които могат да разбират и безопасно да изпълняват широк спектър от задачи по начин, който е полезен за хората както онлайн, така и в реалния свят.
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!