Kyutai Labs, френска изследователска лаборатория, посветена на разработването на изкуствен интелект с отворен код, представи Moshi – „първият свободно достъпен гласов AI модел, работещ в реално време“. Технологията, създадена от френските учени, много наподобява новия „Гласов режим“ на ChatGPT, чийто публичен достъп беше отложен от OpenAI поради опасения относно безопасността.
Създадена преди едва 6 месеца с начален капитал от 300 милиона евро, лабораторията е подкрепена от милиардера Хавиер Нийл и американския бизнесмен и бивш главен изпълнителен директор на Google Ерик Шмид.
Технологията, която задвижва Moshi, беше демонстрирана днес, 3 юли, по време на събитие в Париж. Гласовият асистент на френската лаборатория, подобно на този демонстриран от OpenAI, работи в реално време с изключително ниска латентност от едва 160 милисекунди. Moshi може да слуша, чува и говори, да разбира и изразява емоциите, да имитира акценти, да шепне и да се шегува.
Kyutai, a french AI lab with $300M in funding, just unveiled Moshi, an open-source GPT-4o competitor.
— Lior⚡ (@AlphaSignalAI) July 3, 2024
Moshi is a real-time multimodal model that can listen, hear, and speak.
Code, model, and paper will be release soon. @kyutai_labs pic.twitter.com/Dyt1ik3zbZ
По време на демонстрациите Moshi даде насоки за изкачване на връх Еверест, рецитира собственоръчно написано стихотворение и влезе в ролята на AI асистент на космически кораб, подобен на „HAL 9000“ от научнофантастичния филм „2001: Космическа одисея“.
Moshi and Alex going on a space adventure 🚀 pic.twitter.com/WRkPCScZ9F
— kyutai (@kyutai_labs) July 3, 2024
От френската лаборатория потвърдиха, че кодът, моделът и съпътстващата научна статия ще бъдат публикувани скоро, в съответствие с техния ангажимент към отворения код. Освен това има и демо версия на уебсайтa на Kyutai, където всеки ще може да опита гласовия асистент.
Първоначалните отзиви за текущата версия обаче не са особено положителни сред потребителите на платформи като X, Reddit и YouTube. Главната причина е, че моделът, на който е базиран Moshi, има само 7 милиарда параметъра, което означава, че възможностите му са значително по-ограничени от тези на GPT-4o. Освен това асистентът реагира твърде бързо, не изслушва потребителите и често ги прекъсва. Има и случаи, в които, без видима причина, започва да повтаря думи или фрази.
Последвайте ни в социалните мрежи – Facebook, Instagram, X и LinkedIn!