Распознавание видео, общение на 50 языках и ответ за 0,3 секунды

OpenAI представила GPT-4o




Компания OpenAI представила новую генеративную модель GPT-4o. Она может работать с видео, общаться с пользователем голосом на 50 языках и имитировать различные интонации, шепот, пение и смех.

При этом модель работает гораздо быстрее предшествующей версии. Время задержки ответа в голосовом режиме составляет в среднем около 0,3 секунды, что сравнимо с реакцией человека.



Новая модель не только работает значительно быстрее, но может распознавать интонации и эмоции собеседника, а также умеет сама изменять силу, тембр, высоту и эмоциональную окраску синтезируемого голоса.

Модель может говорить с сарказмом, шептать, смеяться и даже петь. Во время презентации ChatGPT c GPT-4o имитировал голос робота, а в другом видео модель просили спеть колыбельную.

Речь GPT-4o можно перебивать без последствий. Модель в беседе ведет себя почти так же естественно, как и человек, воспринимает дополнительную информацию и продолжает диалог, сохраняя контекст происходящего.

Другая особенность GPT-4o — распознавание изображения, включая видео в реальном времени. По сути, модель может буквально видеть и интерпретировать происходящее в кадре.

OpenAI откроет GPT-4o для бесплатного использования в чат-боте ChatGPT, однако с ограничениями на количество запросов за определенное время. Доступ к возможностям новой модели будет открываться поэтапно.

Источник

Подписывайтесь на наш канал в Яндекс.Дзен

1
Другие новости
Никто пока не комментировал этот пост

Написать комментарий:


Привет, Гость!

Для отправки комментария введи свои логин (или email) и пароль

Либо войдите, используя профиль в соцсети
МАТ в камментах - БАН 3 дня!