Распознавание видео, общение на 50 языках и ответ за 0,3 секунды

OpenAI представила GPT-4o

Компания OpenAI представила новую генеративную модель GPT-4o. Она может работать с видео, общаться с пользователем голосом на 50 языках и имитировать различные интонации, шепот, пение и смех.

При этом модель работает гораздо быстрее предшествующей версии. Время задержки ответа в голосовом режиме составляет в среднем около 0,3 секунды, что сравнимо с реакцией человека.

Новая модель не только работает значительно быстрее, но может распознавать интонации и эмоции собеседника, а также умеет сама изменять силу, тембр, высоту и эмоциональную окраску синтезируемого голоса.

Модель может говорить с сарказмом, шептать, смеяться и даже петь. Во время презентации ChatGPT c GPT-4o имитировал голос робота, а в другом видео модель просили спеть колыбельную.

Речь GPT-4o можно перебивать без последствий. Модель в беседе ведет себя почти так же естественно, как и человек, воспринимает дополнительную информацию и продолжает диалог, сохраняя контекст происходящего.

Другая особенность GPT-4o — распознавание изображения, включая видео в реальном времени. По сути, модель может буквально видеть и интерпретировать происходящее в кадре.

OpenAI откроет GPT-4o для бесплатного использования в чат-боте ChatGPT, однако с ограничениями на количество запросов за определенное время. Доступ к возможностям новой модели будет открываться поэтапно.

Источник