В модель входит понимание естественного языка и компьютерное зрение.
Исследователи Университета Макао изобрели новую модель управления автономным автомобилем с помощью голоса.
Главная проблема заключается в том, чтобы обучить систему понимать обычную речь и связывать ее с обстановкой на дороге. Новаторы использовали список сведений Talk2Car, где необходимо указывать на участки проезжей части, опираясь на текстовые инструкции.
Для решения данной проблемы была разработана модель CAVG. С помощью компьютерного зрения она выделяет области на фото с камеры, а после проверяет их соответствие командам. Отдельное внимание уделено пониманию эмоционального контекста команд и сложных обстоятельств на дороге. Также в нее встроены современные языковые технологии, например, GPT-4V, для точного понимания команд.
Для проверки эффективности модель испытывали в различных условиях: в плотном потоке машин, ночью, с неопределенными командами и плохой видимостью. CAVG продемонстрировала отличные результаты, превзойдя все ожидания.
Источник: Ferra