WM-ABench: новый стандарт тестирования понимания физики реального мира для визуально-языковых моделей
Исследовательская организация Maitrix Org представила инновационный бенчмарк WM-ABench, предназначенный для оценки визуально-языковых моделей (VLM) в качестве «моделей мира». Основная цель проекта – определить, насколько современные модели способны не просто идентифицировать объекты на изображениях, но и понимать физические законы реального мира, а также предсказывать изменения в окружающей среде.
Научный подход к тестированию ИИ
Опираясь на достижения когнитивной науки, разработчики создали комплексный фреймворк для тестирования 15 ведущих визуально-языковых моделей по 23 различным параметрам. Методология оценки разделена на два ключевых этапа:
- Восприятие – способность распознавать объекты, их пространственные отношения, временные изменения и движение
- Прогнозирование – умение предсказывать, как будут развиваться события в физическом мире
Масштабный набор данных и разнообразие симуляторов
В основе WM-ABench лежит обширный датасет, содержащий более 100 000 тестовых примеров. Этот материал был сгенерирован с использованием шести различных симуляторов, включая:
- ThreeDWorld
- Physion
- Carla
- Другие специализированные среды моделирования
Предотвращение «поверхностного» обучения
Чтобы исключить возможность моделей полагаться на визуальные совпадения и поверхностные паттерны вместо настоящего понимания физики, разработчики внедрили в тесты так называемые «сложные негативы» – контрфактические состояния, которые требуют от искусственного интеллекта глубокого анализа происходящего, а не простого распознавания шаблонов.
Такой подход позволяет получить более точную оценку того, насколько современные VLM-модели действительно «понимают» физический мир и могут прогнозировать его изменения на основе законов физики, а не просто статистических корреляций в обучающих данных.
Примечание: В тексте упоминается оценка восприятия и прогнозирования, но описание прогнозирования, по-видимому, было обрезано в исходном материале.