WM-ABench: тестирование понимания физики мира для ИИ-моделей

WM-ABench: новый стандарт тестирования понимания физики реального мира для визуально-языковых моделей

Исследовательская организация Maitrix Org представила инновационный бенчмарк WM-ABench, предназначенный для оценки визуально-языковых моделей (VLM) в качестве «моделей мира». Основная цель проекта – определить, насколько современные модели способны не просто идентифицировать объекты на изображениях, но и понимать физические законы реального мира, а также предсказывать изменения в окружающей среде.

Научный подход к тестированию ИИ

Опираясь на достижения когнитивной науки, разработчики создали комплексный фреймворк для тестирования 15 ведущих визуально-языковых моделей по 23 различным параметрам. Методология оценки разделена на два ключевых этапа:

  • Восприятие – способность распознавать объекты, их пространственные отношения, временные изменения и движение
  • Прогнозирование – умение предсказывать, как будут развиваться события в физическом мире

Масштабный набор данных и разнообразие симуляторов

В основе WM-ABench лежит обширный датасет, содержащий более 100 000 тестовых примеров. Этот материал был сгенерирован с использованием шести различных симуляторов, включая:

  • ThreeDWorld
  • Physion
  • Carla
  • Другие специализированные среды моделирования

Предотвращение «поверхностного» обучения

Чтобы исключить возможность моделей полагаться на визуальные совпадения и поверхностные паттерны вместо настоящего понимания физики, разработчики внедрили в тесты так называемые «сложные негативы» – контрфактические состояния, которые требуют от искусственного интеллекта глубокого анализа происходящего, а не простого распознавания шаблонов.

Такой подход позволяет получить более точную оценку того, насколько современные VLM-модели действительно «понимают» физический мир и могут прогнозировать его изменения на основе законов физики, а не просто статистических корреляций в обучающих данных.

Примечание: В тексте упоминается оценка восприятия и прогнозирования, но описание прогнозирования, по-видимому, было обрезано в исходном материале.

Чем могу помочь? 👋
Никта