RnD

Роботы

Софт для роботов на базе LLM и VLM

В особом порядке разрабатываем высокоуровневое управление для робототехники: зрение, рассуждения и действия в реальном времени поверх ROS и облачных мультимодальных моделей. Ниже — опыт внедрения с нуля за полтора месяца к ЦИПР 2025.

Стенд ЦИПР

Робот с VLM — фото с конференции.

Кейс: робот-краб на ЦИПР 2025

Задача

Нужно было выделиться на стенде: не пульт, а автономные решения в реальном времени. Пока другие щёлкали пультами, наш краб опирался на Visual Language Model (VLM): осматривал стенд, искал объекты и выполнял команды без заранее прописанных сценариев. Времени было около полутора месяцев — выбрали готовую платформу с ROS, чтобы не писать низкоуровневое управление с нуля.

Что было в «коробке»

Классика: сервоприводы, датчики, навигация и китайская документация. ROS закрывал средний уровень — движение, картинка с камеры, базовая навигация. Наша надстройка — высокоуровневое управление через VLM: анализ кадра, вывод «что делать дальше», действия, которые не сведены к фиксированному скрипту.

Как работает связка

Движение: простые команды (вперёд, назад, поворот) с задаваемой величиной; VLM раскладывает сложную задачу на подзадачи и отдаёт команды по очереди.
Поиск объектов: краб осматривает стенд, передаёт кадр в VLM; модель понимает, есть ли нужный объект, и описывает его.

Ограничения и как их обходили

Задержка обработки: локальный запуск VLM давал минуты на кадр — для «живого» поведения неприемлемо. Решение: облачная VLM и второй модем, плюс упрощение до базового набора команд.
Навигация и датчики: шум и погрешности; VLM не заменяет точные координаты в пространстве. Задачу «подойти к объекту» центрированием в кадре пришлось отложить.
Автономность «к цели»: нужна высокая скорость инференса и хорошее железо — зона для следующих итераций.

Что вышло к ЦИПР

Простые команды и телеметрия через VLM.
Поиск и описание объектов на стенде в режиме, близком к реальному времени (через облако — секунды вместо минут).
Публичная демонстрация автономного поведения вместо ручного управления.

Что дальше (и что можем сделать для вас)

Улучшение навигации и подход к объектам в кадре.
Оптимизация под локальную VLM при более мощной бортовой платформе.
Расширение автономности: планирование маршрута до цели с учётом обратной связи с датчиками.
Интеграция вашего железа (ROS или иной стек) с нашим слоем «зрение + LLM/VLM + политики действий».

Полная история с деталями — в материале на Хабре:

Читать на Хабре

Видео

Фрагмент демо; плеер VK.

Открыть на VK

Нужен софт для робота на базе LLM / VLM?

Расскажите про платформу, сенсоры и сценарий — оценим сроки и предложим архитектуру (облако, edge, ROS).

Написать в Telegram