Проблема
Сотрудники вручную запускали один и тот же промпт по 5-10 раз, чтобы проверить стабильность ответа модели. Это отнимало время и мешало быстро сравнивать варианты генерации в рамках одной гипотезы.
Изменение температуры, seed и других параметров требовало работы через конфиги и терминал. Для копирайтеров и аналитиков такой формат был неудобен, поэтому процесс постоянно требовал вовлечения разработчиков.
Вывод: переход на локальные модели повысил безопасность, но усложнил ежедневную работу команды. Нужен был понятный интерфейс, который автоматизирует A/B тестирование промптов без компромиссов по приватности.
Решение
Мы собрали единое веб-приложение на Flask для работы с локальной LLM через Ollama API. Вместо терминала команда получила понятный интерфейс для генерации, тестирования и сравнения ответов в одном окне.
Решение закрыло сразу три потребности: быстрые пакетные прогоны, контроль параметров модели и воспроизводимость результатов без ухода из локального контура.
Пакетные прогоны промптов
Один и тот же запрос запускается до 20 раз в один клик, чтобы быстро проверить стабильность ответов и сравнить варианты без ручных повторов.
Панель параметров модели
Temperature, Top-P, Top-K и Max Tokens управляются через визуальные контролы без редактирования конфигов, а результаты приходят потоково через SSE.
Гибкое управление seed
Пользователь фиксирует seed для воспроизводимых тестов или включает случайный режим для поиска креативных вариантов в одном интерфейсе.
Полностью локальный контур
Решение работает через Ollama и разворачивается внутри сети компании, поэтому данные не уходят во внешние сервисы и остаются в приватном контуре.
Batch Runner
Ставит серию генераций в очередь и позволяет запускать сравнение вариантов одним действием без ручных повторов.
Model Controls
Управляет параметрами модели через UI и помогает быстро переключаться между сценариями тестирования.
Seed Manager
Даёт воспроизводимость, когда важна повторяемость результата, и вариативность, когда команда ищет новые формулировки.
Local Delivery
Разворачивает весь контур локально и сохраняет приватность данных без зависимости от внешних облачных платформ.
В итоге команда получила скоростную инженерную среду для локальных LLM, а не набор ручных терминальных операций.
Как работает система
Пользователь выбирает модель, вводит промпт и задаёт параметры теста в веб-интерфейсе. Система отправляет задания в очередь и по мере готовности возвращает результаты потоково, без зависания страницы.
Запуск серии генераций
Пользователь задаёт количество прогонов и запускает серию одним действием, чтобы сразу получить массив ответов для сравнения.
Настройка параметров модели
Temperature, Top-P, Top-K и Max Tokens регулируются в панели и применяются к каждой генерации в серии.
Управление seed-сценарием
Для воспроизводимости фиксируется seed, а для вариативности включается случайный режим - оба сценария доступны в одном месте.
Потоковая выдача результатов
Ответы появляются по мере готовности через SSE, поэтому команда видит промежуточные результаты без ожидания завершения всей серии.
Локальное развёртывание
Приложение поднимается в локальной сети без внешних сервисов и сохраняет приватность данных клиентов.
Результаты
Стек технологий
Обсудим внедрение локальных AI-инструментов
Покажем, как ускорить проверку гипотез, убрать ручные прогоны промптов и сохранить приватность данных внутри вашей команды.
Запросить AI-аудит