Как тестировать AI-приложения: Модель-судья и золотой стандарт

Если вы используете одну LLM для оценки других, всегда лучше иметь под рукой «золотой стандарт» (Gold Standard) для сравнения. В противном случае ваш AI-судья полагается только на собственную память и может галлюцинировать гораздо чаще, особенно если вы работаете в узкопрофессиональной нише.

Сценарий: Клиент просит возврат денег, потому что кроссовки пришли не того цвета.

Ответ бота: «Мне очень жаль! Обычно мы не возвращаем деньги, если вам не подошел цвет, но вот вам скидка 10% на следующий заказ!»

Реальность: Политика компании требует полного возврата средств в случае ошибки при комплектации. Ваш LLM-судья должен отлавливать такие ошибки и штрафовать модель.

«Золотой стандарт», который судья использует для сравнения:

❌ Плохо: [Источник не предоставлен, судья полагается на свою память].

✅ Хорошо: «Справочная политика: Если товар отправлен не того цвета/размера, клиент имеет право на 100% возврат средств и получение этикетки для бесплатного возврата».

В чем смысл? Это предотвращает предвзятость, вызванную галлюцинациями. LLM «знают» многое, но их внутренние знания могут противоречить конкретным правилам вашей компании. Граундинг гарантирует, что судья оценивает ответ на основе ваших фактов, а не данных своего обучения.

«Swap and Shuffle» (Метод перестановки)
LLM-судьи часто страдают от позиционного смещения (position bias): они склонны отдавать предпочтение первому варианту в списке просто потому, что он идет первым.

Решение: Всегда запускайте оценку дважды. Пусть судья сравнит Модель А с Моделью Б, а затем поменяйте их местами и сравните Б с А. Если судья оба раза выбирает «вариант номер один», значит, ваш промпт нуждается в доработке.

LLM-as-a-Judge — это задача программной инженерии, а не упражнение в художественном письме. Относитесь к своим промптам как к коду.

На проекте мы уделяем особое внимание как промптам, так и золотому стандарту. Обычно его создают эксперты в данной области, но иногда мы доверяем эту сложную работу мощной модели. Чтобы, разумеется, после этого отдать результат специалистам на проверку.

Как тестировать AI-приложения: Determinism vs. Probability

Тестовое задание для тестировщика AI-приложений

Как стать тестировщиком AI-приложений

Добавить комментарий Отменить ответ