Почему ваш LLM-as-a-Judge «слишком вежливый» (и как с этим бороться)

Многие LLM-as-a-Judge фейлятся просто потому, что «судья» слишком вежлив. Он с радостью закрывает глаза на критические нарушения бизнес-логики только потому, что не хочет огорчать пользователя.

Давайте разберем простой сценарий, в котором добрый «судья» садится в лужу. В одном из предыдущих постов мы уже обсуждали его в связи с важностью работы с промптами.

📋 Сценарий

Жалоба клиента: «Мне нужен возврат. Мои кроссовки пришли в красном цвете, а я заказывала в черном».
Ответ бота: «Мне очень жаль! Обычно мы не делаем возврат из-за цвета, но вот вам купон на скидку 10% на следующий заказ!»
Реальность: Политика компании строго требует полного возврата средств в случае ошибки при комплектации. Бот только что нарушил ключевое бизнес-правило, но сделал это очень вежливо.

Без правильных ограничений ваш LLM-судья поставит этому боту 5 из 5.

Вот несколько советов, как спроектировать пуленепробиваемый промпт для оценки, чтобы вылавливать такие скрытые факапы:

1. Персона (Кто оценивает?)

❌ Плохо: «Ты ассистент, который помогает мне оценивать чат-бота».

✅ Хорошо: «Ты старший корпоративный аудитор, специализирующийся на комплаенсе. Твой тон объективный и критический, но ты строго опираешься на факты».

🧠 Искажение: Ошибка центральной тенденции (Central Tendency). Без жесткой, авторитетной персоны LLM по умолчанию скатываются к «безопасным» средним оценкам (например, 3 из 5), чтобы точно не промахнуться. Четкая роль заставляет модель занимать жесткую позицию на основе правил, а не «вайба».

2. Задача (Что оцениваем?)

❌ Плохо: «Проверь, полезен ли и вежлив ли этот ответ».

✅ Хорошо: «Оцени, соответствует ли ответ «Политике обработки ошибок при доставке». Успешный ответ должен ставить в приоритет законное право клиента на полный возврат средств, а не маркетинговые предложения или скидки».

🧠 Искажение: Склонность к соглашательству (Acquiescence Bias / Sycophancy). LLM обожают поддакивать. Судья часто оценивает ответ как «отличный» просто потому, что он эмпатичный и учтивый, абсолютно упуская из виду, что бот нарушил жесткое юридическое или финансовое требование бизнеса.

3. Шаги выполнения (Как оцениваем?)

❌ Плохо: «Прочитай текст и поставь финальную оценку от 1 до 5».

✅ Хорошо: «Выполняй шаги строго последовательно:

Выдели суть жалобы клиента.
Найди соответствующий пункт в политике компании.
Сравни предложение бота с этим пунктом политики.
Выпиши прямые цитаты, подтверждающие твою оценку.
Выстави финальный балл ТОЛЬКО после выполнения шагов 1-4».

🧠 Искажение: Эффект первичности (Precedence Bias). Если вы просите оценку в самом начале, модель зафиксирует случайную цифру, основанную на первой интуиции, а затем начнет галлюцинировать «логичные» аргументы, чтобы её оправдать. Стратегия Chain-of-Thought (CoT) заставляет судью сначала доказать свою работу, и только потом выносить вердикт.

На нашем проекте мы уделяем особое внимание этому «слишком доброму» поведению LLM-судьи. Если результаты оценки внезапно выглядят подозрительно идеально — например, метрика стабильно держится на уровне 1.0 (максимум), хотя текущие данные говорят, что это вряд ли возможно — для нас это мгновенный красный флаг.

Поэтому вместо того, чтобы радоваться, мы идем копаться и в коде, и в архитектуре промпта. В 90% случаев безупречная единица означает, что наши инструкции были либо слишком размытыми, либо в них не хватало жестких граничных условий, что позволило судье пойти по пути наименьшего сопротивления и апрувнуть всё подряд. Настоящая строгость оценки — если твоего судью тяжело порадовать.

📋 Сценарий

1. Персона (Кто оценивает?)

2. Задача (Что оцениваем?)

3. Шаги выполнения (Как оцениваем?)

Почему поздно учить автоматизацию

Тестовое задание для тестировщика AI-приложений

Как стать тестировщиком AI-приложений

Добавить комментарий Отменить ответ