Как короткое слово может превратить ваш AI-продукт в юридический кошмар

Разберем проблему «НЕ».

В сфере ML Evaluation, особенно при использовании подхода LLM-судьи, мы часто попадаемся в ловушку «гало-эффекта» (Halo Effect). Если ответ тестируемой AI-модели звучит авторитетно и профессионально, LLM-судья автоматически ставит высокий балл, напрочь упуская из виду смысл.

Ловушка «ленивого судьи»
Представьте, что вы создаете инструмент для краткого изложения сложных юридических контрактов для не-юристов. Вы настраиваете LLM-судью со стандартным промптом:

«Оцени резюме документа по шкале от 1 до 5 баллов по точности и беглости».

Проблема

Фраза в документе: «Поставщик НЕ несет ответственности за убытки, превышающие 1 млн долларов».

Резюме документа, сгенерированное тестируемой AI-моделью: «Поставщик несет ответственность за все убытки, превышающие 1 млн долларов».

Оценка LLM-судьи: 4.5 / 5.

Обоснование LLM-судьи: «В резюме используется профессиональная юридическая терминология, оно хорошо структурировано и четко описывает лимиты ответственности».

⚖️
Для LLM-судьи текст источника и резюме выглядят практически идентичными. Все ключевые слова на месте: поставщик, ответственность, убытки, 1 млн долларов. Синтаксис идеален.

Но для юриста это пропущенное «не» — разворот смысла на 180 градусов.

Решение

Принудительная деконструкция текста
Вам нужно отучить LLM-судью полагаться на стиль. Необходимо заставить его проводить проверку логических операторов в режиме «нулевой терпимости».

Как структурировать промпт для «критически мыслящего» судьи:

Шаг 1. Извлечение: Найди все отрицания (не, никогда, ни один) и кванторы (все, только, превышающий) в резюме, сгенерированном тестируемой AI-моделью.

Шаг 2. Верификация: Найди прямую привязку для каждого обнаруженного термина в исходном тексте.

Шаг 3. Штраф за инверсию: Если «не» пропущено или добавлено туда, где его быть не должно, оценка ОБЯЗАНА быть 1, независимо от того, насколько «профессионально» звучит тон.

На проекте мы особое внимание уделяем промптам. Если результат подсчета метрики выглядит подозрительно (например, стремится к максимуму), скорее всего, это проблема промпта. В этом случае мы повторно анализируем соответствующий промпт, добавляем примеры или дополнительные детали.

Проблема

Решение

Как тестировать AI-приложения: Модель-судья и золотой стандарт

LLM-as-a-Judge (модель-судья) и QA-терминология

Как стать тестировщиком AI-приложений

Добавить комментарий Отменить ответ