RU EN

LLM-as-a-Judge

Почему ваш LLM-as-a-Judge «слишком вежливый» (и как с этим бороться)

Почему ваш LLM-as-a-Judge «слишком вежливый» (и как с этим бороться)

Многие LLM-as-a-Judge фейлятся просто потому, что «судья» слишком вежлив. Он с радостью закрывает глаза на критические нарушения бизнес-логики только потому, что не хочет огорчать пользователя.

Как короткое слово может превратить ваш AI-продукт в юридический кошмар

Как короткое слово может превратить ваш AI-продукт в юридический кошмар

В сфере ML Evaluation, особенно при использовании подхода LLM-судьи, мы часто попадаемся в ловушку «гало-эффекта» (Halo Effect). Если ответ тестируемой AI-модели звучит авторитетно и профессионально, LLM-судья автоматически ставит высокий балл, напрочь упуская из виду смысл.

Как тестировать AI-приложения: Рубрики

Как тестировать AI-приложения: Рубрики

Когда вы используете одну LLM для оценки других, прилагательные в промптах работают против вас. Слова вроде «хорошо», «плохо», «вежливо» - это размытые ярлыки, которые судья интерпретирует через призму своих обучающих данных, а не вашей бизнес-логики.

Как тестировать AI-приложения: Модель-судья и золотой стандарт

Как тестировать AI-приложения: Модель-судья и золотой стандарт

Если вы используете одну LLM для оценки других, всегда лучше иметь под рукой «золотой стандарт» для сравнения. В противном случае ваш «судья» полагается только на собственную память и может галлюцинировать гораздо чаще, особенно в узкопрофессиональной нише.

LLM-as-a-Judge (модель-судья) и QA-терминология

LLM-as-a-Judge (модель-судья) и QA-терминология

Если вы задумываетесь о переходе из QA в ML-инженеры, стоит начать с изучения основных концепций больших языковых моделей (LLM) и способов оценки их результатов. Одна из ключевых идей здесь - оценка работы «младшей» модели с помощью «старшей» (вместо или вместе с проверкой человеком).