RU EN

Тестирование AI-приложений

Почему ваш LLM-as-a-Judge «слишком вежливый» (и как с этим бороться)

Почему ваш LLM-as-a-Judge «слишком вежливый» (и как с этим бороться)

Многие LLM-as-a-Judge фейлятся просто потому, что «судья» слишком вежлив. Он с радостью закрывает глаза на критические нарушения бизнес-логики только потому, что не хочет огорчать пользователя.

Как короткое слово может превратить ваш AI-продукт в юридический кошмар

Как короткое слово может превратить ваш AI-продукт в юридический кошмар

В сфере ML Evaluation, особенно при использовании подхода LLM-судьи, мы часто попадаемся в ловушку «гало-эффекта» (Halo Effect). Если ответ тестируемой AI-модели звучит авторитетно и профессионально, LLM-судья автоматически ставит высокий балл, напрочь упуская из виду смысл.

Почему поздно учить автоматизацию

Почему поздно учить автоматизацию

Идея этого поста пришла мне в голову, когда неделю назад мы с менторами, SDET крупных международных компаний, на регулярной встрече обсуждали перспективы рынка автоматизаторов и пришли к довольно интересным выводам. Ещё несколько лет назад путь из manual QA в автоматизацию был очевидным апгрейдом:

Как тестировать AI-приложения: Рубрики

Как тестировать AI-приложения: Рубрики

Когда вы используете одну LLM для оценки других, прилагательные в промптах работают против вас. Слова вроде «хорошо», «плохо», «вежливо» - это размытые ярлыки, которые судья интерпретирует через призму своих обучающих данных, а не вашей бизнес-логики.

Как тестировать AI-приложения: Модель-судья и золотой стандарт

Как тестировать AI-приложения: Модель-судья и золотой стандарт

Если вы используете одну LLM для оценки других, всегда лучше иметь под рукой «золотой стандарт» для сравнения. В противном случае ваш «судья» полагается только на собственную память и может галлюцинировать гораздо чаще, особенно в узкопрофессиональной нише.

LLM-as-a-Judge (модель-судья) и QA-терминология

LLM-as-a-Judge (модель-судья) и QA-терминология

Если вы задумываетесь о переходе из QA в ML-инженеры, стоит начать с изучения основных концепций больших языковых моделей (LLM) и способов оценки их результатов. Одна из ключевых идей здесь - оценка работы «младшей» модели с помощью «старшей» (вместо или вместе с проверкой человеком).