Тестирование AI-приложений

Тестирование AI-приложений 09.06.2026

Почему ваш LLM-as-a-Judge «слишком вежливый» (и как с этим бороться)

Многие LLM-as-a-Judge фейлятся просто потому, что «судья» слишком вежлив. Он с радостью закрывает глаза на критические нарушения бизнес-логики только потому, что не хочет огорчать пользователя.

Читать

Тестирование AI-приложений 02.06.2026

Почему мне нравится работать ML evaluation инженером после 20 лет опыта в QA

Многие спрашивают, как мне живется в моей новой роли. Этот пост - ответ на вопрос.

Читать

Тестирование AI-приложений 25.05.2026

Пройдет ли AI код-ревью?

ИИ может за час сделать то, на что раньше уходили недели. Но готовы ли вы выкатить этот результат в прод без код-ревью от сеньора?

Читать

Тестирование AI-приложений 18.05.2026

Как короткое слово может превратить ваш AI-продукт в юридический кошмар

В сфере ML Evaluation, особенно при использовании подхода LLM-судьи, мы часто попадаемся в ловушку «гало-эффекта» (Halo Effect). Если ответ тестируемой AI-модели звучит авторитетно и профессионально, LLM-судья автоматически ставит высокий балл, напрочь упуская из виду смысл.

Читать

Тестирование AI-приложений 09.05.2026

Почему поздно учить автоматизацию

Идея этого поста пришла мне в голову, когда неделю назад мы с менторами, SDET крупных международных компаний, на регулярной встрече обсуждали перспективы рынка автоматизаторов и пришли к довольно интересным выводам. Ещё несколько лет назад путь из manual QA в автоматизацию был очевидным апгрейдом:

Читать

Тестирование AI-приложений 06.04.2026

Как тестировать AI-приложения: Рубрики

Когда вы используете одну LLM для оценки других, прилагательные в промптах работают против вас. Слова вроде «хорошо», «плохо», «вежливо» - это размытые ярлыки, которые судья интерпретирует через призму своих обучающих данных, а не вашей бизнес-логики.

Читать

Тестирование AI-приложений 28.03.2026

Как тестировать AI-приложения: Модель-судья и золотой стандарт

Если вы используете одну LLM для оценки других, всегда лучше иметь под рукой «золотой стандарт» для сравнения. В противном случае ваш «судья» полагается только на собственную память и может галлюцинировать гораздо чаще, особенно в узкопрофессиональной нише.

Читать

Тестирование AI-приложений 21.03.2026

Как тестировать AI-приложения: Determinism vs. Probability

Традиционный QA, даже вооруженный до зубов AI-инструментами, принципиально не отличается от тестирования без них. Вы планируете покрытие, опираясь на классический тест-дизайн:

Читать

Тестирование AI-приложений 14.03.2026

Тестовое задание для тестировщика AI-приложений

Ранее меня просили рассказать про subj. Итак, домашнее задание по оценке навыков ML Evaluation Engineer:

Читать

Тестирование AI-приложений 07.03.2026

LLM-as-a-Judge (модель-судья) и QA-терминология

Если вы задумываетесь о переходе из QA в ML-инженеры, стоит начать с изучения основных концепций больших языковых моделей (LLM) и способов оценки их результатов. Одна из ключевых идей здесь - оценка работы «младшей» модели с помощью «старшей» (вместо или вместе с проверкой человеком).

Читать

Тестирование AI-приложений 28.02.2026

Один день тестировщика AI-приложений

Один мой день (разумеется, без нарушения NDA!). 09:30 – 10:30 Смена архитектуры Начала день с синка по нашему агентскому воркфлоу (agentic workflow).

Читать

Тестирование AI-приложений 15.02.2026

В чем разница: Просто QA, QA с AI-инструментами и AI QA?

На рынке сейчас царит терминологическая путаница: под вывеской "AI тестирования" скрываются три принципиально разные роли, и смешивать их при найме или поиске работы - дорогая ошибка.

Читать

Тестирование AI-приложений 12.01.2026

Как стать тестировщиком AI-приложений

Если вы работаете QA automation и посматриваете в сторону AI, то моя история смены специализации может вам пригодиться. Некоторое время назад я перешла из QA в ML evaluation.

Читать