Почему мне нравится работать ML evaluation инженером после 20 лет опыта в QA
Многие спрашивают, как мне живется в моей новой роли. Этот пост - ответ на вопрос.
Многие спрашивают, как мне живется в моей новой роли. Этот пост - ответ на вопрос.
Идея этого поста пришла мне в голову, когда неделю назад мы с менторами, SDET крупных международных компаний, на регулярной встрече обсуждали перспективы рынка автоматизаторов и пришли к довольно интересным выводам. Ещё несколько лет назад путь из manual QA в автоматизацию был очевидным апгрейдом:
Когда вы используете одну LLM для оценки других, прилагательные в промптах работают против вас. Слова вроде «хорошо», «плохо», «вежливо» - это размытые ярлыки, которые судья интерпретирует через призму своих обучающих данных, а не вашей бизнес-логики.
Если вы используете одну LLM для оценки других, всегда лучше иметь под рукой «золотой стандарт» для сравнения. В противном случае ваш «судья» полагается только на собственную память и может галлюцинировать гораздо чаще, особенно в узкопрофессиональной нише.
Традиционный QA, даже вооруженный до зубов AI-инструментами, принципиально не отличается от тестирования без них. Вы планируете покрытие, опираясь на классический тест-дизайн:
Ранее меня просили рассказать про subj. Итак, домашнее задание по оценке навыков ML Evaluation Engineer:
Если вы задумываетесь о переходе из QA в ML-инженеры, стоит начать с изучения основных концепций больших языковых моделей (LLM) и способов оценки их результатов. Одна из ключевых идей здесь - оценка работы «младшей» модели с помощью «старшей» (вместо или вместе с проверкой человеком).
Один мой день (разумеется, без нарушения NDA!). 09:30 – 10:30 Смена архитектуры Начала день с синка по нашему агентскому воркфлоу (agentic workflow).
На рынке сейчас царит терминологическая путаница: под вывеской "AI тестирования" скрываются три принципиально разные роли, и смешивать их при найме или поиске работы - дорогая ошибка.
Если вы работаете QA automation и посматриваете в сторону AI, то моя история смены специализации может вам пригодиться. Некоторое время назад я перешла из QA в ML evaluation.