🔥

Не упустите лучшие вакансии!

Подключите наш Telegram-бот и получайте мгновенные уведомления о новых предложениях из 10+ источников. Будьте первым, кто откликнется!

Подключить бота

ML-разработчик в команду базового алайнмента YandexGPT

Яндекс
Не указано
Работа в офисе
Опубликовано: 05 Dec 2024
Наша команда занимается стадией алайнмента YandexGPT. Мы превращаем LLM, обученную предсказывать следующий токен в документах из интернета, в диалогового агента, способного выполнить широкий спектр запросов пользователя.

Какие задачи вас ждут

Обучение следованию инструкциям пользователя (supervised finetuning, SFT)
Чтобы превратить предобученную LLM в диалогового агента, нужно собирать множество демонстраций желаемого поведения модели на разнообразных задачах. Какие именно задачи важнее, насколько сложными могут быть демонстрации, каких навыков модели не хватает для решения конкретной задачи и как модель может выучить этот навык на стадии алайнмента? Это примеры вопросов, на которые мы ищем ответы с помощью ML-экспериментов.

Обучение модели на предпочтения пользователей (RLHF)
После стадии SFT качество ответов одной модели даже на одном запросе может очень сильно различаться. Мы собираем разметку об относительном качестве ответов модели и учим её генерировать ответ лучшего качества, на которое она способна. На данном этапе применяются такие алгоритмы, как DPO и PPO, также мы экспериментируем с другими способами RLHF.

Обучение модели оценки качества ответов (reward modeling)
Разметка качества ответов людьми — очень дорогой и небыстрый процесс, а некоторые алгоритмы RLHF (PPO) требуют разметки в реальном времени. Для этого мы развиваем свою линейку реворд-моделей, которые могут быстро и достаточно близко к человеку оценить качество ответа модели.

Разработка новых навыков и борьба со слабыми местами модели
Мы постоянно ищем примеры задач, с которыми наши модели справляются ещё недостаточно хорошо. Улучшение качества на таких срезах иногда требует изменений на всех стадиях обучения.

Мы ждем, что вы

  • Отлично знаете классические ML и NLP
  • Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт
  • Не боитесь работать с данными и SQL

Что мы предлагаем

1Здоровье2Рост и развитие3Спорт4И ещё

Расширенная медицинская страховка начинает работать с первого месяца в Яндексе. В неё входят стоматология, ежегодные чекапы, неотложная помощь за рубежом, лечение критических заболеваний, в том числе онкологии, и страхование от несчастных случаев.

А также:
  • психотерапия в офисе или онлайн-сервисах;
  • лазерная коррекция зрения через год работы;
  • ведение беременности и роды — через два года.
Страховка для родственников по системе 80/20

Мы оплачиваем 80% стоимости ДМС для детей и супругов, вы — остальные 20%.

В Яндексе есть всё, чтобы постоянно развиваться и учиться новому: внутренняя образовательная платформа, менторство и программы для начинающих и опытных руководителей.

А также:
  • оплата участия в профильных конференциях;
  • скидка 50% на изучение иностранных языков.

Кроме того, в Яндексе есть внутренние проекты, где наши сотрудники делятся экспертизой, обсуждают сложные темы и разбирают кейсы своих проектов.

Во всех крупных офисах Яндекса есть спортзалы со всем необходимым: тренажёрами, спортивным инвентарём, душевыми, шкафчиками для одежды и вещей.

Можете заниматься самостоятельно, а можете с корпоративным тренером.

А также:
  • бесплатные онлайн-тренировки с FITMOST;
  • скидки в фитнес-клубах, бассейнах, студиях йоги, скалодромах и других местах.
Спортивный клуб Яндекса

В Яндексе есть спортивный клуб и много спортивных команд. У них есть свои лидеры, чаты, программы тренировок. А ещё они регулярно участвуют в забегах, триатлонах, «Гонке героев», футбольных и других соревнованиях.

Вы сможете присоединиться к существующим командам или собрать свою.

Гибкий график

У нас нет фиксированного времени начала и конца рабочего дня — работайте так, как удобно вам и вашей команде.

Жилищные займы

Льготная ставка на покупку жилья и улучшение жилищных условий — в зависимости от стажа, позиции и результатов ревью. Действует для сотрудников, работающих в российских офисах Яндекса.

Всё для детей

Страхование, детские дни в офисе, подарки на рождение детей и чекапы при планировании беременности.

Спасибо за отклик!

Мы свяжемся с вами в течение недели.

🚀

Ваше резюме увидят первым!

Автоматическое поднятие на HeadHunter каждые 4 часа. Увеличьте свои шансы на успех в 10 раз!

Подключить автоподнятие