Опубликовано 12 февраля 2026 г.

Python Developer in data mining в Яндекс Москва

Building iconв офис
Money bag icon-

Каждый день миллионы пользователей ищут, куда пойти, как получить услугу или добраться до нужного места. Мы помогаем им принимать обоснованные решения, предоставляя актуальную и достоверную информацию о компаниях по всему миру.

Справочник — платформа, которая собирает, верифицирует и анализирует данные об организациях. Наша система ежедневно обрабатывает миллионы сигналов: пользовательский фидбек, обновления с сайтов, коррекции от владельцев бизнесов. Мы создаём решения, которые масштабируются на новые рынки и языки.

Наши проекты

  • Автоматический перевод контента с использованием современных LLM (YandexGPT и др.) для поддержки мультиязычных пользователей

  • Парсинг данных на Python — платформа для сбора информации об организациях из открытых источников

  • Изолированная среда выполнения парсеров — безопасный рантайм для пользовательского кода с использованием внутреннего аналога Docker

  • Унификация данных — алгоритмы нормализации адресов, графиков работы и других атрибутов организаций

  • Автоматизация обновлений для сетевых компаний (рестораны, магазины) с учётом их филиалов и особенностей

Стек технологий

  • Backend: C++ (производительность), Python (парсинг), YTsaurus, YDB Topics, PostgreSQL

  • ML: YandexGPT 5 Pro

  • Инфраструктура: Docker, Chrome DevTools (для анализа веб-страниц)

Мы предлагаем

  • Работу с Big Data (сотни миллионов записей) и передовыми LLM

  • Возможность влиять на архитектуру высоконагруженных систем

  • Гибкий график и опцию удалённой работы

  • Компенсацию оплаты обучения (курсы, конференции, сертификации)

Почему это стоит внимания

  • Внедрение LLM в промышленные пайплайны (автопереводы, разметка данных)

  • Разработка масштабируемой изолированной среды для выполнения кода

  • Масштабирование продукта на международные рынки с помощью YTsaurus и AirFlow-подобных систем

  • Участие в проектировании распределённых систем для обработки данных

Если вы хотите работать на стыке Python, C++ и ML, решая задачи парсинга, NLP и Big Data, присоединяйтесь. Здесь ваши навыки превратятся в технологии, которыми каждый день пользуются миллионы людей.

Какие задачи вас ждут

Развитие парсинг-платформы
Вы будете оптимизировать архитектуру для одновременной работы сотен парсеров, реализовывать изолированную среду выполнения парсеров и повышать эффективность взаимодействия с PostgreSQL.

Интеграция LLM и NLP
Понадобится создавать пайплайн автоматического перевода контента и разметки данных с помощью языковых моделей, а также адаптировать и настраивать модели (YandexGPT и др.) под бизнес-задачи.

Масштабирование системы
Вам предстоит адаптировать платформу для новых стран и языков, организовывать обработку данных через YTsaurus MapReduce и внутренний аналог AirFlow.

Оптимизация алгоритмов
Ещё вы станете разрабатывать методы сравнения и нормализации атрибутов организаций и ускорять критичные компоненты системы на C++.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

Мы ждем, что вы

  • Работали с C++ и Python (уровень middle+)

  • Глубоко понимаете алгоритмы, структуры данных и SQL

  • Умеете писать чистый, тестируемый код с документацией

Будет плюсом, если вы

  • Работали с NLP, трансформерными моделями, MapReduce

  • Знаете веб-фреймворки: Flask, FastAPI, Django

  • Умеете работать с Chrome DevTools для отладки парсеров

ЯН

Яндекс

Москва

Получить оффер

Похожие вакансии

Это единственная вакансия по вашему фильтру
вакансии джуниор
как откликнуться на вакансию
примеры вакансий junior
вакансии по Python
стажировки по Python