Опубликовано 12 февраля 2026 г.

Python Developer in data mining в Яндекс Москва

в офис

Каждый день миллионы пользователей ищут, куда пойти, как получить услугу или добраться до нужного места. Мы помогаем им принимать обоснованные решения, предоставляя актуальную и достоверную информацию о компаниях по всему миру.

Справочник — платформа, которая собирает, верифицирует и анализирует данные об организациях. Наша система ежедневно обрабатывает миллионы сигналов: пользовательский фидбек, обновления с сайтов, коррекции от владельцев бизнесов. Мы создаём решения, которые масштабируются на новые рынки и языки.

Наши проекты

Автоматический перевод контента с использованием современных LLM (YandexGPT и др.) для поддержки мультиязычных пользователей
Парсинг данных на Python — платформа для сбора информации об организациях из открытых источников
Изолированная среда выполнения парсеров — безопасный рантайм для пользовательского кода с использованием внутреннего аналога Docker
Унификация данных — алгоритмы нормализации адресов, графиков работы и других атрибутов организаций
Автоматизация обновлений для сетевых компаний (рестораны, магазины) с учётом их филиалов и особенностей

Стек технологий

Backend: C++ (производительность), Python (парсинг), YTsaurus, YDB Topics, PostgreSQL
ML: YandexGPT 5 Pro
Инфраструктура: Docker, Chrome DevTools (для анализа веб-страниц)

Мы предлагаем

Работу с Big Data (сотни миллионов записей) и передовыми LLM
Возможность влиять на архитектуру высоконагруженных систем
Гибкий график и опцию удалённой работы
Компенсацию оплаты обучения (курсы, конференции, сертификации)

Почему это стоит внимания

Внедрение LLM в промышленные пайплайны (автопереводы, разметка данных)
Разработка масштабируемой изолированной среды для выполнения кода
Масштабирование продукта на международные рынки с помощью YTsaurus и AirFlow-подобных систем
Участие в проектировании распределённых систем для обработки данных

Если вы хотите работать на стыке Python, C++ и ML, решая задачи парсинга, NLP и Big Data, присоединяйтесь. Здесь ваши навыки превратятся в технологии, которыми каждый день пользуются миллионы людей.

Какие задачи вас ждут

Развитие парсинг-платформы
Вы будете оптимизировать архитектуру для одновременной работы сотен парсеров, реализовывать изолированную среду выполнения парсеров и повышать эффективность взаимодействия с PostgreSQL.

Интеграция LLM и NLP
Понадобится создавать пайплайн автоматического перевода контента и разметки данных с помощью языковых моделей, а также адаптировать и настраивать модели (YandexGPT и др.) под бизнес-задачи.

Масштабирование системы
Вам предстоит адаптировать платформу для новых стран и языков, организовывать обработку данных через YTsaurus MapReduce и внутренний аналог AirFlow.

Оптимизация алгоритмов
Ещё вы станете разрабатывать методы сравнения и нормализации атрибутов организаций и ускорять критичные компоненты системы на C++.

Больше о бэкенде в Яндексе — в канале Yandex for Backend

Мы ждем, что вы

Работали с C++ и Python (уровень middle+)
Глубоко понимаете алгоритмы, структуры данных и SQL
Умеете писать чистый, тестируемый код с документацией

Будет плюсом, если вы

Работали с NLP, трансформерными моделями, MapReduce
Знаете веб-фреймворки: Flask, FastAPI, Django
Умеете работать с Chrome DevTools для отладки парсеров

ЯН

Яндекс

Москва

Получить оффер

Подготовиться к собеседованию в Яндекс

Python Developer in data mining в Яндекс Москва

Какие задачи вас ждут

Мы ждем, что вы

Будет плюсом, если вы

Яндекс

Похожие вакансии