Technical Lead — CUDA/Triton Kernel Development for LLM Acceleration

Приглашаем Вас на работу на должность Technical Lead — CUDA/Triton Kernel Development for LLM Acceleration зарплата от 0 Полная занятость Режим гибкого рабочего времени

Расширенное описание

Вакансия

Technical Lead — CUDA/Triton Kernel Development for LLM Acceleration

Зарплата

от 0

Организация

Тагильское пиво

Адрес организации

г Москва

Адрес трудоустройства

Регион: Москва МО
Дополнительная информация по адресу: г Москва

Должностные обязанности

Мы создаём самые сильные языковые модели в России и одни из самых больших в мире такие как GigaChat3 Ultra. Создание таких систем требует оптимизации архитектуры под GPU и решение проблем с масштабированием на кластера из тысяч видеокарт. Все это - нетривиальные инженерные вызовы, решение которых закладывается в следующие поколения наших моделей. У нас вы будете работать с современным набором видеокарт: NVIDIA B200/H100. Наш стек полностью интегрирован с PyTorch/TensorRT/ONNX и активно использует Triton, CUDA, CUTLASS и кастомные ядра для оптимизации: FlashAttention, PagedAttention, DeepEP, и др. Среди наших достижений - реализация собственных ядер для распределённого обучения: асинхронный Expert Tensor Parallel, а также Async Liger. Но хочется больше Цель - снизить latency и увеличить throughput, оптимизировать новые архитектуры, делать их обучение экономически выгодным по сравнению с классическими LLM MoE Обязанности лидировать направление по разработке и оптимизации CUDA/Triton-ядер для LLM тесно взаимодействовать с ML-инженерами и research-командами для понимания workload’ов и bottleneck’ов (например: multinode inference, sparse attention, mixture-of-experts, long-context inference) участвовать в open-source инициативах (возможно — форки/патчи в Triton, upstream в PyTorch/TensorRT/SGLang) Мы ожидаем, что вы: имеете 5+ лет опыта в low-level GPU программировании (CUDA C++, PTX/SASS, shared memory/coalescing/warp-shuffle, async memcpy, stream management) глубоко понимаете архитектуру NVIDIA GPU (Tensor Cores, warp execution, occupancy, L2 cache hierarchy) и умеете профилировать через Nsight владеете Triton (или готовы освоить быстро) и понимаете его trade-offs vs чистая CUDA есть опыт работы с современными фреймворками: PyTorch (custom ops, torch.compile), TensorRT (plugins), возможно — SGLang имеете опыт управления технической командой (2+ лет как lead/tech lead) Плюсом будет: понимание сетевой составляющей обучений на больших кластерах (опыт работы с NVSHMEM, NCC) знание CPU/GPU взаимодействия (pinned memory, zero-copy, unified memory pitfalls) опыт оптимизации под конкретные HW — например, Hopper vs Ampere. Условия удалённо по всей России возможность оформления в аккредитованную IT-компанию годовая премия по итогам работы регулярный пересмотр зарплат корпоративный спортзал и зоны отдыха более 400 программ СберУниверситета для роста программа адаптации и помощь руководителя на старте крупнейшее DS AI community – более 600 DS банка, регулярный обмен знаниями, опытом и лучшими практиками, интерактивные лекции и мастер-классы от ведущих ВУЗов и экспертов технологических компаний, дайджест о самых последних разработках в области DS AI и отчеты с крупнейших конференций мира, регулярные внутренние митапы ДМС, льготное страхование для семьи, корпоративная пенсионная программа ипотека для сотрудников по дисконтной программе СберПрайм+ и скидки у партнёров бонус за рекомендации в команду.

Данные по вакансии

Специальность: Technical Lead — CUDA/Triton Kernel Development for LLM Acceleration
Профобласть: Информационные технологии, телекоммуникации, связь
Режим работы: Полная занятость
Характер работы: Режим гибкого рабочего времени
Источник информации: Вакансия интернет ресурса

Требования к соискателю

Образование: Не указано

Информация

Дата: 2025-12-13

Контакты работодателя

Тагильское пиво
Регион: Москва МО
Адрес: г Москва
ОГРН: 1067761906805
ИНН: 7718620740
Введите требуемое название профессии и выберите населенный пункт
Ищем специальность
В городе