Как устроена платформа DS Works для чемпионатов по data science — что она предлагает бизнесу и участникам

Платформа DS Works позволяет проводить чемпионаты по обработке и анализу данных. По итогам соревнований организации получают готовое к внедрению решение, а участники — денежные призы и приглашения на работу.

Это интервью с Сергеем Кузнецовым, product owner’ом платформы. Он рассказывает о ходе развития проекта и ближайших соревнованиях.

Что собой представляет DS Works и зачем она нужна? Как зародилась идея проекта и с чего начиналась разработка?

DS Works — это наша площадка для организации соревнований по data science с возможностью обучения и инференса моделей на базе облачной платформы ML Space и ресурсов суперкомпьютеров Christofari и Christofari Neo.

Мы планировали запустить аналог Kaggle, но по ходу разработки расширили функциональность и пришли к платформе, которая заточена не только под исследовательские задачи, а в большей степени под прикладные потребности бизнеса. Получилась платформа для проведения data science чемпионатов по решению бизнес-задач.

Зачем компаниям проводить чемпионат на DS Works? И если им будет это интересно, то куда обращаться?

Часто поиск решения бизнес-задачи начинается с тендера. Компании нужно оценить и выбрать поставщиков, провести закупку. Процесс не всегда прозрачный и эффективный, так как предсказать результат сложно.

DS Works позволяет подойти к решению вопроса с другой стороны. Компания обращается к нам с задачей, которую мы конвертируем в задачу для дата-сайентистов и даем возможность решить её в формате чемпионата. Участники чемпионата обучают кастомную модель машинного обучения, а бизнес — выбирает лучшую.

По сути, компании получают готовые решения и команду, которая уже продемонстрировала высокий уровень компетенций в работе над поставленными задачами. Компания может заключить с дата-сайентистами срочный договор на доработку и интеграцию решения и даже пригласить их в штат. Что, опять же, сокращает сроки поиска профильных специалистов в этой области.

Оставить заявку на организацию чемпионата можно на сайте.

Во сколько компании обойдется запуск чемпионата на DS Works?

Мы не берем деньги за размещение чемпионата на площадке. Стоимость проведения зависит от размера призового фонда и объема необходимых вычислительных ресурсов Christofari и Christofari Neo, так как именно на этих суперкомпьютерах участники обучают или проверяют свои модели. К дополнительным затратам можно отнести стоимость привлечения дата-сайентистов со стороны для проработки задач, если заказчик хочет усилить пул наших специалистов.

Самостоятельная организация таких чемпионатов обойдется компании минимум в два миллиона рублей, а зачастую потребует и более существенных затрат.

Как проходит подготовка чемпионата? Что самое сложное в этом процессе?

Сначала определяется задача и основные параметры соревнования. Их помогают готовить три дата-сайентиста SberCloud. Затем еще семь наших сотрудников готовят платформу на фронтенде, бэкенде и в сервисе для обработки решения и подсчета метрик.

Также для каждого чемпионата нужно загрузить данные, проверить базовое решение (baseline), настроить лимит по времени, настроить метрики качества и, если нужно, реализовать их. Самое сложное — ничего не упустить, держать всю схему обработки решения для конкретного соревнования в голове.

Каким был ваш первый чемпионат? 

Наш первый чемпионат назывался AI Journey Contest 2021. Он был приурочен к ежегодной конференции AI Journey 2021, которая прошла 10–12 ноября. Она объединяет специалистов в области нейросетей, аналитиков данных и разработчиков. Участникам соревнований предложили три задачи, связанные с безопасностью людей и эксплуатацией транспортной инфраструктуры.

Первая была связана с обучением мультимодальных и многозадачных моделей. Дата-сайентисты разрабатывали нейросети, способные выполнять сразу четыре функции: а) определять объекты на фотографии, б) генерировать ответы на вопросы по изображению, в) распознавать рукописный текст на снимке, г) переводить код с Java на Python. В этой категории победил дата-сайентист Даниил Анастасьев. Его модель показала лучшую итоговую метрику по четырём подзадачам. Он также предложил лучшее решение по распознаванию рукописного текста на изображении.

Вторая задача подразумевала разработку модели для прогнозирования пожаров – проект курировало МЧС России. В этой категории победила Анастасия Верещагина. Её модель была лучшей с точки зрения скорости и размерности. Специалисты МЧС планируют использовать наработки для предупреждения чрезвычайных ситуаций в регионах.

Третья задача тоже была социально значимой и направлена на создание безопасной среды для железнодорожного транспорта. Команды проектировали систему компьютерного зрения, распознающую препятствия на путях и переездах. Победителем стал дата-сайентист Аммар Али.

Всего в AI Journey Contest 2021 приняли участие 800 человек. Они загрузили примерно три тысячи решений на площадку DS Works.

Вы получили много решений от участников. Как вы проверяете такое число работ?

Работы участников оценивает автоматическая система. Она проверяет параметры качества загружаемых моделей. Метрики разные — например, точность и скорость распознавания какого-либо объекта. Так, побеждает не только самое точное решение, но и самое быстрое, потребляющее меньше всего ресурсов. На основании данных автоматической проверки мы формируем лидерборд. Он и отражает результаты чемпионатов.

Какие чемпионаты планируются в ближайшее время?

Ближайший чемпионат стартует уже 29 ноября. Задачу для него подготовили специалисты из СберМаркета. Дата-сайентистам нужно построить модель, которая предскажет, какие товары закажет пользователь в следующем месяце. Обучающая выборка включает исторические данные о прошлых покупках.

Участники будут обучать нейросети с помощью инструментов для анализа информации Intel oneAPI. Победителем станет дата-сайентист(ы), который наиболее точно предскажет категории товаров — включая не представленные в обучающей выборке. Дедлайн приёма решений — 17 декабря, а итоги подведем 20 декабря.

Кто может принять участие и как это сделать? Есть ли какие-то ограничения, пороги вхождения, другие условия?

Турнир проходит в онлайн-формате, и чтобы принять участие, нужно зарегистрироваться на платформе DS Works. Далее, необходимо скачать предложенные датасеты и ознакомиться с условиями задачи. После можно приступать к самостоятельному обучению модели. Готовую модель необходимо загрузить обратно на платформу для проверки.

Участвовать могут все желающие как в составе команды, так и поодиночке. Единственное требование — участники должны быть совершеннолетними.

За какой приз будут сражаться участники?

Победитель получит один миллион рублей.

Что еще могут получить дата-сайентисты?

Помимо денежных призов, участники получают опыт для дальнейшего развития в выбранной области, отличившиеся дата-сайентисты и программисты могут рассчитывать на предложения о сотрудничестве не только от организаторов, но и от партнеров.

А еще мы собираемся развивать комьюнити дата-сайентистов и планируем продвигать образовательную составляющую проекта — добавим обучающие программы в ближайшем будущем для развития карьерного пути наших участников. Мы будем готовить обучающие программы как самостоятельно, так и вместе со сторонними экспертами.

Какие рекомендации вы можете дать потенциальным участникам чемпионатов? Что им почитать, знания в каких областях стоит освежить?

Скорее всего, наиболее ценными окажутся знания о современных подходах к задачам конкретного типа. Можно почитать научные статьи по тематике соревнований. И иногда действительно случается так, что благодаря нишевым знаниям участники придумывают нестандартные решения и занимают высокие места в соревнованиях, но это условие не является обязательным для победы.

Расскажите о самых распространенных ошибках, которые допускают участники, и как их избежать?

Чаще всего участники выкладывают файл с решением в неправильном формате или допускают ошибки в файле, некорректно собирают docker-образ. Наиболее распространенные ошибки описаны в чате поддержки DS Works. Там общаются менторы, представители организаторов и дата-сайентисты. Они разбираются в специфике задач и метриках, с готовностью отвечают на вопросы и делятся экспертизой.


Дополнительное чтение по теме: в прошлый раз мы рассказывали, что происходит за кулисами хакатона, как выглядят будни ментора и наш подход к организации состязаний.