Женщина на работе, commons.wikimedia.org by Negative Space is licensed under Creative Commons CC0 1.0 Universal Public Domain Dedication
На российском IT-рынке формируется новый сегмент: бизнес массово осваивает Inference-as-a-Service
На фоне дефицита GPU и стремительного роста интереса к ИИ-технологиям в России начинает формироваться новый сегмент IT-рынка — Inference-as-a-Service. Это направление связано с применением уже обученных моделей к новым данным для генерации предсказаний и выводов. Как стало известно, подобный сервис выводит на рынок Cloud. ru. Также решения в этом сегменте уже предлагают “Яндекс”, МТС и Nebius Group, основанная Аркадием Воложем.
По информации Cloud. ru, их новый продукт Evolution ML Inference позволяет запускать как собственные модели, так и opensource-решения из библиотеки Hugging Face на базе облачных GPU. При этом пользователю не требуется глубокое знание ИИ, достаточно базовых технических навыков. В компании подчеркнули, что клиенты получают доступ к высокопроизводительным графическим процессорам и полностью обслуживаемой инфраструктуре, а также возможность гибко масштабировать мощности.
Дмитрий Юдин, руководитель AI-направления Cloud. ru, объяснил, что рынок инференса, по сути, состоит из трёх компонентов: аппаратного обеспечения, PaaS и SaaS-сегментов. При этом, по его мнению, в ближайшие годы произойдёт сдвиг от железа в сторону управляемых облачных сервисов, так как инференс-модели гораздо чаще используются бизнесом, чем обучаются с нуля. Это связано как с высокой стоимостью обучения, так и с ростом числа готовых решений и инструкций по их применению.
Рост спроса подтверждает и статистика: пользователи генерируют миллиарды токенов в популярных LLM-моделях ежемесячно, а продажи GPU-инфраструктуры в облаке MWS за 2024 год удвоились. На фоне этого, по прогнозам Statista, российский рынок ИИ достигнет $5,36 млрд уже в 2025 году и вырастет до $20 млрд к 2031-му. Аналитики J’son & Partners оценивают рост сегмента облачных GPU-вычислений в России в 2024 году на уровне 55%, до 17,1 млрд рублей.
Несмотря на санкции, дефицит видеокарт и усложнённый ввоз оборудования, крупные игроки продолжают развивать свои облачные сервисы. В Cloud. ru заявили, что дефицит в большей степени затронул малые компании, тогда как крупные организации, включая Сбер и Яндекс, успели создать запасы и наладить оптимизацию ресурсов. МТС также отмечает рост спроса на облачную GPU-инфраструктуру и заявляет, что их платформа MWS GPT обеспечивает масштабируемость “из коробки”.
Эксперты считают, что Inference-as-a-Service станет ключевым направлением развития ИИ-инфраструктуры, особенно для тех, кто нуждается в запуске MVP, автоматизации поддержки клиентов, генерации контента или внутренних интеллектуальных систем. Сервис позволяет существенно сократить расходы, так как тарификация начинается с момента обращения к модели. В Cloud. ru утверждают, что аренда собственной инфраструктуры обходится в 10 раз дороже, чем облачный инференс.