12:40
USD 87.35
EUR 101.23
RUB 1.08

Будущее AI в Кыргызстане: интервью с Чингизом Арзиевым, Head of AI в BDigital

Фото из личного архива. Чингиз Арзиев, Head of AI в BDigital

— Чингиз, многие знают BDigital как IT-компанию. Как вы сами определяете свою миссию?

— Мы никогда не рассматривали себя как просто IT-компанию. Наша цель — построить полноценную лабораторию искусственного интеллекта в Кыргызстане со своим исследовательским центром и академией для подготовки новых инженеров. Мы хотим, чтобы Кыргызстан был не только потребителем технологий, но и их создателем.

— Какая главная задача стоит перед вашей лабораторией сейчас?

— Мы не ограничиваемся созданием локальных ассистентов для бизнеса. Сейчас мы строим языковое ядро на кыргызском языке. На данном этапе нам удалось создать полноценный аналог ChatGPT, но полностью адаптированный для кыргызского языка. Этот проект получил название Airun.kg. Это не просто ассистент — это основа, ядро, на котором в будущем будут строиться все наши решения.

— Что уже удалось реализовать в рамках Airun.kg?

— Мы создали первый прототип, который работает как полноценный чат на кыргызском языке, с качеством, сопоставимым с лучшими мировыми моделями.

Сейчас мы развиваем проект в двух ключевых направлениях:

  • Голосовой ассистент — обеспечивает максимально естественное общение с ИИ. Наш уникальный датасет на кыргызском языке позволяет модели быстро и точно понимать контекст, интонации и нюансы речи, делая диалог живым и комфортным для пользователя.

  • Цифровой аватар — это визуальное воплощение ассистента, предназначенное для создания контента: роликов, рекламных материалов и виртуальных дикторов. Технология синхронизации голоса и мимики превращает текст и аудио в профессионально озвученный и визуально выразительный контент, открывая новые возможности для маркетинга, обучения и презентаций без участия реальных актеров.

Кстати, протестировать Airun вы уже можете на сайте airun.kg. В течение этой недели мы проводим большой открытый бета-тест и будем рады любым отзывам и предложениям.

— Почему вы решили сосредоточиться именно на кыргызском языке?

— Кыргызский язык — это ключ к культурной идентичности страны.

Сегодня в мире AI доминируют английский, китайский и другие крупные языки, а малые языки рискуют остаться вне глобальной цифровой экосистемы.

Наша задача — чтобы кыргызский язык был не только сохранен, но и интегрирован в самые современные технологии.

— Получается, ваша стратегия — сначала создать ядро, а потом уже внедрять его в бизнес-продукты?

— Именно так. Мы убеждены, что без сильного фундамента любые точечные решения будут временными. Наше ядро станет платформой, на которой можно будет строить решения для банков, образования, медицины, телеком-компаний и государства. Но важно, что все это будет исходить из локальной языковой и культурной базы.

— Вы сказали, что позиционируете свое направление больше как лабораторию. Скажите, над какими исследованиями вы сейчас работаете?

— В нашем отделе мы действительно работаем как лаборатория, и одно из ключевых направлений исследований связано с созданием коробочного решения для низкоресурсных языков.

Здесь важно уточнить: низкоресурсный язык — это язык, для которого практически отсутствуют большие корпусные данные (тексты, параллельные переводы, аннотированные датасеты), что делает его крайне сложным для классических моделей трансформеров. В отличие от английского или китайского, где существуют терабайты обучающих данных, низкоресурсные языки обычно имеют разрозненные и фрагментарные источники, что приводит к снижению качества моделей.

Наша гипотеза заключается в том, что традиционный подход, где трансформер обучается либо с нуля, либо через многоязычную модель общего назначения, не оптимален для низкоресурсных языков.

Мы предлагаем новую методологию обучения трансформеров, которая строится на принципах:

  1. Модульная архитектура: Модель состоит из универсального ядра (core transformer), предварительно обученного на высокоресурсных языках (например, английском, русском), и адаптивных языковых модулей, специфичных для целевого языка. Это позволяет эффективно использовать общие знания, минимизируя затраты на адаптацию.

  2. Кросс-лингвистический перенос знаний: Мы применяем техники cross-lingual transfer learning, выравнивая эмбеддинги низкоресурсных и высокоресурсных языков в общем векторном пространстве. Это обеспечивает перенос семантических и синтаксических знаний.

  3. Морфосемантическое выравнивание: Для низкоресурсных языков с богатой морфологией мы интегрируем анализ морфологических и семантических структур, что компенсирует недостаток данных за счет более глубокого понимания языка.

  4. Few-shot fine-tuning: Финальная адаптация модели проводится с использованием небольших, но высококачественных датасетов, аннотированных носителями языка. Это позволяет достичь высокой точности с минимальными данными.

Благодаря этому подходу мы уже достигли 90 процентов точности релевантных ответов на кыргызском языке, что является серьезным прорывом, учитывая его статус низкоресурсного языка. Сейчас мы целимся выйти на 93 процента, что фактически сопоставимо с системами, обученными на английском.

Если гипотеза подтвердится, мы сможем предложить рынку универсальное коробочное решение: это будет платформа, которая позволяет запускать ИИ-ассистентов на любом низкоресурсном языке без необходимости собирать десятки миллионов строк данных.

Для банков, кол-центров и государственных сервисов это означает реальную возможность внедрения AI на родных языках пользователей.

— С кем вы работаете и кого можно назвать вашими ключевыми партнерами?

— Мы изначально выбрали стратегию сотрудничать только с лучшей экспертизой в мире, потому что наша цель — не разовый проект, а полноценное языковое ядро глобального уровня. Сегодня мы консультируемся напрямую с региональным директором NVIDIA по СНГ — компании, которая задает мировые стандарты в области искусственного интеллекта и вычислений. Это дает нам доступ к самой передовой информации о GPU-архитектурах и инфраструктуре для больших моделей.

Мы также консультируемся и обмениваемся опытом с ведущими специалистами отрасли. Например, на прошлой неделе у нас состоялся разговор с Александром Ханиным, основателем компании VisionLabs. Его рекомендации стали важным толчком для развития нашей архитектуры и построение пайплайна.

Отдельно стоит отметить, что мы консультируемся с ML-инженерами компании Mastercard. Опыт такого уровня для нас действительно бесценен: доступ к знаниям специалистов, которые работают в финтехе мирового масштаба, — это своего рода святой грааль в мире искусственного интеллекта.

Кроме того, мы активно работаем с ведущими ЦОДами Tier III, чтобы глубоко изучить процесс управления инфраструктурой и в будущем построить собственный дата-центр, оптимизированный под обучение и инференс языковых моделей.

Все эти партнерства в совокупности дают нам огромное преимущество: мы двигаемся не в одиночку, а в связке с лидерами индустрии, и это делает наш опыт в построении языкового ядра самым легитимным и перспективным в регионе.

— В чем особенность вашей инженерной команды?

— Уникальность нашей команды в том, что все наши инженеры являются носителями кыргызского языка. Это дает нам колоссальное преимущество: мы не просто обучаем модель по книгам и словарям, мы понимаем живой язык, его диалекты, культурные особенности и нюансы речи. Благодаря этому мы сразу видим, когда модель ошибается, когда она «галлюцинирует» или использует неестественные конструкции. Мы можем не только исправить эти ошибки, но и сделать ядро по-настоящему нативным, а не «переведенным» с других языков.

— Какова долгосрочная цель вашего проекта?

— Наша цель выходит далеко за рамки одного языка или одного продукта.

Мы строим коробочное решение, которое сможет локализоваться под любой малый язык, создавая для него полноценную цифровую идентичность.

Каждому языку мы хотим дать возможность существовать в цифровом мире наравне с крупнейшими языками, сохраняя все культурные и лингвистические особенности.

Представьте: любое сообщество, любая этническая группа сможет использовать голосовых ассистентов, цифровых аватаров, образовательные и бизнес-приложения на своем родном языке.

Для нас это не просто технология — это способ дать малым языкам новую жизнь в эпоху ИИ, чтобы каждая культура, каждый народ имел право на свое место в глобальной цифровой экосистеме.

из личного архива
Фото из личного архива. Чингиз Арзиев, Head of AI в BDigital

— Какие новые технологические направления развивает BDigital?

— Компания активно исследует возможности блокчейн-технологий, опираясь на опыт построения масштабируемых и безопасных цифровых сервисов. Мы изучаем интеграцию блокчейн-инфраструктуры с нашими продуктами, чтобы создать единую экосистему, где языковые модели, цифровая идентичность и финансовые сервисы взаимодействуют эффективно и безопасно.

Особое внимание мы уделяем изучению ключевых блокчейн-сетей и их архитектурных особенностей. Мы внимательно анализируем обновления протоколов Ethereum, Solana, TON и других ведущих платформ, оценивая их влияние на масштабируемость, производительность и возможности интеграции с распределенными системами. Такой подход позволяет нам глубоко понимать, как блокчейн-инфраструктура взаимодействует с современными приложениями и сервисами на базе ИИ, а также закладывать основу для разработки высоконагруженных и надежных цифровых решений.

Все эти исследования позволяют нам формировать стратегическое видение будущих цифровых экосистем, где ИИ, блокчейн и финансовые сервисы будут тесно интегрированы, а технологии малых языков и локальных культур смогут эффективно масштабироваться в глобальной среде.

— Вы также известны как организатор крупного научного форума «Путь к бесконечности». Расскажите об этом проекте.

— Да, для меня важно, чтобы искусственный интеллект не ограничивался бизнес-задачами, а был тесно связан с наукой и фундаментальными вопросами человечества. Именно поэтому я организовал форум «Путь к бесконечности», где собрал лучших научных популяризаторов и ученых современности — таких как Алексей Семихатов, Владимир Сурдин и Борис Штерн.

Эти люди — ведущие физики и астрономы, которые открывают космос миллионам людей через науку. Мы обсуждали не только новые открытия во Вселенной, но и то, какую роль может сыграть искусственный интеллект в астрономии: от анализа данных телескопов до моделирования процессов звездообразования и поиска новых закономерностей во Вселенной.

Для меня это было принципиально важно: показать, что мы строим ИИ не в вакууме, а в контексте большой науки и вечных вопросов человечества. Именно на таких форумах рождаются идеи, которые вдохновляют инженеров, исследователей и предпринимателей строить технологии будущего.

— Как вы видите будущее BDigital через пять лет?

— Через несколько лет мы хотим, чтобы в Кыргызстане существовал полноценный центр AI-исследований, который будет конкурировать на международном уровне. Airun.kg станет ядром для сотен приложений и сервисов. Мы хотим, чтобы кыргызский язык звучал в цифровом мире наравне с английским и китайским, а наши инженеры могли гордиться тем, что создают технологии мирового уровня здесь, в Кыргызстане.

Популярные новости
Бизнес