Mustafin Magazine Logo
loupe

Реклама

  1. Главная
  2. arrow-right
  3. Страсть
  4. arrow-right
  5. Техно
img
arrow

03.02.2025

Текст: Руслан Абдряев

Казахстан в гонке ИИ: перспективные проекты в 2025 году

Большие языковые модели, чат-боты и трудности на локальном рынке

Недавний релиз модели DeepSeek-R1 встряхнул рынок генеративного ИИ, показав, что качественные большие языковые модели (БЯМ) создают не только в США. По качеству ответов R1 оказалась сопоставима с GPT-o1 от OpenAI, а ее открытый исходный код стал причиной падения капитализации американских техногигантов (Nvidia, Microsoft, Google и Amazon) более чем на триллион долларов.

Сейчас свои модели создают во многих странах, и Казахстан тоже не остается в стороне от гонки ИИ. Автор Mustafin Magazine изучил, какие наработки в этой области создают казахстанские исследователи.

KazLLM

В конце прошлого года завершилось обучение БЯМ KazLLM, разработанной Институтом умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете. Партнерам по проекту выступили “Beeline Казахстан” и ее дочерняя компания QazCode. 

Модель способна обрабатывать, анализировать и генерировать тексты на казахском, русском и английском языках. KazLLM имеет широкий диапазон применения от перевода и обработки текстов до автоматизации систем поддержки клиентов.

Специалисты обучили две версии модели: с 8 млрд и 70 млрд параметров. Благодаря этим конфигурациям разработки можно развернуть даже на ноутбуках. Обе модели базируются на варианте архитектуры Llama от корпорации Meta. KazLLM обучили на 148 млрд токенов, включающим данные на казахском, русском, английском и турецком языках.

При создании KazLLM применяли различные архитектуры машинного обучения, в том числе PyTorch и Torchtune. Обучение продолжалось в течение 50 дней. Модели выпустили по лицензии CC-BY-NC — они доступны для некоммерческого использования на платформе обмена исследованиями в области машинного обучения Hugging Face.

Разработчики ожидают, что модель предоставит новые возможности для создания стартапов и других проектов на основе ИИ. Следующим этапом разработки ISSAI станет создание БЯМ, способных интегрировать языковые и визуальные данные.

BeeBERT

Весной 2023 года Beeline Казахстан представила свою языковую модель Kaz-RoBERTA-conversational или BeeBERT. Ее обучили на большом массиве данных на казахском языке.

BeeBERT предназначена для внедрения в чат-боты, анализа контента и текстовой информации. После доработки модель должна научиться переводить, суммировать и упрощать тексты на казахском языке. Она умеет определять казахский язык в текстах, извлекать имена, названия городов и другие данные, а также исправлять орфографические ошибки. С генерацией текста BeeBert справиться не может.

В основе модели лежат наборы данных объемом 25 ГБ, которые включают 25 млн текстов, содержащих свыше 2 млрд токенов. Обучение BeeBERT заняло около трех месяцев. Разработчик сделал модель общедоступной по лицензии Apache с открытым исходным кодом. BeeBERT базируется на модели BERT от корпорации Google. Также доступна на Hugging Face.

IrbisGPT

Летом 2024 года стала доступна языковая модель с открытым исходным кодом IrbisGPT, которую обучили на крупном объеме данных на казахском языке. Создание модели стало некоммерческим проектом при поддержке Most Holding и Gen2b.zi.

Авторы указывают, что цель инициативы заключается в сохранении и распространении казахского языка. Модель способна развернуто и корректно отвечать на вопросы без контекста, она имеет обширные актуальные знания. IrbisGPT умеет обрабатывать входящую информацию, отвечать на простые вопросы и работать с контекстом.

Для обучения модели использовали 20 ГБ “сырых” данных из новостей и статей на казахском языке. Итоговое количество токенов составило 60 тыс. IrbisGPT имеет 7 млрд параметров.

Другие ИИ-проекты на казахском языке

Весной прошлого года “Яндекс Казахстан” запустил языковую модель YandexGPT, умеющую писать и обрабатывать тексты на казахском языке. Также она способна придумывать идеи для рекламы и писать посты для социальных сетей. Для дообучения модели использовали сотни тысяч запросов и ответов на казахском языке.

В Массачусетском технологическом университете создали некоммерческую организацию Qazaq AI, которая стремится развивать ИИ в Казахстане. Одной из разработок структуры стал чат-бот Jasandy, способный общаться с пользователем на казахском языке.

В этом году власти Казахстана анонсировали создание справочника казахского языка, работающего на базе ИИ. Такой подход должен помочь обучить нейросети лучше распознавать и переводить тексты.

Также в текущем году ISSAI запустил пилотную версию нейросети Oylan, которая способна работать с визуальными данными и текстами на казахском, русском и английском языках. Для обучения ИИ-модели использовали датасет, включающий свыше 10 млн изображений и 50 млн пар вопросов и ответов. Для управления Oylan можно использовать голос. У разработчиков есть возможность получить доступ к API нейросети, чтобы добавить ее в свои приложения или другие проекты.

Проблемы

В октябре прошлого года исследователь данных QazCode Бексултан Сагындык рассказал о проблемах интеграции казахского языка в БЯМ. К тому моменту на Hugging Face опубликовали всего 636 ИИ-моделей для казахского языка. Сагындык заявил о недостаточном количестве текстов на казахском языке в интернете, библиотеках и архивах ряда организаций для полноценного обучения БЯМ с нуля, что накладывает значительные ограничения.

Проблема

Аутентичность

Поэтому разработчики вынуждены переводить тексты с других языков, что также не решает проблему, поскольку обучение требует использования качественных и аутентичных материалов. Создатели адаптируют существующие модели, дополнительно обучая их казахскому языку. Однако это тоже сопровождается трудностями.

Создание БЯМ требует больших ресурсов в виде аренды или покупки графических ускорителей, которые остаются дорогостоящими. Кроме того, важно развитие IT-инфраструктуры. Помимо сбора данных, их нужно очищать и обрабатывать, из-за чего перед разработчикам встает вопрос создания подобных инструментов. После создания БЯМ ее необходимо адаптировать для использования в реальном времени. Еще одна проблема заключается в нехватке профильных специалистов в Казахстане. 

Все эти инновации и высококвалифицированные кадры требуют масштабного финансирования.