16:03 21 июля 2023

Сбер открыл доступ к модели генерации текстов для русского языка и к нейросети для создания текстов на 61 языке

Первая называется ruGPT-3.5, а вторая — mGPT

Сбер.

Сбер.

Автор: Виктор Субботин. Фото: Сбера. Реклама. ООО «РИА «ТРИО» / ИНН 7607016082. erid: 2VtzqvfBbMo.

Сбер сообщил о том, что теперь открыт доступ к нейросети для генерации текстов на русском языке ruGPT-3.5 13B. В основе сервиса GigaChat лежит ее дообученная версия. Кроме того, банк выложил для общего доступа самую большую модель Сбера, которая может генерировать тексты на 61 языка — это mGPT 13B. Эти модели доступны на HuggingFace, их могут использовать все разработчики.

ruGPT-3.5

Это современная модель создания текста для русского на основе архитектуры GPT-3 от OpenAI, которая была доработана исследователями Сбера. В модели ruGPT-3.5 13B содержится 13 млрд параметров. Она имеет писать тексты на русском и английском языках и на языках программирования.

Длина контекста модели составляет 2048 токенов. Обучена она на текстовом корпусе размером около 1 Тб.

Модель доступна на российской платформе ML Space в DataHub. Модель обучали команды SberDevices, Sber AI при поддержке Института искусственного интеллекта AIRI.

mGPT

Эта модель опубликовала под открытой лицензией. mGPT 13B содержит 13 млрд параметров. Она может писать тексты на 61 языке, в числе которых языки стран СНГ и малых народов РФ. Длина контекста — 512 токенов. Обучили эту модель на 600 Гб текстов на разных языках.

Модель используется для создания текста, решения задач в области обработки естественного языка путем дообучения или в составе нескольких моделей.

mGPT доступна на российской платформе ML Space в DataHub.

«Сбер как ведущая технологическая компания выступает за открытость технологий и обмен опытом с профессиональным сообществом, ведь любые разработки и исследования имеют ограниченный потенциал в замкнутой среде. Поэтому, мы уверены, что публикация обученных моделей подстегнёт работу российских исследователей и разработчиков, нуждающихся в сверхмощных языковых моделях, создавать на их базе собственные технологические продукты и решения, — рассказал Андрей Белевцев, старший вице-президент, СТО, руководитель блока «Технологии» Сбербанка. — Пробуйте, экспериментируйте и обязательно делитесь полученными результатами».

16:03
21 июля 2023

Сбер открыл доступ к модели генерации текстов для русского языка и к нейросети для создания текстов на 61 языке

Первая называется ruGPT-3.5, а вторая — mGPT

Сбер.

Сбер.

Автор: Виктор Субботин. Фото: Сбера. Реклама. ООО «РИА «ТРИО» / ИНН 7607016082. erid: 2VtzqvfBbMo.

Сбер сообщил о том, что теперь открыт доступ к нейросети для генерации текстов на русском языке ruGPT-3.5 13B. В основе сервиса GigaChat лежит ее дообученная версия. Кроме того, банк выложил для общего доступа самую большую модель Сбера, которая может генерировать тексты на 61 языка — это mGPT 13B. Эти модели доступны на HuggingFace, их могут использовать все разработчики.

ruGPT-3.5

Это современная модель создания текста для русского на основе архитектуры GPT-3 от OpenAI, которая была доработана исследователями Сбера. В модели ruGPT-3.5 13B содержится 13 млрд параметров. Она имеет писать тексты на русском и английском языках и на языках программирования.

Длина контекста модели составляет 2048 токенов. Обучена она на текстовом корпусе размером около 1 Тб.

Модель доступна на российской платформе ML Space в DataHub. Модель обучали команды SberDevices, Sber AI при поддержке Института искусственного интеллекта AIRI.

mGPT

Эта модель опубликовала под открытой лицензией. mGPT 13B содержит 13 млрд параметров. Она может писать тексты на 61 языке, в числе которых языки стран СНГ и малых народов РФ. Длина контекста — 512 токенов. Обучили эту модель на 600 Гб текстов на разных языках.

Модель используется для создания текста, решения задач в области обработки естественного языка путем дообучения или в составе нескольких моделей.

mGPT доступна на российской платформе ML Space в DataHub.

«Сбер как ведущая технологическая компания выступает за открытость технологий и обмен опытом с профессиональным сообществом, ведь любые разработки и исследования имеют ограниченный потенциал в замкнутой среде. Поэтому, мы уверены, что публикация обученных моделей подстегнёт работу российских исследователей и разработчиков, нуждающихся в сверхмощных языковых моделях, создавать на их базе собственные технологические продукты и решения, — рассказал Андрей Белевцев, старший вице-президент, СТО, руководитель блока «Технологии» Сбербанка. — Пробуйте, экспериментируйте и обязательно делитесь полученными результатами».

Наверх