USD
65.52 
EUR
71.24 
Например, ДТП

Свежие вакансии и резюме
в разделе «Работа»



Курсы валют в Астрахани
Обновление каждые 5 минут | Обновить

* Информация о курсах валют поступает с официальных сайтов и от сотрудников банков. Более актуальную информацию узнавайте непосредственно в отделениях банков.
Опрос
Нравится ли Вам жить в Астрахани?
Архив опросов

Исследователи разработали метод повышения точности автоматического распознавания русского языка AI-моделями

21 августа 2025 года, 17:00
538
Изменить шрифт
Исследователи разработали метод повышения точности автоматического распознавания русского языка AI-моделями
Новый метод превосходит другие open-source модели по точности распознавания русского языка, не требуя при этом качественных размеченных данных Исследователи Сбера нашли способ повысить качество распознавания русского языка искусственным интеллектом (AI). Новый метод предобучения AI-моделей, получивший название HuBERT-CTC, использует целевые переменные из CTC-модели распознавания (Connectionist Temporal Classification). Это позволяет формировать более семантические представления данных, в то время как существующие модели (wav2vec2.0, HuBERT и BEST-RQ) опираются на низкоуровневые акустические переменные. Исследование подробно описано в научной статье «GigaAM: Efficient Self-Supervised Learner for Speech Recognition» («GigaAM: эффективный метод предобучения для распознавания речи») и представлено на международной конференции Interspeech 2025 — ключевом событии в области речевых технологий. Метод уже показал отличные результаты для русского языка. Он снижает количество ошибок распознавания (Word Error Rate) на 50% по сравнению с моделью Whisper-large-v3 от OpenAI.   Метод также решает ключевую проблему индустрии — зависимость от дефицитных размеченных аудиоданных. Self-supervised обучение позволяет моделям учиться на огромных массивах неразмеченных данных. Это открывает путь к созданию качественных систем для любых языков и специализированных доменов. Технология масштабируется по размеру модели и объёму данных. Динамическое маскирование self-attention наделяет модель уникальной гибкостью: одна архитектура работает в онлайн- и офлайн-режиме без необходимости инвестирования в переобучение. Решение, предложенное исследователями Сбера, имеет большое практическое значение для сервисов автоматического распознавания речи и голосовых помощников, контакт-центров и систем аналитики телефонных звонков. Новый метод может быть очень востребован в мультимодальных системах, например, в чат-ботах с аудиопотоком. Исследователи получают новый мощный инструмент предобучения моделей. Открытый код позволяет AI-сообществу дообучать модели искусственного интеллекта и применять его под свои языки и задачи. Фёдор Минькин, технический директор GigaChat Сбербанка:  «Мы переосмыслили сам подход к предобучению моделей, сместив фокус на семантические представления. Это не просто инкрементальное улучшение метрики, а качественный скачок. Новая архитектура демонстрирует высокую эффективность и гибкость. Она ломает барьеры, которые долгое время сдерживали развитие ASR-систем для языков с малым количеством данных. Думаю, что метод HuBERT-CTC может стать новым стандартом для индустрии, ускорит прогресс и заложит основу для следующего поколения голосовых интерфейсов».


Источник: Астрахань.Ру
Ctrl+Enter Заметили ошибку? Выделите её и нажмите Ctrl+Enter


Добавить комментарий
Добавляя комментарий, я принимаю Правила комментирования.
Обратите внимание, что в комментариях в том числе запрещаются:
- нецензурная лексика (в любом виде);
- прямое и косвенное разжигание межнациональной и иной розни;
- оскорбления, вульгарные и непристойные реплики;
- общение не по теме, спам.



Архив новостей раздела
«Наука и техника»

Пн Вт Ср Чт Пт Сб Вс
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31


Новости компаний
Все новости компаний


Новые комментарии


Новости А.Ру
Все новости А.Ру