USD
65.52 
EUR
71.24 
Например, ДТП

Свежие вакансии и резюме
в разделе «Работа»



Курсы валют в Астрахани
Обновление каждые 5 минут | Обновить

* Информация о курсах валют поступает с официальных сайтов и от сотрудников банков. Более актуальную информацию узнавайте непосредственно в отделениях банков.
Опрос
Нравится ли Вам жить в Астрахани?
Архив опросов

Сбер выпустил открытые токенизаторы — базовые компоненты для создания моделей генерации изображений и видео

21 апреля 2026 года, 17:31
145
Изменить шрифт
Сбер выпустил открытые токенизаторы — базовые компоненты для создания моделей генерации изображений и видео
Решение позволяет обучать модели генерации видео с нуля в разы быстрее и дешевле Команда Kandinsky выложила в открытый доступ KVAE-2.0 — семейство токенизаторов для диффузионных моделей генерации изображений и видео. Это базовые компоненты для создания современных моделей искусственного интеллекта, которые умеют генерировать картинки и ролики. С новым решением можно сжимать видео до четырёх раз сильнее по сравнению с предыдущей версией, при этом качество восстановления изображения становится только лучше. Для разработчиков и исследователей это означает, что обучение диффузионных моделей ускоряется на порядок, сами ИИ-решения работают качественнее, а требования к вычислительной инфраструктуре снижаются. По ключевым метрикам качества KVAE-2.0опережает аналоги от Tencent и Alibaba — одни из крупнейших игроков в генеративном ИИ. Решение распространяется под открытой лицензией MIT, его можно использовать в исследовательских задачах и коммерческих проектах. Денис Димитров, руководитель проекта Kandinsky, управляющий директор по исследованию данных Сбера: «С KVAE-2.0 качественная видеогенерация стала доступнее для всех: стартапов, университетов, независимых разработчиков. Решение позволяет обучать модели генерации видео с нуля в разы быстрее и дешевле, не зависеть от зарубежных токенизаторов, достигая при этом лучших результатов по качеству. Это открывает новые сценарии — от генерации рекламных роликов с точными логотипами и текстом до учебных материалов с чёткими визуальными деталями. Все модели линейки — в открытом доступе. Это даёт инженерам и исследователям по всему миру возможность использовать их в своих разработках и стимулирует рост открытой экосистемы отечественных технологий». Токенизаторы преобразуют изображения и видео в компактный числовой код (так называемые латентные представления), с которым работают генеративные модели, такие как Kandinsky. От структуры этого представления напрямую зависят вычислительные затраты на обучение генеративной модели и её итоговое качество. Ключевое преимущество KVAE-2.0 — в фокусе на создании семантически устойчивых представлений — специальных кодов, точно и стабильно отражающих смысл изображения. Они лучше сохраняют значимые элементы сцены, такие как текст, лица и структурные объекты. Это критично для работы основной генеративной модели в прикладных сценариях — от генерации рекламных материалов до образовательного контента. Модели KVAE-2.0 дополнительно обучили работе с русским текстом в кадре, в этих сценариях их качество значительно выше аналогов.


Источник: Астрахань.Ру
Ctrl+Enter Заметили ошибку? Выделите её и нажмите Ctrl+Enter


Добавить комментарий
Добавляя комментарий, я принимаю Правила комментирования.
Обратите внимание, что в комментариях в том числе запрещаются:
- нецензурная лексика (в любом виде);
- прямое и косвенное разжигание межнациональной и иной розни;
- оскорбления, вульгарные и непристойные реплики;
- общение не по теме, спам.



Архив новостей раздела
«Наука и техника»

Пн Вт Ср Чт Пт Сб Вс
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30


Новости компаний
Все новости компаний


Новые комментарии


Новости А.Ру
Все новости А.Ру