12.04.26 11:52 912 13

Український ШІ "Сяйво" тренуватимуть на даних Укрдержархіву – це обсяг понад 70 тисяч книжок

Національну велику мовну модель (LLM) "Сяйво" тренуватимуть на унікальних текстах: Державна архівна служба України (Укрдержархів) передала 10 терабайтів даних.

Про це повідомив в.о. міністра цифрової трансформації Олександр Борняков.

"Створюємо національну велику мовну модель, яка розумітиме український контекст, історію та діалекти. Для її навчання збираємо унікальні дані, які раніше були недоступні для тренування ШІ", – зазначив Борняков.

На чому навчатимуть ШІ

За словами Борнякова, до процесу вже долучилися понад 50 організацій, а один із найбільших масивів надав Укрдержархів – 10 терабайтів інформації, що дорівнює 70 тис. книжок.

Борняков наголосив, що це перший кейс, коли архіви діляться своїми фондами для розвитку цифрових сервісів в Україні.

При цьому вже зараз Україна належить до світових лідерів з оцифрування архівів, і до кінця 2026 року кількість наявних цифрових копій виросте зі 150 млн до понад 200 млн, які можуть бути використані для тренування національної LLM.

Борняков також запросив інституції та бізнес долучитися до створення першого українського ШІ.

Що відомо про національний ШІ

Як повідомлялося, наприкінці березня понад 136 тис. українців долучилися до голосування за назву першої національної великої мовної моделі. Переможцем обрали назву "Сяйво".

У грудні стало відомо, що Мінцифри планує навчати українську велику мовну модель на основі open-source-моделі Gemma від Google.

У березні 2026 року Україна почала співпрацювати з міжнародною компанією Beyond PL, яка спеціалізується на інфраструктурі для штучного інтелекту та є партнером компанії Nvidia. Компанія надасть обчислювальні потужності (GPU) для тренування моделей, на яких працюватимуть державні ШІ-продукти.

Автор: Галина Ялівець

Топ коментарі

+2 Nikolas Nidvoras

Ого, всю историю КП/ᛋᛋ выучит

показати весь коментар

12.04.2026 15:27 Відповісти Посилання

+1 Деніс Войцеховський

10 терабайтів інформації, що дорівнює 70 тис. книжок
******* в гігабайтах.
10000/70000 = 0.142 гігабайти на книгу.
142 Мб на книгу.
Це можливо лише за однієї умови: високоякісні скани.
У цьому випадку обсяг інформації не дорівнює обсягу текстів. Абсолютна більшість її - це власне графічне зображення сторінок.
70 тисяч книжок у вигляді чистих текстів - це декілька сотень мегабайтів, без стискання.
І взагалі - це дуже мало.

Від ШІ:
GPT-3.5 (Базова версія ChatGPT)
Обсяг даних: Модель тренувалася на наборі даних розміром близько 45 ТБ чистого тексту. Після фільтрації та очищення для навчання було використано близько 570 ГБ даних.

показати весь коментар

12.04.2026 16:09 Відповісти Посилання

+1 White Lion

А є ще в якійсь країні національний ШІ? Чи це чергове українське ноу-хау по розпилу?

показати весь коментар

12.04.2026 16:55 Відповісти Посилання

Коментувати

Сортувати:

Правила форума Рада форумчан

Nikolas Nidvoras

Ого, всю историю КП/ᛋᛋ выучит

показати весь коментар

12.04.2026 15:27 Відповісти Мені подобається 2 Посилання

Деніс Войцеховський

показати весь коментар

12.04.2026 16:09 Відповісти Мені подобається 1 Посилання

White Lion

А є ще в якійсь країні національний ШІ? Чи це чергове українське ноу-хау по розпилу?

показати весь коментар

12.04.2026 16:55 Відповісти Мені подобається 1 Посилання

Bander UA

додаток до ЧумацкогоШляху)

показати весь коментар

12.04.2026 19:02 Відповісти Мені подобається Посилання

Bander UA

єто много??? мурзилку оцыфруйте с Лизой и сканвордами....

показати весь коментар

12.04.2026 19:01 Відповісти Мені подобається Посилання

Langerhans1869

А можна було назвати той Ші, не так, як відомий фільм жахів?

показати весь коментар

12.04.2026 21:38 Відповісти Мені подобається Посилання

Hrysha Hlyba

показати весь коментар

13.04.2026 08:47 Відповісти Мені подобається Посилання

Андрей Круп

интереснее было бы узнать, сколько денег это будет стоить налогоплатильщикам. Тренировка моделей -- это очень дорогое удовольствие и стоит миллиарды долларов.
Обычно этим занимаются глобальные корпорации с привлечением денег инвесторов ...

показати весь коментар

13.04.2026 09:47 Відповісти Мені подобається Посилання

Хитрый_план

Це коштує декілька мільйонів а не сотні

показати весь коментар

13.04.2026 13:12 Відповісти Мені подобається Посилання

Андрей Круп

Например, GPT-4 обошлась OpenAI в $78,4 млн,
Gemini Ultra от Google стоила целый $191 млн

Заметьте что эти модели тренировали не с нуля, т.е. была уже базовая модель... на которую в свое время были потрачены ресурсы.

показати весь коментар

13.04.2026 15:34 Відповісти Мені подобається Посилання

Хитрый_план

так це виключно український сегмент, це коштує набагато менше. Вартісь навчання росте екпонентційно, тому дуже великі моделі коштують на порядки більше.

показати весь коментар

14.04.2026 11:38 Відповісти Мені подобається Посилання

Андрей Круп

ну то есть за бюджетные деньги сделают заведомо слабую модель, типа украинский Т9... Деньги освоят и на этом все закончится.

показати весь коментар

14.04.2026 12:32 Відповісти Мені подобається Посилання

Хитрый_план

Ви спеціаліст в машинному навчанні?

показати весь коментар

14.04.2026 20:24 Відповісти Мені подобається Посилання