12.04.26 11:52 1 001 13

Український ШІ "Сяйво" тренуватимуть на даних Укрдержархіву – це обсяг понад 70 тисяч книжок

Національну велику мовну модель (LLM) "Сяйво" тренуватимуть на унікальних текстах: Державна архівна служба України (Укрдержархів) передала 10 терабайтів даних.

Про це повідомив в.о. міністра цифрової трансформації Олександр Борняков.

"Створюємо національну велику мовну модель, яка розумітиме український контекст, історію та діалекти. Для її навчання збираємо унікальні дані, які раніше були недоступні для тренування ШІ", – зазначив Борняков.

На чому навчатимуть ШІ

За словами Борнякова, до процесу вже долучилися понад 50 організацій, а один із найбільших масивів надав Укрдержархів – 10 терабайтів інформації, що дорівнює 70 тис. книжок.

Борняков наголосив, що це перший кейс, коли архіви діляться своїми фондами для розвитку цифрових сервісів в Україні.

При цьому вже зараз Україна належить до світових лідерів з оцифрування архівів, і до кінця 2026 року кількість наявних цифрових копій виросте зі 150 млн до понад 200 млн, які можуть бути використані для тренування національної LLM.

Борняков також запросив інституції та бізнес долучитися до створення першого українського ШІ.

Що відомо про національний ШІ

Як повідомлялося, наприкінці березня понад 136 тис. українців долучилися до голосування за назву першої національної великої мовної моделі. Переможцем обрали назву "Сяйво".

У грудні стало відомо, що Мінцифри планує навчати українську велику мовну модель на основі open-source-моделі Gemma від Google.

У березні 2026 року Україна почала співпрацювати з міжнародною компанією Beyond PL, яка спеціалізується на інфраструктурі для штучного інтелекту та є партнером компанії Nvidia. Компанія надасть обчислювальні потужності (GPU) для тренування моделей, на яких працюватимуть державні ШІ-продукти.

Автор: Галина Ялівець

архів (5) інформація (157) технології (762) навчання (108) штучний інтелект (498) Мінцифри (931)

Топ коментарі

+2 Nikolas Nidvoras

Ого, всю историю КП/ᛋᛋ выучит

показати весь коментар

12.04.2026 15:27 Відповісти Посилання

+1 Деніс Войцеховський

10 терабайтів інформації, що дорівнює 70 тис. книжок
******* в гігабайтах.
10000/70000 = 0.142 гігабайти на книгу.
142 Мб на книгу.
Це можливо лише за однієї умови: високоякісні скани.
У цьому випадку обсяг інформації не дорівнює обсягу текстів. Абсолютна більшість її - це власне графічне зображення сторінок.
70 тисяч книжок у вигляді чистих текстів - це декілька сотень мегабайтів, без стискання.
І взагалі - це дуже мало.

Від ШІ:
GPT-3.5 (Базова версія ChatGPT)
Обсяг даних: Модель тренувалася на наборі даних розміром близько 45 ТБ чистого тексту. Після фільтрації та очищення для навчання було використано близько 570 ГБ даних.

показати весь коментар

12.04.2026 16:09 Відповісти Посилання

+1 White Lion

А є ще в якійсь країні національний ШІ? Чи це чергове українське ноу-хау по розпилу?

показати весь коментар

12.04.2026 16:55 Відповісти Посилання

Завантаження...

Переглядаючи наш сайт, Ви погоджуєтеся з політикою конфіденційності.

Відвідуваність
за вчора	440 849
за місяць	13 144 084

Український ШІ "Сяйво" тренуватимуть на даних Укрдержархіву – це обсяг понад 70 тисяч книжок

На чому навчатимуть ШІ

Що відомо про національний ШІ

Конвертер валют