398 6

Український ШІ "Сяйво" тренуватимуть на даних Укрдержархіву – це обсяг понад 70 тисяч книжок

Український ШІ "Сяйво" тренуватимуть на даних Укрдержархіву

Національну велику мовну модель (LLM) "Сяйво" тренуватимуть на унікальних текстах: Державна архівна служба України (Укрдержархів) передала 10 терабайтів даних.

Про це повідомив в.о. міністра цифрової трансформації Олександр Борняков.

"Створюємо національну велику мовну модель, яка розумітиме український контекст, історію та діалекти. Для її навчання збираємо унікальні дані, які раніше були недоступні для тренування ШІ", – зазначив Борняков.

На чому навчатимуть ШІ

За словами Борнякова, до процесу вже долучилися понад 50 організацій, а один із найбільших масивів надав Укрдержархів – 10 терабайтів інформації, що дорівнює 70 тис. книжок.

Борняков наголосив, що це перший кейс, коли архіви діляться своїми фондами для розвитку цифрових сервісів в Україні. 

При цьому вже зараз Україна належить до світових лідерів з оцифрування архівів, і до кінця 2026 року кількість наявних цифрових копій виросте зі 150 млн до понад 200 млн, які можуть бути використані для тренування національної LLM.

Борняков також запросив інституції та бізнес долучитися до створення першого українського ШІ.

Що відомо про національний ШІ

Як повідомлялося, наприкінці березня понад 136 тис. українців долучилися до голосування за назву першої національної великої мовної моделі. Переможцем обрали назву "Сяйво".

У грудні стало відомо, що Мінцифри планує навчати українську велику мовну модель на основі open-source-моделі Gemma від Google.

У березні 2026 року Україна почала співпрацювати з міжнародною компанією Beyond PL, яка спеціалізується на інфраструктурі для штучного інтелекту та є партнером компанії Nvidia. Компанія надасть обчислювальні потужності (GPU) для тренування моделей, на яких працюватимуть державні ШІ-продукти.

Коментувати
Сортувати:
Ого, всю историю КП/ᛋᛋ выучит
показати весь коментар
12.04.2026 15:27 Відповісти
10 терабайтів інформації, що дорівнює 70 тис. книжок
******* в гігабайтах.
10000/70000 = 0.142 гігабайти на книгу.
142 Мб на книгу.
Це можливо лише за однієї умови: високоякісні скани.
У цьому випадку обсяг інформації не дорівнює обсягу текстів. Абсолютна більшість її - це власне графічне зображення сторінок.
70 тисяч книжок у вигляді чистих текстів - це декілька сотень мегабайтів, без стискання.
І взагалі - це дуже мало.

Від ШІ:
GPT-3.5 (Базова версія ChatGPT)
Обсяг даних: Модель тренувалася на наборі даних розміром близько 45 ТБ чистого тексту. Після фільтрації та очищення для навчання було використано близько 570 ГБ даних.
показати весь коментар
12.04.2026 16:09 Відповісти
А є ще в якійсь країні національний ШІ? Чи це чергове українське ноу-хау по розпилу?
показати весь коментар
12.04.2026 16:55 Відповісти
додаток до ЧумацкогоШляху)
показати весь коментар
12.04.2026 19:02 Відповісти
єто много??? мурзилку оцыфруйте с Лизой и сканвордами....
показати весь коментар
12.04.2026 19:01 Відповісти
А можна було назвати той Ші, не так, як відомий фільм жахів?
показати весь коментар
12.04.2026 21:38 Відповісти