912 13

Український ШІ "Сяйво" тренуватимуть на даних Укрдержархіву – це обсяг понад 70 тисяч книжок

Український ШІ "Сяйво" тренуватимуть на даних Укрдержархіву

Національну велику мовну модель (LLM) "Сяйво" тренуватимуть на унікальних текстах: Державна архівна служба України (Укрдержархів) передала 10 терабайтів даних.

Про це повідомив в.о. міністра цифрової трансформації Олександр Борняков.

"Створюємо національну велику мовну модель, яка розумітиме український контекст, історію та діалекти. Для її навчання збираємо унікальні дані, які раніше були недоступні для тренування ШІ", – зазначив Борняков.

На чому навчатимуть ШІ

За словами Борнякова, до процесу вже долучилися понад 50 організацій, а один із найбільших масивів надав Укрдержархів – 10 терабайтів інформації, що дорівнює 70 тис. книжок.

Борняков наголосив, що це перший кейс, коли архіви діляться своїми фондами для розвитку цифрових сервісів в Україні. 

При цьому вже зараз Україна належить до світових лідерів з оцифрування архівів, і до кінця 2026 року кількість наявних цифрових копій виросте зі 150 млн до понад 200 млн, які можуть бути використані для тренування національної LLM.

Борняков також запросив інституції та бізнес долучитися до створення першого українського ШІ.

Що відомо про національний ШІ

Як повідомлялося, наприкінці березня понад 136 тис. українців долучилися до голосування за назву першої національної великої мовної моделі. Переможцем обрали назву "Сяйво".

У грудні стало відомо, що Мінцифри планує навчати українську велику мовну модель на основі open-source-моделі Gemma від Google.

У березні 2026 року Україна почала співпрацювати з міжнародною компанією Beyond PL, яка спеціалізується на інфраструктурі для штучного інтелекту та є партнером компанії Nvidia. Компанія надасть обчислювальні потужності (GPU) для тренування моделей, на яких працюватимуть державні ШІ-продукти.

Топ коментарі
+2
Ого, всю историю КП/ᛋᛋ выучит
показати весь коментар
12.04.2026 15:27 Відповісти
+1
10 терабайтів інформації, що дорівнює 70 тис. книжок
******* в гігабайтах.
10000/70000 = 0.142 гігабайти на книгу.
142 Мб на книгу.
Це можливо лише за однієї умови: високоякісні скани.
У цьому випадку обсяг інформації не дорівнює обсягу текстів. Абсолютна більшість її - це власне графічне зображення сторінок.
70 тисяч книжок у вигляді чистих текстів - це декілька сотень мегабайтів, без стискання.
І взагалі - це дуже мало.

Від ШІ:
GPT-3.5 (Базова версія ChatGPT)
Обсяг даних: Модель тренувалася на наборі даних розміром близько 45 ТБ чистого тексту. Після фільтрації та очищення для навчання було використано близько 570 ГБ даних.
показати весь коментар
12.04.2026 16:09 Відповісти
+1
А є ще в якійсь країні національний ШІ? Чи це чергове українське ноу-хау по розпилу?
показати весь коментар
12.04.2026 16:55 Відповісти
Коментувати
Сортувати:
Ого, всю историю КП/ᛋᛋ выучит
показати весь коментар
12.04.2026 15:27 Відповісти
10 терабайтів інформації, що дорівнює 70 тис. книжок
******* в гігабайтах.
10000/70000 = 0.142 гігабайти на книгу.
142 Мб на книгу.
Це можливо лише за однієї умови: високоякісні скани.
У цьому випадку обсяг інформації не дорівнює обсягу текстів. Абсолютна більшість її - це власне графічне зображення сторінок.
70 тисяч книжок у вигляді чистих текстів - це декілька сотень мегабайтів, без стискання.
І взагалі - це дуже мало.

Від ШІ:
GPT-3.5 (Базова версія ChatGPT)
Обсяг даних: Модель тренувалася на наборі даних розміром близько 45 ТБ чистого тексту. Після фільтрації та очищення для навчання було використано близько 570 ГБ даних.
показати весь коментар
12.04.2026 16:09 Відповісти
А є ще в якійсь країні національний ШІ? Чи це чергове українське ноу-хау по розпилу?
показати весь коментар
12.04.2026 16:55 Відповісти
додаток до ЧумацкогоШляху)
показати весь коментар
12.04.2026 19:02 Відповісти
єто много??? мурзилку оцыфруйте с Лизой и сканвордами....
показати весь коментар
12.04.2026 19:01 Відповісти
А можна було назвати той Ші, не так, як відомий фільм жахів?
показати весь коментар
12.04.2026 21:38 Відповісти
показати весь коментар
13.04.2026 08:47 Відповісти
интереснее было бы узнать, сколько денег это будет стоить налогоплатильщикам. Тренировка моделей -- это очень дорогое удовольствие и стоит миллиарды долларов.
Обычно этим занимаются глобальные корпорации с привлечением денег инвесторов ...
показати весь коментар
13.04.2026 09:47 Відповісти
Це коштує декілька мільйонів а не сотні
показати весь коментар
13.04.2026 13:12 Відповісти
Например, GPT-4 обошлась OpenAI в $78,4 млн,
Gemini Ultra от Google стоила целый $191 млн

Заметьте что эти модели тренировали не с нуля, т.е. была уже базовая модель... на которую в свое время были потрачены ресурсы.
показати весь коментар
13.04.2026 15:34 Відповісти
так це виключно український сегмент, це коштує набагато менше. Вартісь навчання росте екпонентційно, тому дуже великі моделі коштують на порядки більше.
показати весь коментар
14.04.2026 11:38 Відповісти
ну то есть за бюджетные деньги сделают заведомо слабую модель, типа украинский Т9... Деньги освоят и на этом все закончится.
показати весь коментар
14.04.2026 12:32 Відповісти
Ви спеціаліст в машинному навчанні?
показати весь коментар
14.04.2026 20:24 Відповісти