01.12.25 13:40 611 4

Українську мовну модель тренуватимуть на ШІ від Google, ‒ Мінцифри

Міністерство цифрової трансформації України та "Київстар" планують навчати українську велику мовну модель на основі штучного інтелекту Gemma від Google.

Про це повідомляє пресслужба Мінцифри.

"Ми будуємо українську LLM на базі загальнодоступної open-source-моделі. Головне завдання в розробці ‒ попередньо навчити її на наших унікальних даних. При виборі орієнтувалися на те, наскільки якісно модель вже опрацьовує тексти українською мовою та її контрольованість під час навчання. Це допоможе мінімізувати лінгвістичні та етичні ризики в нашій LLM", ‒ пояснили у відомстві.

Зокрема передбачено:

вдосконалення українського токенайзера для покращення роботи моделі з українською, зменшення помилок при створенні текстів та оптимізації обчислювальних ресурсів;
донавчання моделі на унікальних українських текстах, які зараз збирають експерти;
створення бенчмарків (тестів) для точнішого налаштування моделі для подальшого використання.

Ключові переваги Gemma:

Оптимальний баланс продуктивності та ресурсів — висока якість при помірних інфраструктурних вимогах; одна з найкращих відкритих моделей за співвідношенням розмір/якість.
Багатомовна підтримка ‒ українська вже включена в модель, легко адаптується через донавчання.
Мультимодальність ‒ обробка та аналіз не лише тексту, а й зображень.
Розширений токенайзер ‒ точна та ефективна обробка текстів, довге контекстне вікно (128 тис. токенів).
Гнучкі розміри моделі ‒ дозволяють обирати оптимальний варіант під конкретну задачу.
Успішний досвід ‒ використання Gemma для створення українськомовних LLM, зокрема Lapa LLM та MamayLM.

Як повідомлялося, компанія Google з 28 жовтня відкрила реєстрацію на безкоштовний практичний курс "ШІ для бізнесу", призначений для тих, хто прагне ефективно та безпечно використовувати інструменти штучного інтелекту на практиці.

Учасники матимуть доступ до навчальних модулів із короткими відеоуроками та воркбуками, онлайн-воркшопів та живих зустрічей з експертами, спільноти українських підприємців, менторської підтримки для найактивніших, сертифікату за успішне проходження курсу та подарунків від Google.

Автор: Валерій Білик

Google (652) штучний інтелект (519) Мінцифри (960)