Українську мовну модель тренуватимуть на ШІ від Google, ‒ Мінцифри

Міністерство цифрової трансформації України та "Київстар" планують навчати українську велику мовну модель на основі штучного інтелекту Gemma від Google.
Про це повідомляє пресслужба Мінцифри.
"Ми будуємо українську LLM на базі загальнодоступної open-source-моделі. Головне завдання в розробці ‒ попередньо навчити її на наших унікальних даних. При виборі орієнтувалися на те, наскільки якісно модель вже опрацьовує тексти українською мовою та її контрольованість під час навчання. Це допоможе мінімізувати лінгвістичні та етичні ризики в нашій LLM", ‒ пояснили у відомстві.
Зокрема передбачено:
- вдосконалення українського токенайзера для покращення роботи моделі з українською, зменшення помилок при створенні текстів та оптимізації обчислювальних ресурсів;
- донавчання моделі на унікальних українських текстах, які зараз збирають експерти;
- створення бенчмарків (тестів) для точнішого налаштування моделі для подальшого використання.
Ключові переваги Gemma:
- Оптимальний баланс продуктивності та ресурсів — висока якість при помірних інфраструктурних вимогах; одна з найкращих відкритих моделей за співвідношенням розмір/якість.
- Багатомовна підтримка ‒ українська вже включена в модель, легко адаптується через донавчання.
- Мультимодальність ‒ обробка та аналіз не лише тексту, а й зображень.
- Розширений токенайзер ‒ точна та ефективна обробка текстів, довге контекстне вікно (128 тис. токенів).
- Гнучкі розміри моделі ‒ дозволяють обирати оптимальний варіант під конкретну задачу.
- Успішний досвід ‒ використання Gemma для створення українськомовних LLM, зокрема Lapa LLM та MamayLM.
Як повідомлялося, компанія Google з 28 жовтня відкрила реєстрацію на безкоштовний практичний курс "ШІ для бізнесу", призначений для тих, хто прагне ефективно та безпечно використовувати інструменти штучного інтелекту на практиці.
Учасники матимуть доступ до навчальних модулів із короткими відеоуроками та воркбуками, онлайн-воркшопів та живих зустрічей з експертами, спільноти українських підприємців, менторської підтримки для найактивніших, сертифікату за успішне проходження курсу та подарунків від Google.
"американська".
Напевно це просто https://huggingface.co/google/gemma-3-27b-it
Є моделі в інших країнах:
США - GPT-5, Claude 3.x / 4.x , Gemini and Gemma (яку будуть використовувати), LLaMA 2/3/4, Phi, Grok +++
Китай - DeepSeek, Qwen ++
Франція - Mistral
Германія - Luminous
Швейцарія - Apertus
Араби - Falcon
І так далі. Країн 15 мають власну LLM.
ВЛАСНУ ЛЛМ, З НУЛЯ !!!!
І якщо кажуть "українська ЛЛМ", то тупо БРЕШУТЬ, це не розширити токенайзер українськими токенами (взагалі ******* ідея, не користуватися original а розширювати, дебіли) та запустити SFT, DPO, RLHF, це не "україньска модель", це так БАВЛЯТЬСЯ ШКОЛЯРІ НА ВИХІДНИХ.
Тобто єдине що треба - данні. Ок. Збір данних, парсінг, закриті БД, все це обробити це пару годин.
І все. Потім повісять адаптери тіпа LoRA, що б модель не казала що Федоров пиляє бабло, а зеленський п*с і ворюга....
Це коштує трохи ресурсів на навіть одну H100 + 3 ящика пива 2 блока цигарок спеціалісту.
Я як спеціаліст, натреную "українську LLM", що б вона в кожному реченні згадувала що Федоров пиляє бабло, а Зеленський п*с. На цих вихідних. Навіть безкоштовно.