„Neurotechnology“ paskelbtas duomenų rinkinys leis tobulinti dirbtinio intelekto įrankius lietuvių kalba

Dirbtinio intelekto (DI) ir biometrinių technologijų kūrėja „Neurotechnology“ paskelbė apie laisvai prieinamą duomenų rinkinį, kuris leis tobulinti jau esamus ir kurti visiškai naujus didžiuosius kalbos modelius, kurie geriau supras lietuvių kalbą. Tai yra vienas iš pirmųjų tokio pobūdžio atvirų duomenų rinkinių, skirtų lietuvių kalbos specifikai.

Sukurti duomenų rinkinį paskatino DI sprendimų poreikis lietuvių kalba

Dirbtinio intelekto sprendimai šiuo metu geriausiai veikia anglų kalba, o jų pritaikymas sklandžiai nacionalinei kalbai – vis dar yra iššūkis. „Lietuviams aktualūs dirbtinio intelekto įrankiai, kuriais būtų galima naudotis gimtąja kalba. Matydami poreikį, surinkome duomenis ir paskelbėme juos atviroje prieigoje. Tokie duomenų rinkiniai paskatins kokybiškesnį didžiųjų kalbos modelių apmokymą nacionaline kalba“ – pasakoja „Neurotechnology“ dirbtinio intelekto sprendimų vystytojas Artūras Nakvosas.

„Neurotechnology“ paskelbtą duomenų rinkinį sudaro 13,848 klausimų-atsakymų poros lietuvių kalba, kuriose daugiausia dėmesio skiriama temoms, susijusioms su Lietuvos kultūra, istorija ir žmonėmis. Duomenų rinkinys parengtas pasitelkiant interneto enciklopedijos „Vikipedija“ straipsnius lietuvių kalba ir ateityje bus dar pildomas.

Rinkinys yra laisvai prieinamas internete adresu: https://huggingface.co/datasets/neurotechnology/lithuanian-qa-v1

„Neurotechnology“ siekia prisidėti prie atvirųjų duomenų sklaidos

Atsižvelgiant į tai, kad visiems laisvai prieinami duomenys skatina tiek mokslo, tiek technologijų vystymo pažangą, įmonė siekia prisidėti prie atvirųjų duomenų sklaidos: „Paskelbėme šį duomenų rinkinį atviroje prieigoje tikėdamiesi, kad jis bus naudingas ir kitose įmonėse dirbantiems specialistams bei palengvins didžiųjų kalbos modelių derinimą su lietuvių kalbos klausimais“ – teigia Artūras Nakvosas.

Anot įmonės „Neurotechnology“ specialisto, duomenų rinkinys padeda užpildyti didelę duomenų, reikalingų apmokymui lietuvių kalba, spragą, skatina vietos technologinę pažangą ir skaitmeninius lingvistikos projektus.

Natūralios kalbos apdorojimu paremti sprendimai

Įmonė „Neurotechnology“ plėtoja įvairius didžiaisiais kalbos modeliais paremtus dirbtinio intelekto sprendimus. Vienas jų – pokalbių robotas „StockGeist Financial Chatbot“, kuris atsako į pateiktas užklausas apie finansų rinką ir kriptovaliutų tendencijas. Pokalbių robotas taip pat visiems laisvai prieinamas internete adresu: chat.stockgeist.ai

Savo internetinėje svetainėje įmonė taip pat pristatė savo sukurtą pokalbių asistentą Robertą, kuris naudojasi visa svetainėje esančia bei papildoma informacija ir sugeba teikti išsamius atsakymus į vartotojų užklausas. Robertas yra sukurtas siekiant padėti lankytojams lengviau naviguoti per įmonės siūlomų produktų ir paslaugų spektrą, suteikiant jiems greitą ir tikslų informacijos srautą.

Įmonė taip pat aktyviai dirba prie didžiųjų kalbos modelių lietuvių kalba, apie kuriuos planuoja paskelbti artimiausiu metu.

Apie įmonę „Neurotechnology“

„Neurotechnology“ yra dirbtinio intelekto ir biometrikos algoritmų bei programinės įrangos kūrėja, įsteigta 1990 metais Vilniuje. 2023-ųjų pabaigoje buvo tituluota „Lietuvos metų dirbtinio intelekto (AI) įmone“. „Neurotechnology“ sukurti algoritmai pasiekė aukščiausius rezultatus pasauliniuose technologijų vertinimuose ir konkursuose. Pasitelkusi mokslinius tyrimus ir ilgametę patirtį, įmonė nuolat tobulina savo produktus ir toliau vysto inovatyvias idėjas.

Pranešimą paskelbė: Aurimas Žukauskas, Integrity PR, UAB