,

Microsoft paleido 3 savo DI modelius: balsas, transkripcija ir vaizdas – viskas savo

·


Microsoft MAI Transcribe Voice Image DI modeliai

Microsoft metais mokėjo OpenAI milijardus už prieigą prie GPT modelių. Dabar gamina savus.

Ir ne vieną – tris iš karto.

3 NAUJI MODELIAI VIENU METU

Microsoft MAI (Microsoft AI) Super Intelligence komanda išleido tris modelius:

  • MAI-Transcribe-1 – kalbos į tekstą vertimas. 25 populiariausios kalbos. 2,5 karto greitesnis nei Azure Fast. Kaina: $0,36 per valandą
  • MAI-Voice-1 – balso generavimas. 60 sekundžių įrašo sugeneruoja per mažiau nei 1 sekundę ant vieno GPU. Kaina: $22 už 1 mln. simbolių
  • MAI-Image-2 – teksto į vaizdą modelis. 3-ioje vietoje Arena.ai leaderboarde tarp vaizdų modelių

KODĖL TAI SVARBU

Microsoft ilgai buvo OpenAI investuotojas ir praktiškai priklausomas nuo GPT modelių. Copilot veikė ant GPT. Bing irgi. Azure AI – tas pats.

Dabar Microsoft turi savo modelius, kurie jau veikia Copilot, Bing, PowerPoint ir Azure Speech. Tie patys modeliai, kuriuos sk atalog neparduoda klientams.

Tai yra didelis žingsnis atsiriboti nuo OpenAI. Nes kai OpenAI praranda 14 mlrd. per metus, Microsoft nenori būti vie nu lengvu taikin iu.

60 SEKUNDŽIŲ BALSAS PER 1 SEKUNDĘ

Atkreipk dėmesį į MAI-Voice-1 skaičiu. 60 sekundžių balso įrašo sugeneruoja per mažiau nei 1 sekundę.

Tai reiškia, kad realaus laiko dubliavimas, automatiniai pranešimai, balso asistentai – visi jie tampa ekonomiškai pagrįsti. Kai generavimas greitesnis už klausymą, kainos kri tę į žemę.

KAS LAIMI IR KAS PRALAIMI

Laimi: Microsoft klientai. Daugiau pasirinkimo, mažesnės kainos.

Pralaimi: ElevenLabs, Whisper, Deepgram. Maži specializuoti startuoliai atsirado būtent ten, kur dabar Microsoft užima vietą.

DUK

Kur galiu juos naudoti?
Per Microsoft Foundry platformą arba MAI Playground (JAV).

Ar tai pakeis OpenAI Microsoft ekosistemoje?
Ne visai. OpenAI vis dar centrinis partneris. Bet priklausomybė mažėja.

Ar lietuvių kalba palaikoma?
Transcribe-1 palaiko 25 populiariausias kalbas pagal FLEURS benchmarką. Lietuvių – tikriausiai ne. Dar.

Skaitykite apie DI technologijas.