Ideogram 4: atvirojo kodo DI vaizdo generatorius, kuris pirmąkart lenkia mokamus
·

Yra du tipai DI vaizdo generavimo įrankių: tie, kuriuos naudoji internetu mokėdamas prenumeratą, ir tie, kuriuos gali parsisiųsti, modifikuoti, ir paleisti savo kompiuteryje.
Antrojo tipo įrankiai paprastai atsilieka, dažnai nemokamas „atvirojo kodo” alternatyvas gali pastebėti iš tolo: pikseliuoti kraštai, neteisingai rašomi tekstai, žemo lygio detalės. Atsilieka ir tiek.
Todėl birželio 4 d. paskelbtą Ideogram 4 paleidimą pastebėjau iš karto. Nes šį kartą atvirojo kodo modelis pirmauja.
KAS YRA IDEOGRAM 4?
Ideogram 4, tai 9,3 mlrd. parametrų vaizdo generavimo modelis, kurį galima parsisiųsti ir paleisti savo kompiuteryje. Jis sukurtas specialiai dizainui: plakatams, reklamai, socialinių tinklų grafikoms, prekių ženklų medžiagoms.
Techninė specifikacija: vieno srauto Diffusion Transformer architektūra, natūrali 2K raiška (2048 pikseliai), ir, tai yra detalė, kuri prievartė mano dėmesį, struktūrizuotų JSON promptų sistema. Vietoj to, kad aprašytum vaizdą tekstu, galima nurodyti konkrečias koordinates, spalvų paletes, teksto išdėstymą.
Tai panašu į skirtumą tarp pasakymo „nupiešk man naują svetainę” ir paduoti architektui tikslų planų brėžinį.
KODĖL TAI SVARBU?
Pirma, veikimas. DesignArena lyderių lentelėje Ideogram 4 užima pirmą vietą tarp visų atvirojo kodo modelių ir antrą vietą bendrojoje lentoje, praleidžia tik OpenAI ir Google uždaro kodo modeliai.
Antra, tekstas. Tekstas vaizduose visada buvo DI Achilo kulnas. Bandai sugeneruoti plakatą su „SALE 50%”, o gauni kažkokią raidžių sriubą. Ideogram 4 X-Omni anglų kalbos OCR teste pelnė 0,97 balo, tai praktiškai tobulas tekstas vaizduose. Lyginant su populiariausiais vaizdo DI įrankiais, tai didelis žingsnis pirmyn.
Trečia, skaidrumo kanalas (alpha channel). Modelis generuoja vaizdus su natūraliu fono pašalinimu iš karto, nereikia atskiro įrankio fonam iškirpti. Tai sutaupo žingsnius nuo „sugeneravau” iki „panaudojau”.
JSON PROMPTAI: REVOLIUCIJA AR KOMPLIKACIJA?
Čia yra priešprieša, apie kurią verta pagalvoti.
Tradicinis tekstinis promptas: „Minimalistinis kavos puodelio plakatas su raudona foną ir balta Helvetica šrifto žodžiu COFFEE viršuje.”
JSON promptas Ideogram 4 stiliumi:
{
"style": "minimalist poster",
"colors": ["#FF0000", "#FFFFFF"],
"elements": [
{"type": "text", "content": "COFFEE", "position": [0, 400, 200, 600], "font_weight": "bold"}
]
}
Pirmasis variantas greičiau parašyti. Antrasis, tiksliau kontroliuojamas. Jeigu esi dizaineris ar kūrėjas, kuris nori atkartojamų rezultatų, JSON yra neįkainojamas. Jeigu esi pradedantysis, norintis paprastos nuotraukos, gali likti prie teksto.
Atvirojo kodo DI modeliai paprastai turi tokią problemą: jie yra galingi, bet reikalauja techninių žinių. Ideogram 4 bando sumažinti šį barjerą su struktūrizuotais promptais, kurie yra mokomesni nei grynasis tekstas.
TECHNINIAI REIKALAVIMAI
Paleisti Ideogram 4 reikia vaizdo plokštės su bent 24 GB atminties (su NF4 kvantizacija). Tai reiškia NVIDIA RTX 3090, 4090, arba profesionalaus lygio GPU’ą.
Vidutiniam namų kompiuteriui tai gali būti per daug. Bet:
- Debesy skaičiavimams (Runpod, Vast.ai) tokio lygio GPU nuoma kainuoja centus per valandą.
- ComfyUI palaikymas reiškia, kad modelį gali integruoti į jau esamus DI darbo srautus.
- Fine-tuning galimybė leidžia pritaikyti modelį savo stilių bibliotekoms.
Įdomu, kad NVIDIA šiemet pristatė RTX Spark lustą, specialiai sukurtą lokaliam DI paleidimui namų kompiuteriuose. Ideogram 4 tipo modeliai tik sustiprina šios aparatūros paklausą.
LICENCIJA: NEMOKAMAS, BET SU SĄLYGA
Čia yra detalė, kurią reikia suprasti prieš planuojant komercinį naudojimą.
Inference kodas, Apache 2.0 (visiškai atvirojo kodo). Modelio svoriai, Ideogram Non-Commercial Model Agreement. Tai reiškia: tyrimams, eksperimentams, nekomerciniam naudojimui, nemokamas. Komerciniam naudojimui, reikia atskiros licencijos su Ideogram.
Tai tarpinė pozicija tarp visiškai atvirojo kodo (kaip LLaMA) ir visiškai uždaro (kaip Midjourney). Modelį gali atsisiųsti, išnagrinėti, pritaikyti, bet jeigu nori naudoti savo produktuose, reikia tartis dėl sąlygų.
KAS TAI REIŠKIA KŪRYBINGAM LIETUVIUI?
Jeigu esi dizaineris, marketingo specialistas, ar turinys kūrėjas, Ideogram 4 atidaro galimybę, kurios iki šiol nebuvo: lokalus, privatūs, kontroliuojamas DI vaizdo generavimas be prenumeratos.
Nereikia siųsti savo idėjų į Midjourney serverius. Nereikia mokėti $10-$50 per mėnesį. Nereikia bijoti, kad tavo nepatvirtinto kliento logotipas bus naudojamas treniravimui.
Galima paleisti savo mašinoje arba nuomotame serveryje, generuoti, ko reikia, ir turėti visą procesą po savo kontrole.
Tai nėra revoliucija, kurią pajus kiekvienas. Bet tiems, kam duomenų privatumas ir darbo eigos kontrolė yra svarbu, tai labai reikšmingas žingsnis.
IŠVADA: BARJERAS KRITO
Kažkada geriausią vaizdo DI naudodavo tik tie, kas mokėjo. Ideogram 4 parodo, kad šis barjeras krito.
9,3 mlrd. parametrų. Antras vietas bendrojoje lentoje. Pirmas vietas tarp atvirojo kodo. Natūrali 2K raiška. Tekstas, kurį galima perskaityti. Skaidrumo kanalas be papildomų žingsnių.
Ir visa tai, parsisiunčiama.
Tai ne tobulas įrankis kiekvienam, kas nori greitai sugeneruoti paveiksliuką. Bet tiems, kas kuria rimtai, naujas standartas yra nustatytas.
Šaltiniai: Ideogram 4 GitHub, i-scoop.eu


