Blic
Novi alat za veštačku inteligenciju kompanije Google, pod nazivom „Whisk,“ omogućava korisnicima da pošalju fotografije i dobiju kombinovanu, AI-generisanu sliku, čak i bez unosa teksta kako bi precizirali šta žele.
Korisnici mogu da pošalju slike koje prikazuju subjekte, okruženje i stil, a zatim Whisk sve spaja u jednu sliku.
Prema Google-u, Whisk je „kreativni alat“ za brzu inspiraciju, a ne „tradicionalni uređivač slika.“ U suštini, Whisk je osmišljen kao zabavna AI funkcija, a ne kao alat za profesionalni i precizno dorađeni rad.
Velike tehnološke kompanije, poput Google-a i OpenAI-ja, utrkuju se da plasiraju proizvode za krajnje korisnike koji pokazuju potencijal nove tehnologije, iako kritičari upozoravaju da nedostatak ograničenja u razvoju AI-ja može predstavljati opasnost za čovečanstvo.
Od kada je OpenAI lansirao svoj alat za kreiranje slika iz teksta, DALL-E, 2021. godine, koncept AI-generisane umetnosti preplavio je društvene mreže i postao fokus potrošačkih proizvoda. Google-ov Whisk funkcioniše kao generator slika iz slika, nadovezujući se na popularni koncept generisanja slika iz teksta.
Korisnici Whisk-a mogu „remiksovati“ finalnu sliku podešavanjem unosa i kombinovanjem kategorija kako bi kreirali različite slike, poput plišanih igračaka, emajliranih bedževa ili nalepnica. Ako žele, mogu dodati tekst za preciznije detalje, ali to nije obavezno za kreiranje slike.
„Whisk je dizajniran da korisnicima omogući da remiksuju subjekat, scenu i stil na nove i kreativne načine, pružajući brzu vizuelnu eksploraciju umesto savršenih piksel-po-piksel izmena,“ izjavio je Tomas Iljic, direktor za upravljanje proizvodima u Google Labs-u.
Whisk je razvijen na osnovu generativnog AI sistema koji je osmislio DeepMind, laboratorija za veštačku inteligenciju koju je Google kupio 2014. godine.
Alat koristi Gemini, Google-ovu osnovnu AI platformu predstavljenu u decembru 2023. godine, u kombinaciji sa Imagen 3, najnovijim generatorom slika iz teksta koji je DeepMind lansirao u decembru. Kada korisnici otpreme slike, Gemini generiše opis koji se zatim prosleđuje Imagen 3. Ovaj proces hvata „suštinu“ subjekta umesto tačne replike, što omogućava remiksovanje finalne slike, ali i dovodi do odstupanja od originalnog unosa.
Na primer, generisana slika može imati drugačiju visinu, frizuru ili boju kože od originalne fotografije, navodi Google.
Kada je Google prvi put predstavio Gemini-jev generator slika iz teksta u februaru, naišao je na kritike zbog istorijski netačnih prikaza u kreiranim slikama.
Whisk je trenutno dostupan kao veb-aplikacija putem Google Labs-a za korisnike u SAD-u i nalazi se u ranoj fazi razvoja, navela je kompanija.
U međuvremenu, OpenAI je nedavno lansirao generator video sadržaja iz teksta pod nazivom Sora, čime se dodatno ističe konkurencija za AI proizvode za potrošače.
Dan Ajvs, direktor i analitičar u Wedbush Securities, izjavio je za CNN da je Whisk još jedan trenutak za Google da „pokazuje svoje mišiće“ u trci za dominaciju u AI tehnologijama.
„DeepMind je ključni adut za Google,“ rekao je Ajvs, ističući da su AI proizvodi deo Google-ovog „blaga“ inovacija za 2025. godinu, koje uključuje i novi Android operativni sistem razvijen u saradnji sa Samsungom i Qualcomm-om.