Nowa narzędzie AI firmy Google wykorzystuje instrukcje obrazkowe zamiast słów: Google Whisk – inspiracja w jednym zdjęciu.

ADS

Nowa narzędzie AI Google wykorzystuje instrukcje obrazkowe zamiast słów.

Najnowszy produkt AI Google, „Whisk”, pozwala użytkownikom przesyłać zdjęcia, aby uzyskać połączone, wygenerowane przez AI obrazy bez wpisywania słowa.

Przed wymieszaniem zdjęć Whisk użytkownicy mogą dostarczyć obrazy tematów, ustawień i stylów.

W oficjalnym poście na blogu Google nazwał Whisk narzędziem „kreatywnym” do szybkiej inspiracji, a nie „tradycyjnym edytorem obrazów”. Whisk ma być zabawną funkcją AI, a nie narzędziem profesjonalnym.

Firmy z sektora Big Tech, takie jak Google i OpenAI, śpieszą się z dostarczeniem produktów konsumenckich, które pokazują nową, cool technologię, nawet gdy krytycy ostrzegają, że wzrost AI bez granic stanowi zagrożenie dla ludzkości.

Od momentu wprowadzenia Dall-E przez OpenAI, narzędzia do produkcji tekstu-na-obraz w 2021 roku, sztuka generowana przez AI zalewała media społecznościowe i przesiąkała produkty konsumenckie. Google Whisk to generator obraz-do-obraz, który bazuje na generatorach tekstu-do-obrazu.

Użytkownicy Whisk mogą zmieniać swoje wejścia i mieszać kategorie, aby tworzyć pluszaki, przypinki, naklejki. Użytkownicy mogą wprowadzać szczegóły za pomocą słów, ale obraz nie jest konieczny.

„Whisk został zaprojektowany, aby umożliwić użytkownikom mieszanie przedmiotu, sceny i stylu w nowe i kreatywne sposoby, oferując szybką eksplorację wizualną zamiast pixel-perfect edits”, powiedział dyrektor zarządzania produktem Google Labs Thomas Iljic.

Google zakupił DeepMind w 2014 roku i wykorzystał jego generatywną AI do stworzenia Whisk.

Whisk wykorzystuje główną usługę AI Google, Gemini, wprowadzoną w grudniu 2023 roku, oraz Imagen 3, najnowszy generator tekstu-do-obraz DeepMind.

Imagen 3 otrzymuje podpisy od Geminiego, gdy użytkownicy przesyłają zdjęcia. Aby wymieszać ostateczny obraz, technika przechwytuje „istotę” tematu, a nie dokładną reprodukcję, która może odbiegać od polecenia.

Google stwierdził w poście na blogu, że stworzony obraz może różnić się od zdjęć z polecenia pod względem wzrostu, fryzury i odcienia skóry.

Google został skrytykowany w lutym, gdy uruchomił konwerter tekstu-na-obraz Geminiego, ponieważ tworzył historycznie nieprawidłowe obrazy.

Whisk, strona internetowa Google Labs dostępna tylko w USA, jest w początkowej fazie rozwoju, ogłosiła firma.

OpenAI ujawniło Sorę, generator tekstu-na-wideo, pokazując rywalizację w dostarczaniu produktów dla konsumentów.

Dyrektor zarządzający i główny analityk akcji Wedbush Securities Dan Ives powiedział CNN, że Whisk to kolejny „moment przejawu siły” dla Google w obszarze AI i technologii.

Dobra AI są częścią „skarbca” nowych produktów Google, na 2025 rok, który obejmuje nowy system operacyjny Android opracowany we współpracy z Samsungiem i Qualcommem. „DeepMind to kluczowy aktyw dla Google’a”, powiedział Ives.

Trending Topics

Latest News