Ano ang DALL·E 2?

Ang DALL·E 2 ay isang artificial intelligence program na lumilikha ng mga larawan mula sa mga tekstuwal na paglalarawan, na inihayag noong Huwebes ng OpenAI, isang kumpanya ng pananaliksik.

Gumagamit ito ng 12-bilyong bersyon ng pagsasanay ng parameter ng modelo ng transpormer ng GPT-3 upang bigyang-kahulugan ang mga natural na input ng wika at bumuo ng mga kaukulang larawan. Halimbawa, kapag binigyan ng pangungusap na 'isang itim at puting larawan ng isang maliit na aso,' nakagawa ito ng wastong pag-render ng black-and-white na imahe ng isang Chihuahua.

Ang sistema ay hindi perpekto — kung minsan ay gumagawa ito ng mga larawang mahirap bigyang-kahulugan, o ganap na wala sa marka. Halimbawa, kapag hiniling na bumuo ng larawan ng 'isang taong nakasakay sa unicycle sa isang mahigpit na lubid sa ibabaw ng bulkan,' gumawa ito ng (maganda, sa palagay ko) ngunit ganap na hindi nauugnay na larawan ng paglubog ng araw sa ibabaw ng tubig na may maliit na pigura sa harapan. .

Gayunpaman, ang mga resulta ay kahanga-hanga, at sinabi ng OpenAI na ang DALL·E 2 'ay ang unang modelo ng AI na bumuo ng mga larawan mula sa mga tekstuwal na paglalarawan na maaaring tumumba sa kalidad ng mga propesyonal na artista ng tao.'

Ang system ay sinanay sa isang dataset ng mga pares ng text-image, na binubuo ng humigit-kumulang 1.3 milyong mga larawan at mga caption mula sa Internet na na-scrap at na-curate ng OpenAI. Pagkatapos ay ginamit ang data ng pagsasanay upang i-fine-tune ang modelo ng GPT-3 upang makabuo ito ng mga larawan mula sa mga paglalarawang teksto.

Sinasabi ng OpenAI na ang system ay maaaring makabuo ng mga 'mataas na kalidad' na mga imahe mula sa isang malawak na hanay ng mga paglalarawan sa teksto, kabilang ang mga abstract, konkreto, o kahit na patula.

Bilang karagdagan sa halimbawa ng Chihuahua, ang iba pang mga halimbawa ng mga larawang ginawa ng DALL·E 2 ay may kasamang larawan ni Adolf Hitler, larawan ng dragon na gawa sa gulay, at larawan ng Mona Lisa na gawa sa toast.

Ang sistema ay nakakagawa din ng mga larawan ng mga bagay na wala, tulad ng isang 'floof' (isang gawa-gawang hayop) o isang 'tulpa' (isang thoughtform).

Sa pangkalahatan, ang mga resulta ay kahanga-hanga, at sinabi ng OpenAI na ang sistema ay 'nagbubukas ng mga bagong posibilidad para sa pagbuo ng mga imahe mula sa mga paglalarawan sa teksto.'

MULA E 2 Ito CLIP-system nagko-convert ng impormasyon sa teksto sa visual na impormasyon. Ito ay isang paradigm ng encoder-decoder, na nangangahulugan na kapag ibinigay ang input text, ito ay unang na-convert sa machine input, pagkatapos ay pinoproseso ng system, at sa wakas ay ipinapasa sa decoder, na nagko-convert ng naka-encode na data sa isang imahe.

Ano ang DALL E 2

Ano ang DALL·E 2?

Ito ang pinakabagong henerasyon ng DALL·E, isang generative na modelo ng wika na gumagamit ng mga parirala upang lumikha ng ganap na bagong visual effect. Ang DALL E 2 ay isang malaking 3.5V na modelo, kahit na hindi kasing laki ng GPT-3. Kapansin-pansin, mas magaan din ito kaysa sa hinalinhan nito (12B). Sa mga tuntunin ng pagkakahanay ng paglalarawan at photorealism, ang DALL·E 2 ay 70% na mas mahusay kaysa sa DALL·E 2 sa kabila ng mas malaking sukat nito.

DALL.E 2- paliwanag para sa mga nagsisimula na may mga halimbawa

Sa partikular, ang DALL·E 2 ay isang hierarchical conditional text image synthesis model na pinagsasama ang malalim na pag-aaral para sa natural na pagpoproseso ng wika sa computer vision para sa pagbuo ng imahe. Ang layunin nito ay sanayin ang dalawang modelo, at ang hanay ng pagsasanay ay binubuo ng mga ipinares na larawan at paglalarawan. Ang una ay isang priori na, na binigyan ng nakasulat na pamagat, ay maaaring sanayin upang makabuo ng isang CLIP image embed. Mayroon kaming isang decoder na, kapag nag-embed ng isang CLIP na imahe (at caption, kung mayroon), ay maaaring makabuo ng isang sinanay na imahe.

Ang DALLE 2 ay sinanay gamit ang daan-daang milyong larawan na may mga caption mula sa internet, at ang ilan sa mga larawang iyon ay inalis at ni-reshuffle para baguhin ang natutunan ng modelo. Kinukuha nito ang maraming mga pagpipilian sa imahe CLIP attachment at pagkatapos ay gamitin ito decoder dumaan sa bawat isa sa kanila. Lumilikha ito ng isang kawili-wiling halo ng lahat ng impormasyong iyon na ibinigay sa input ng user.

Halimbawa DALL AY 2

Maglaro tayo ng kaunting laro para maunawaan ang DALL·E. Hatiin natin ito sa susunod na tatlong hakbang.

Isipin ang mga bahaghari, ulap at unicorn na lumilipad sa asul na kalangitan. Isipin kung ano ang maaaring maging isang larawan sa iyong imahinasyon. Ang mga tao ay ang pinakamalapit na bagay na mayroon tayo sa perpektong analog ng isang naka-embed na larawan, at ang larawan na kaka-pop sa iyong ulo ay isang perpektong halimbawa niyan. Maaari mo lamang hulaan ang tungkol sa huling produkto, ngunit mayroon kang magandang ideya kung ano ang dapat isama. Dinadala ng modelong a priori ang mambabasa mula sa mga salita sa isang parirala patungo sa isang eksena sa kanyang imahinasyon.
Ngayon ay maaari mong simulan ang pagguhit. Ang ginagawa ng unCLIP ay ginagawang tunay na sketch ang iyong mental na larawan. Ngayon ay maaari mong tumpak na muling likhain ang isa pang character mula sa parehong paglalarawan, na may parehong mga pangunahing istatistika, ngunit may ganap na bagong visual na istilo. Ang DALL·E 2 ay maaari ding bumuo ng mga natatanging larawan mula sa isang umiiral na larawang naka-embed sa ganitong paraan.
Bigyang-pansin ang sketch na ginawa mo. Ito ay kung ano ang mangyayari kapag sketch out ang paglalarawan ng 'isang kabayong may sungay sa gitna ng mga ulap, at isang bahaghari rises laban sa langit.' Ngayon suriin ang larawan at teksto upang matukoy kung ano ang pinakamahusay na naglalarawan sa isa pa (araw, bahay, puno, atbp.) at kung ano ang pinakamahusay na naglalarawan sa paksa, istilo, mga kulay, atbp. Ang ginagawa ng CLIP ay ang mga katangian ng pag-encode. teksto at mga larawan.

Ngayong alam na natin kung ano ang DALL-E, lumipat tayo sa susunod na seksyon at unawain ang mga tampok nito.

Tip: Paano lumikha ng mga makatotohanang larawan gamit ang serbisyo ng DALL-E-2 AI

Tampok ang DALL E 2

Nasa ibaba ang mga detalye ng DALL·E 2.

Mga pagkakaiba-iba
Pangkulay
Mga Pagkakaiba sa Teksto

Pag-usapan natin ang mga ito nang detalyado.

kung paano gumawa ng mga business card sa salitang 2010

1] Mga pagkakaiba-iba

Ang DALL·E 2 ay higit pa sa simpleng pagsasalin ng pangungusap sa isang imahe. Ang OpenAI ay maaaring mag-eksperimento sa proseso ng pagbuo, na gumagawa ng iba't ibang mga resulta para sa isang naibigay na lagda salamat sa mga matatag na CLIP na pag-embed. Ang 'nakikita' ng CLIP sa 'isip' nito ay kung ano ang itinuturing nitong mahalaga mula sa input (nananatiling pareho para sa lahat ng mga imahe) at kung ano ang maaaring palitan (na nagbabago para sa iba't ibang mga imahe). Hangga't maaari, pananatilihin ng DALL·E 2 ang parehong 'makabuluhang impormasyon...at mga aesthetic na aspeto'.

2] Pangkulay

Maaaring baguhin ng DALL·E 2 ang mga kasalukuyang larawan gamit ang awtomatikong pagpuno. Sa sumusunod na halimbawa, ang kaliwang larawan ay ang orihinal na larawan, at ang gitna at kanang mga larawan ay may elementong iginuhit sa iba't ibang lugar. Ang DALL·E 2 ay tumutugma sa karagdagang elemento sa Picture Style. Ina-update din nito ang mga texture at reflection upang ipakita ang bagong elemento.

Basahin : Ano ang maaari mong gawin sa ChatGPT

3] Mga pagkakaiba sa teksto

Kino-convert ng DALL·E 2 ang mga larawan gamit ang mga pagkakaiba sa teksto. Ang DALL·E 2 ay mayroon ding mga advanced na interpolation na kakayahan na nagbibigay-daan sa iyong baguhin ang mga bagay. Isang user ng Twitter ang nagawang 'i-unmordenize' ang kanyang iPhone. twitter.com upang suriin ito.

Kung gusto mo ang mga feature na ito, ang kailangan mo lang gawin ay pumunta sa openai.com at pagkatapos ay magparehistro. Maaari kang lumikha ng bagong account o gamitin ang iyong umiiral nang Microsoft o Google account upang mag-sign up. Kapag ginawa mo iyon, makakakuha ka ng ilang mga libreng kredito, kung gusto mo ng higit pa, kailangan mong magbayad para dito.

Ito ang ilan sa mga feature ng DALL·E 2, mayroon itong maraming mahusay na kaso ng paggamit, gayunpaman, palaging inirerekomenda na huwag masyadong umasa sa mga tool ng AI. Pagkatapos ng lahat, ang mga ito ay walang iba kundi mga tool na ginagamit upang magawa ang trabaho, hindi nila mapapalitan ang emosyonal na katalinuhan ng isang tao.

Basahin din: Ang Pinakamahusay na Deepfake na Apps, Software at Website.