Jaringan (saraf) anjeun bocor

Panaliti di paguron luhur di AS sareng Swiss, dina kolaborasi sareng Google sareng DeepMind, parantos nyebarkeun makalah anu nunjukkeun kumaha data tiasa bocor tina sistem generasi gambar nganggo algoritma pembelajaran mesin DALL-E, Imagen, atanapi Stable Diffusion. Sagalana jalan dina cara nu sarua dina sisi pamaké: Anjeun ngetik query téks husus – contona, “korsi leungeun ngawangun kawas alpukat” – sarta meunang hiji gambar balik gantina.

Gambar dihasilkeun ku jaringan saraf Dall-E

Gambar dihasilkeun ku jaringan saraf Dall-E. Sumber.

Sadaya sistem ieu dilatih dina sajumlah ageung (puluhan atanapi ratusan rébu) gambar sareng déskripsi anu tos disiapkeun. Gagasan di balik jaringan saraf sapertos kitu, ku ngonsumsi jumlah data latihan anu ageung, aranjeunna tiasa nyiptakeun gambar anu énggal sareng unik. Sanajan kitu, kacindekan utama tina ulikan anyar éta gambar ieu teu salawasna unik. Dina sababaraha kasus, kasebut nyaéta dimungkinkeun pikeun maksa jaringan saraf pikeun baranahan ampir persis gambar aslina saméméhna dipaké pikeun latihan. Sareng éta hartosna jaringan saraf tanpa disadari tiasa ngungkabkeun inpormasi pribadi.

Gambar dihasilkeun ku Stable Diffusion neural network (katuhu) sareng gambar asli tina set latihan (kénca)

Gambar dihasilkeun ku Stable Diffusion neural network (katuhu) sareng gambar asli tina set latihan (kénca). Sumber.

Langkung seueur data pikeun “dewa data”

Kaluaran tina sistem pembelajaran mesin pikeun ngaréspon patarosan tiasa sigana sapertos sihir pikeun non-spesialis: “woah – éta sapertos robot anu terang!”! Tapi sabenerna teu aya keajaiban …

Sadaya jaringan saraf dianggo langkung atanapi kirang dina cara anu sami: algoritma diciptakeun anu dilatih dina sakumpulan data – sebutkeun runtuyan gambar ucing sareng anjing – kalayan pedaran naon anu sabenerna digambarkeun dina unggal gambar. Sanggeus fase latihan, algoritma ditémbongkeun gambar anyar jeung dipenta pikeun nangtukeun naha éta téh ucing atawa anjing. Ti mimiti anu hina ieu, pamekar sistem sapertos kitu ngalih ka skenario anu langkung kompleks: algoritma anu dilatih dina sababaraha gambar ucing nyiptakeun gambar piaraan anu henteu pernah aya dina paménta. Ékspérimén sapertos kitu dilaksanakeun henteu ngan ukur nganggo gambar, tapi ogé nganggo téks, pidéo sareng sora: kami parantos nyerat ngeunaan masalah deepfakes (dimana pidéo anu dirobih sacara digital tina (lolobana) politikus atanapi selebriti sigana nyarioskeun hal-hal anu henteu pernah dilakukeun) . ngalakukeun.).

Pikeun sakabéh jaringan saraf, titik awal nyaéta sakumpulan data latihan: jaringan saraf teu bisa nyieun éntitas anyar kaluar nanaon. Pikeun nyieun gambar ucing, hiji algoritma kudu diajar rébuan poto sabenerna atawa gambar sato. Aya seueur alesan pikeun ngajaga set data ieu pribadi. Sababaraha di antarana aya dina domain publik; set data sejenna mangrupakeun hak cipta intelektual pausahaan ngembangkeun nu investasi deal gede waktu jeung usaha pikeun nyieun aranjeunna dina harepan achieving kaunggulan kalapa. Masih batur anu, ku harti, informasi sénsitip. Contona, percobaan keur dijalankeun pikeun ngagunakeun jaringan saraf pikeun nangtukeun jenis panyakitna kasakit dumasar kana sinar-X sarta scan médis séjén. Ieu ngandung harti yén data latihan algorithmic ngandung data kaséhatan sabenerna ti jalma nyata, nu, alesan atra, teu kudu digolongkeun kana leungeun salah.

Diffuse

Sanaos algoritma pembelajaran mesin sigana sami sareng urang luar, aranjeunna saleresna béda. Dina makalahna, panalungtik nengetan husus ka mesin learning modél difusi. Gawéna saperti kieu: data latihan (deui gambar jalma, mobil, imah, jsb) distort ku nambahkeun noise. Sareng jaringan saraf teras dilatih pikeun ngabalikeun gambar ka kaayaan aslina. Metoda ieu ngamungkinkeun pikeun ngahasilkeun gambar tina kualitas santun, tapi hiji aral poténsial (dibandingkeun jeung algoritma dina jaringan adversarial generative, contona) nyaeta kacenderungan na gede pikeun bocor data.

Data aslina bisa sasari ti aranjeunna dina sahanteuna tilu cara béda: Kahiji, ngagunakeun query custom, anjeun tiasa maksakeun jaringan neural balik – lain hal unik, dihasilkeun dumasar kana rébuan gambar – tapi gambar sumber husus. Kadua, gambar asli tiasa direkonstruksi sanaos ngan ukur sawaréh aya. Katilu, mungkin pikeun nangtukeun naha gambar tinangtu aya dina data latihan atanapi henteu.

Sering pisan, jaringan saraf … puguh, sarta tinimbang gambar anyar, aranjeunna ngahasilkeun hal ti set latihan lamun ngandung sababaraha duplikat tina gambar anu sarua. Salian conto di luhur sareng poto Ann Graham Lotz, ieu panalungtikan nyayogikeun sababaraha hasil anu sami:

Baris ganjil: gambar aslina.  Baris malah: gambar dihasilkeun ku Stabil Difusi v1.4

Baris ganjil: gambar aslina. Baris malah: gambar dihasilkeun ku Stabil Difusi v1.4. Sumber.

Upami gambar diduplikasi dina set latihan langkung ti saratus kali, kamungkinan kamungkinan bocor dina bentuk aslina. Nanging, panalungtik nunjukkeun cara pikeun nyandak gambar latihan anu ngan ukur muncul sakali dina set aslina. Metoda ieu jauh kurang éfisién: tina lima ratus gambar anu diuji, algoritma sacara acak ngan ukur tilu. Métode anu paling artistik pikeun nyerang jaringan saraf ngalibatkeun nyiptakeun gambar sumber ngan ukur nganggo bagian tina éta salaku input.

Para panalungtik naroskeun ka jaringan saraf pikeun ngalengkepan gambar, saatos ngaleungitkeun sababaraha éta.  Ngalakukeun ieu bisa dipaké pikeun nangtukeun kalawan akurasi lumrah naha gambar tinangtu aya dina set latihan.  Lamun kitu, algoritma machine learning ngahasilkeun salinan ampir-pasti tina poto atawa gambar aslina

Para panalungtik naroskeun ka jaringan saraf pikeun ngalengkepan gambar, saatos ngaleungitkeun sababaraha éta. Ngalakukeun ieu bisa dipaké pikeun nangtukeun kalawan akurasi lumrah naha gambar tinangtu aya dina set latihan. Lamun kitu, algoritma machine learning ngahasilkeun salinan ampir-pasti tina poto atawa gambar aslina. Sumber.

Dina titik ieu, hayu urang ngalihkeun perhatian urang kana masalah jaringan saraf sareng hak cipta.

Anu maling ti saha?

Dina Januari 2023, tilu seniman ngagugat panyipta layanan ngahasilkeun gambar anu ngagunakeun algoritma pembelajaran mesin. Aranjeunna ngaku (justifiably) yén pamekar jaringan neural geus ngalatih aranjeunna dina gambar dikumpulkeun online tanpa respecting hak cipta. Jaringan saraf memang tiasa niru gaya seniman anu tangtu, sareng ku kituna ngaleungitkeun pendapatan. Tulisan nunjukkeun yén dina sababaraha kasus algoritma tiasa, pikeun sababaraha alesan, kalibet dina plagiarisme langsung, nyababkeun gambar, foto sareng gambar sanés anu ampir sami sareng karya jalma nyata.

Panaliti ngadamel saran pikeun nguatkeun privasi set latihan asli:

  • Nyingkirkeun duplikat.
  • Reprocess gambar latihan, contona ku nambahkeun noise atawa ngarobah kacaangan; ieu ngajadikeun data bocor kurang kamungkinan.
  • Uji algoritma nganggo gambar latihan khusus sareng pariksa yén éta henteu ngahaja ngahasilkeun deui sacara akurat.

Naon salajengna?

Étika sareng legalitas seni generatif tangtosna mangrupikeun perdebatan anu pikaresepeun – dimana kasaimbangan kedah dipilarian antara seniman sareng pamekar téknologi. Di hiji sisi, hak cipta kudu dihargaan. Di sisi anu sanés, naha seni komputer béda pisan sareng manusa? Dina dua kasus, panyipta ngagambar inspirasi tina karya kolega sareng pesaing.

Tapi hayu urang balik deui ka bumi sareng ngobrol ngeunaan kaamanan. Tulisan ieu nyayogikeun sakumpulan fakta khusus ngeunaan ngan hiji modél pembelajaran mesin. Manjangkeun konsép pikeun sadayana algoritma sarupa, urang anjog ka kaayaan metot. Henteu sesah ngabayangkeun skenario dimana asisten pinter operator sélulér ngabagi inpormasi perusahaan anu sénsitip pikeun ngaréspon pamundut pangguna: saatosna, éta aya dina data pelatihan. Atanapi, contona, patarosan licik anu menipu jaringan saraf umum pikeun ngahasilkeun salinan paspor batur. Para panalungtik negeskeun yén masalah sapertos kitu tetep téoritis pikeun ayeuna.

Tapi masalah anu sanés parantos aya di urang. Nalika urang nyarios, jaringan saraf anu ngahasilkeun téks ChatGPT dianggo pikeun nyerat kode jahat nyata anu (kadang-kadang) jalanna. Jeung GitHub Copilot mantuan programer nulis kode ngagunakeun jumlah badag software open source salaku input. Sareng alat-alat éta henteu salawasna hormat hak cipta sareng privasi pangarang anu kodena ditungtungan dina set data pelatihan anu ageung. Nalika jaringan saraf berkembang, serangan ngalawan aranjeunna ogé bakal kajantenan – kalayan akibat anu teu acan aya anu ngartos.


#Jaringan #saraf #nembongkeun #gambar #anu #digunakeun #pikeun #ngalatih #aranjeunna