Jaringan (saraf) anjeun bocor

Panaliti di paguron luhur di AS sareng Swiss, dina kolaborasi sareng Google sareng DeepMind, parantos nyebarkeun makalah anu nunjukkeun kumaha data tiasa bocor tina sistem generasi gambar nganggo algoritma pembelajaran mesin DALL-E, Imagen, atanapi Stable Diffusion. Sagalana jalan dina cara nu sarua dina sisi pamaké: Anjeun ngetik query téks husus – contona, “korsi leungeun ngawangun kawas alpukat” – sarta meunang hiji gambar balik gantina.

Gambar dihasilkeun ku jaringan saraf Dall-E

Gambar dihasilkeun ku jaringan saraf Dall-E. Sumber.

Sadaya sistem ieu dilatih dina sajumlah ageung (puluhan atanapi ratusan rébu) gambar sareng déskripsi anu tos disiapkeun. Gagasan di balik jaringan saraf sapertos kitu, ku ngonsumsi jumlah data latihan anu ageung, aranjeunna tiasa nyiptakeun gambar anu énggal sareng unik. Sanajan kitu, kacindekan utama tina ulikan anyar éta gambar ieu teu salawasna unik. Dina sababaraha kasus, kasebut nyaéta dimungkinkeun pikeun maksa jaringan saraf pikeun baranahan ampir persis gambar aslina saméméhna dipaké pikeun latihan. Sareng éta hartosna jaringan saraf tanpa disadari tiasa ngungkabkeun inpormasi pribadi.

Gambar dihasilkeun ku Stable Diffusion neural network (katuhu) sareng gambar asli tina set latihan (kénca)

Gambar dihasilkeun ku Stable Diffusion neural network (katuhu) sareng gambar asli tina set latihan (kénca). Sumber.

Langkung seueur data pikeun “dewa data”

Kaluaran tina sistem pembelajaran mesin pikeun ngaréspon patarosan tiasa sigana sapertos sihir pikeun non-spesialis: “woah – éta sapertos robot anu terang!”! Tapi sabenerna teu aya keajaiban …

Sadaya jaringan saraf dianggo langkung atanapi kirang dina cara anu sami: algoritma diciptakeun anu dilatih dina sakumpulan data – sebutkeun runtuyan gambar ucing sareng anjing – kalayan pedaran naon anu sabenerna digambarkeun dina unggal gambar. Sanggeus fase latihan, algoritma ditémbongkeun gambar anyar jeung dipenta pikeun nangtukeun naha éta téh ucing atawa anjing. Ti mimiti anu hina ieu, pamekar sistem sapertos kitu ngalih ka skenario anu langkung kompleks: algoritma anu dilatih dina sababaraha gambar ucing nyiptakeun gambar piaraan anu henteu pernah aya dina paménta. Ékspérimén sapertos kitu dilaksanakeun henteu ngan ukur nganggo gambar, tapi ogé nganggo téks, pidéo sareng sora: kami parantos nyerat ngeunaan masalah deepfakes (dimana pidéo anu dirobih sacara digital tina (lolobana) politikus atanapi selebriti sigana nyarioskeun hal-hal anu henteu pernah dilakukeun) . ngalakukeun.).

Pikeun sakabéh jaringan saraf, titik awal nyaéta sakumpulan data latihan: jaringan saraf teu bisa nyieun éntitas anyar kaluar nanaon. Pikeun nyieun gambar ucing, hiji algoritma kudu diajar rébuan poto sabenerna atawa gambar sato. Aya seueur alesan pikeun ngajaga set data ieu pribadi. Sababaraha di antarana aya dina domain publik; set data sejenna mangrupakeun hak cipta intelektual pausahaan ngembangkeun nu investasi deal gede waktu jeung usaha pikeun nyieun aranjeunna dina harepan achieving kaunggulan kalapa. Masih batur anu, ku harti, informasi sénsitip. Contona, percobaan keur dijalankeun pikeun ngagunakeun jaringan saraf pikeun nangtukeun jenis panyakitna kasakit dumasar kana sinar-X sarta scan médis séjén. Ieu ngandung harti yén data latihan algorithmic ngandung data kaséhatan sabenerna ti jalma nyata, nu, alesan atra, teu kudu digolongkeun kana leungeun salah.

Diffuse

Sanaos algoritma pembelajaran mesin sigana sami sareng urang luar, aranjeunna saleresna béda. Dina makalahna, panalungtik nengetan husus ka mesin learning modél difusi. Gawéna saperti kieu: data latihan (deui gambar jalma, mobil, imah, jsb) distort ku nambahkeun noise. Sareng jaringan saraf teras dilatih pikeun ngabalikeun gambar ka kaayaan aslina. Metoda ieu ngamungkinkeun pikeun ngahasilkeun gambar tina kualitas santun, tapi hiji aral poténsial (dibandingkeun jeung algoritma dina jaringan adversarial generative, contona) nyaeta kacenderungan na gede pikeun bocor data.

Data aslina bisa sasari ti aranjeunna dina sahanteuna tilu cara béda: Kahiji, ngagunakeun query custom, anjeun tiasa maksakeun jaringan neural balik – lain hal unik, dihasilkeun dumasar kana rébuan gambar – tapi gambar sumber husus. Kadua, gambar asli tiasa direkonstruksi sanaos ngan ukur sawaréh aya. Katilu, mungkin pikeun nangtukeun naha gambar tinangtu aya dina data latihan atanapi henteu.

Sering pisan, jaringan saraf … puguh, sarta tinimbang gambar anyar, aranjeunna ngahasilkeun hal ti set latihan lamun ngandung sababaraha duplikat tina gambar anu sarua. Salian conto di luhur sareng poto Ann Graham Lotz, ieu panalungtikan nyayogikeun sababaraha hasil anu sami:

Baris ganjil: gambar aslina.  Baris malah: gambar dihasilkeun ku Stabil Difusi v1.4

Baris ganjil: gambar aslina. Baris malah: gambar dihasilkeun ku Stabil Difusi v1.4. Sumber.

Upami gambar diduplikasi dina set latihan langkung ti saratus kali, kamungkinan kamungkinan bocor dina bentuk aslina. Nanging, panalungtik nunjukkeun cara pikeun nyandak gambar latihan anu ngan ukur muncul sakali dina set aslina. Metoda ieu jauh kurang éfisién: tina lima ratus gambar anu diuji, algoritma sacara acak ngan ukur tilu. Métode anu paling artistik pikeun nyerang jaringan saraf ngalibatkeun nyiptakeun gambar sumber ngan ukur nganggo bagian tina éta salaku input.

Para panalungtik naroskeun ka jaringan saraf pikeun ngalengkepan gambar, saatos ngaleungitkeun sababaraha éta.  Ngalakukeun ieu bisa dipaké pikeun nangtukeun kalawan akurasi lumrah naha gambar tinangtu aya dina set latihan.  Lamun kitu, algoritma machine learning ngahasilkeun salinan ampir-pasti tina poto atawa gambar aslina

Para panalungtik naroskeun ka jaringan saraf pikeun ngalengkepan gambar, saatos ngaleungitkeun sababaraha éta. Ngalakukeun ieu bisa dipaké pikeun nangtukeun kalawan akurasi lumrah naha gambar tinangtu aya dina set latihan. Lamun kitu, algoritma machine learning ngahasilkeun salinan ampir-pasti tina poto atawa gambar aslina. Sumber.

Dina titik ieu, hayu urang ngalihkeun perhatian urang kana masalah jaringan saraf sareng hak cipta.

Anu maling ti saha?

Dina Januari 2023, tilu seniman ngagugat panyipta layanan ngahasilkeun gambar anu ngagunakeun algoritma pembelajaran mesin. Aranjeunna ngaku (justifiably) yén pamekar jaringan neural geus ngalatih aranjeunna dina gambar dikumpulkeun online tanpa respecting hak cipta. Jaringan saraf memang tiasa niru gaya seniman anu tangtu, sareng ku kituna ngaleungitkeun pendapatan. Tulisan nunjukkeun yén dina sababaraha kasus algoritma tiasa, pikeun sababaraha alesan, kalibet dina plagiarisme langsung, nyababkeun gambar, foto sareng gambar sanés anu ampir sami sareng karya jalma nyata.

Panaliti ngadamel saran pikeun nguatkeun privasi set latihan asli:

  • Nyingkirkeun duplikat.
  • Reprocess gambar latihan, contona ku nambahkeun noise atawa ngarobah kacaangan; ieu ngajadikeun data bocor kurang kamungkinan.
  • Uji algoritma nganggo gambar latihan khusus sareng pariksa yén éta henteu ngahaja ngahasilkeun deui sacara akurat.

Naon salajengna?

Étika sareng legalitas seni generatif tangtosna mangrupikeun perdebatan anu pikaresepeun – dimana kasaimbangan kedah dipilarian antara seniman sareng pamekar téknologi. Di hiji sisi, hak cipta kudu dihargaan. Di sisi anu sanés, naha seni komputer béda pisan sareng manusa? Dina dua kasus, panyipta ngagambar inspirasi tina karya kolega sareng pesaing.

Tapi hayu urang balik deui ka bumi sareng ngobrol ngeunaan kaamanan. Tulisan ieu nyayogikeun sakumpulan fakta khusus ngeunaan ngan hiji modél pembelajaran mesin. Manjangkeun konsép pikeun sadayana algoritma sarupa, urang anjog ka kaayaan metot. Henteu sesah ngabayangkeun skenario dimana asisten pinter operator sélulér ngabagi inpormasi perusahaan anu sénsitip pikeun ngaréspon pamundut pangguna: saatosna, éta aya dina data pelatihan. Atanapi, contona, patarosan licik anu menipu jaringan saraf umum pikeun ngahasilkeun salinan paspor batur. Para panalungtik negeskeun yén masalah sapertos kitu tetep téoritis pikeun ayeuna.

Tapi masalah anu sanés parantos aya di urang. Nalika urang nyarios, jaringan saraf anu ngahasilkeun téks ChatGPT dianggo pikeun nyerat kode jahat nyata anu (kadang-kadang) jalanna. Jeung GitHub Copilot mantuan programer nulis kode ngagunakeun jumlah badag software open source salaku input. Sareng alat-alat éta henteu salawasna hormat hak cipta sareng privasi pangarang anu kodena ditungtungan dina set data pelatihan anu ageung. Nalika jaringan saraf berkembang, serangan ngalawan aranjeunna ogé bakal kajantenan – kalayan akibat anu teu acan aya anu ngartos.


#Jaringan #saraf #nembongkeun #gambar #anu #digunakeun #pikeun #ngalatih #aranjeunna

Anjeun tiasa mikir yén nyumputkeun inpormasi sénsitip dina gambar éta gampang. Ngan hapus rusiah anjeun nganggo spidol hideung ageung dina pangropéa gambar. Atanapi langkung saé: mung motong sababaraha poto atanapi potret layar anu ngandung data pribadi anjeun. Naon anu bisa jadi salah?

Rada loba, sabenerna. Kami parantos masangkeun ngeunaan kumaha carana henteu nyumputkeun inpormasi dina gambar sareng kumaha henteu ngalereskeun gambar anu dipasang dina dokumén. Tapi panilitian anyar nunjukkeun yén anjeun masih tiasa janten pamotongan, janten nyarios, sanaos anjeun nyandak ampir sadaya pancegahan – sareng sadayana kusabab bug anu aya hubunganana sareng pamrosésan gambar. Hayu urang tingali kumaha dua alat panyuntingan gambar standar – hiji dina Google Pixel sareng anu sanésna Windows 11 – tiasa ngungkabkeun inpormasi anu bakal disumputkeun dina gambar.

Kumaha cageur inpormasi disumputkeun dina Potret layar anu diédit dina Google Pixel

Éta sadayana dimimitian salaku panalungtik kaamanan Simon Harun Jeung David Buchanan manggihan vulnerabilities aranjeunna ngaranna Acropalypse: katingalina Markup, pangropéa gambar Google Pixel anu diwangun, nyimpen file PNG anu diédit ku cara anu ngamungkinkeun aranjeunna dibalikeun sapinuhna atanapi sawaréh.

Nalika ngolah gambar PNG, tinimbang nyimpen file PNG lengkep anyar, Markup nimpa nu heubeul dina cara pisan aneh. Lamun motong gambar, tangtu ukuranana dina bait dibandingkeun jeung aslina bakal ngurangan. Hal anu sami kajadian upami anjeun ngalukis bagian tina hiji gambar kalayan warna tunggal – hatur nuhun kana algoritma komprési anu saé pisan pikeun ngabungkus daérah warna padet. Tapi file anu disimpen saatos ngédit dina Markup ukuranana sami sareng anu asli: aplikasina ngan saukur nimpa data énggal di luhur anu lami, nyésakeun “buntut” data gambar awal dina file. Sareng kalayan bantosan alat anu diciptakeun ku peneliti (sadia online), sawaréh tiasa pulih asli.

Ieu kumaha peneliti sorangan ngajelaskeun naon anu lumangsung:

Ilustrasi konsép balik kerentanan Acropalypse

Pamulihan gambar diédit nganggo Google Pixel Markup. Sumber

Catet, yén screenshot anu dianggo salaku conto di dieu nyaéta duanana diédit AND dipotong. Janten, anu paling penting, gambar anu hasilna langkung alit tibatan anu asli. Sakali versi diédit disimpen leuwih aslina, aya loba data unoverwritten di ahir file nu bisa pulih. Jeung wewengkon nu sagemblengna unrestored atawa kirang dibalikeun – katilu luhureun gambar hasilna – ngan kajadian teu ngandung nanaon penting.

Jadi démo panalungtik kudu dianggap salaku pasualan idéal: dina kahirupan nyata, kasuksésan alat ampir pasti bakal leuwih handap, sarta hasilna bakal gumantung pisan kana kaayaan. Tapi éta henteu hartosna masalahna tiasa dipaliré – kerentanan ieu henteu aya nanaon upami henteu pikaresepeun pisan.

Ieu mangaruhan smartphone Google di handap ieu (disorot nyaéta modél anu henteu dirojong deui sareng sigana moal nampi apdet):

  • Google Pixel 3, 3XL, 3a, 3a XL
  • Google Pixel 4, 4XL, 4a, 4a (5G)
  • Google Pixel 5, 5a
  • Google Pixel 6, 6 Pro, 6a
  • Google Pixel 7, 7 Pro

Salian ngaran sapopoe na, Acropalypse, kerentanan ieu dingaranan CVE-2023-21036. Éta parantos ditambal dina pembaruan Android Maret pikeun smartphone Pixel. Hanjakalna, pembaruan éta henteu aya kakuatan pikeun ngalereskeun layar anu lami, diédit anu parantos diterbitkeun atanapi dibagikeun.

Kumaha cageur inpormasi disumputkeun dina Potret layar anu diédit dina Windows 11

Saatos Aarons sareng Buchanan ngeposkeun papanggihanna dina Twitter, panalungtik sanés ngabahas naha. Kalayan anggapan logis yén alat panyuntingan gambar anu sanés tiasa nganggo mékanisme cacad anu sami pikeun nimpa file PNG, aranjeunna mimiti milarian aplikasi anu anyar anu rentan. Sareng aranjeunna mendakan éta, tangtosna: aya bug anu sami dideteksi dina Snipping Tool, utilitas screenshot dina Windows 11.

The Windows 11 Snipping Tool gaduh masalah anu sami: aplikasi nimpa file PNG anu diédit dina luhureun aslina, sareng nalika file énggal langkung alit, sababaraha data tina aslina tetep aya dina tungtung file, dimana gambar anu henteu dipotong. bisa sawaréh direkonstruksi.

Tempo artikel ieu dina BleepingComputer pikeun leuwih rinci:

Kerentanan Acropalypse dina Windows 11 Alat Snipping

Pamulihan gambar anu diédit sareng Windows 11 Snipping Tool. Sumber

Sanajan dina hal ieu bagian leutik tina gambar aslina ieu pulih, hasilna masih impressive. Catet yén masalahna sigana ngan ukur dugi ka Alat Snipping ngan ukur pikeun versi Windows 11. Janten pangguna Windows vérsi sateuacana, atanapi anu resep ngédit Potret layar dina Paint atanapi pangropéa grafis pinuh sapertos Photoshop, henteu kapangaruhan.

Kerentanan dina Windows 11 Alat Snipping tetep teu katutup. Sakali deui, sanaos pembaruan parantos sumping, éta moal ngabéréskeun masalah sareng Potret layar anu tos aya.

Naon anu kedah dilakukeun?

Upami anjeun nganggo Windows 11 Snipping Tool, atanapi gaduh smartphone Google Pixel (gen 3-7), sareng anjeun parantos masangkeun layar anu dipotong atanapi diédit sareng kecap akses dimana waé, pertimbangkeun kecap konci éta dikompromi: langsung ganti. Pasti, anjeun tiasa bajoang pikeun nginget unggal kajadian sapertos kitu, sareng henteu seueur anu anjeun tiasa laksanakeun ngeunaan éta: memang aya skrip Python sareng aturan YARA pikeun milarian sareng ngurus gambar PNG sapertos kitu, tapi ieu ngan ukur pikeun téknologi.

Dina catetan ahir, ieu sababaraha tip ngeunaan cara aman ngalereskeun gambar sareng data sénsitip anu anjeun rencanana dikirim online atanapi kirimkeun ka batur anu anjeun henteu terang upami anjeun tiasa percanten ka aranjeunna:

  • Upami anjeun resep nyumputkeun rusiah anjeun ku ngalukis atanapi ngeusian daérah kalayan warna anu padet, pastikeun opacity disetel ka 100%.
  • Lamun anjeun milih pixelating atanapi smearing, inget yen operasi ieu bisa malik.
  • Upami anjeun motong, simpen gambar ka file énggal — langkung saé nganggo alat Simpen pikeun Wéb Photoshop atanapi sarimbag: alat sapertos kitu pasti bakal motong bagian anu teu dihoyongkeun tina file demi optimasi.

Tungtungna, sateuacan ngeposkeun gambar anu tiasa nyarios hiji atanapi dua hal, naroskeun ka diri anjeun: naha ngeposkeun leres-leres diperyogikeun?


#Kumaha #cageur #inpormasi #dina #Potret #layar #anu #diédit