Banyak orang sudah bereksperimen dengan jaringan saraf generatif dan menemukan kegunaannya secara rutin, termasuk di tempat kerja. Misalnya, ChatGPT dan analognya digunakan secara rutin oleh hampir 60% orang Amerika (dan tidak selalu dengan izin dari manajemen). Namun, semua data yang terlibat dalam operasi tersebut – baik perintah pengguna maupun respons model – disimpan di OpenAI, Google, dan server lainnya. Untuk tugas-tugas yang kebocoran informasinya tidak dapat diterima, Anda tidak perlu meninggalkan AI sepenuhnya — Anda hanya perlu menginvestasikan sejumlah upaya (dan mungkin uang) untuk menjalankan jaringan saraf secara lokal di komputer Anda sendiri – bahkan di laptop.

Ancaman awan

Asisten AI paling populer dijalankan pada infrastruktur cloud perusahaan besar. Ini efisien dan cepat, namun data Anda yang diproses oleh model ini mungkin dapat diakses oleh penyedia layanan AI dan pihak yang sama sekali tidak terkait, seperti yang terjadi tahun lalu dengan ChatGPT.

Insiden semacam ini menghadirkan berbagai tingkat ancaman tergantung pada kegunaan asisten AI tersebut. Jika Anda membuat ilustrasi lucu untuk beberapa dongeng yang Anda tulis, atau meminta ChatGPT membuat rencana perjalanan untuk liburan kota akhir pekan mendatang, kebocoran tidak akan menyebabkan kerusakan serius. Namun, jika percakapan Anda dengan chatbot berisi informasi rahasia – data pribadi, kata sandi, atau nomor kartu bank – kemungkinan kebocoran ke cloud tidak lagi dapat diterima. Untungnya, pencegahannya cukup mudah dengan pra-filter data — kami telah menulis postingan terpisah tentang hal itu.

Namun, dalam kasus di mana semua korespondensi bersifat rahasia (misalnya, informasi medis atau keuangan), atau keandalan pra-penyaringan dipertanyakan (Anda perlu memproses data dalam jumlah besar yang tidak akan dipratinjau dan difilter oleh siapa pun), hanya ada satu solusi : memindahkan pemrosesan dari cloud ke komputer lokal. Tentu saja, menjalankan ChatGPT atau Midjourney versi Anda sendiri secara offline sepertinya tidak akan berhasil, tetapi jaringan neural lain yang bekerja secara lokal memberikan kualitas yang sebanding dengan beban komputasi yang lebih sedikit.

Perangkat keras apa yang Anda perlukan untuk menjalankan jaringan saraf?

Anda mungkin pernah mendengar bahwa bekerja dengan jaringan saraf memerlukan kartu grafis yang sangat kuat, namun dalam praktiknya hal ini tidak selalu terjadi. Model AI yang berbeda, bergantung pada spesifikasinya, mungkin memerlukan komponen komputer seperti RAM, memori video, drive, dan CPU (di sini, tidak hanya kecepatan pemrosesan yang penting, tetapi juga dukungan prosesor untuk instruksi vektor tertentu). Kemampuan memuat model bergantung pada jumlah RAM, dan ukuran “jendela konteks” — yaitu memori percakapan sebelumnya — bergantung pada jumlah memori video. Biasanya, dengan kartu grafis dan CPU yang lemah, pembuatannya terjadi dengan sangat cepat (satu hingga dua kata per detik untuk model teks), sehingga komputer dengan pengaturan minimal seperti itu hanya cocok untuk membiasakan diri Anda dengan model tertentu dan mengevaluasi dasar-dasarnya. kesesuaian. Untuk penggunaan sehari-hari penuh, Anda perlu menambah RAM, mengupgrade kartu grafis, atau memilih model AI yang lebih cepat.

Sebagai permulaan, Anda bisa mencoba bekerja dengan komputer yang dinilai cukup bertenaga di tahun 2017: prosesor minimal Core i7 dengan dukungan instruksi AVX2, RAM 16 GB, dan kartu grafis dengan memori minimal 4 GB. Untuk penggemar Mac, model yang menjalankan chip Apple M1 dan yang lebih baru akan baik-baik saja, sedangkan kebutuhan memorinya sama.

Saat memilih model AI, Anda harus terlebih dahulu memahami persyaratan sistemnya. Kueri penelusuran seperti “nama model persyaratan” akan membantu Anda menilai apakah model ini layak diunduh mengingat perangkat keras yang tersedia. Ada studi terperinci yang tersedia tentang pengaruh ukuran memori, CPU, dan GPU terhadap kinerja berbagai model; misalnya yang ini.

Kabar baik bagi mereka yang tidak memiliki akses ke perangkat keras canggih — terdapat model AI yang disederhanakan yang dapat melakukan tugas-tugas praktis bahkan pada perangkat keras lama. Meskipun kartu grafis Anda sangat mendasar dan lemah, model dan lingkungan peluncuran dapat dijalankan hanya dengan menggunakan CPU. Tergantung pada tugas Anda, ini juga dapat bekerja dengan baik.

Tes pemrosesan GPU

Contoh bagaimana berbagai konstruksi komputer bekerja dengan model bahasa populer

Memilih model AI dan keajaiban kuantisasi

Berbagai model bahasa tersedia saat ini, namun sebagian besar memiliki penerapan praktis yang terbatas. Namun, ada alat AI yang mudah digunakan dan tersedia secara terbuka yang cocok untuk tugas tertentu, baik itu menghasilkan teks (misalnya, Mistral 7B), atau membuat cuplikan kode (misalnya, Kode Llama 13B). Oleh karena itu, saat memilih model, persempit pilihan menjadi beberapa kandidat yang sesuai, lalu pastikan komputer Anda memiliki sumber daya yang diperlukan untuk menjalankannya.

Di jaringan saraf mana pun, sebagian besar beban memori disebabkan oleh bobot — koefisien numerik yang menggambarkan pengoperasian setiap neuron dalam jaringan. Awalnya, saat melatih model, bobot dihitung dan disimpan sebagai bilangan pecahan dengan presisi tinggi. Namun, ternyata pembulatan bobot pada model yang dilatih memungkinkan alat AI berjalan di komputer biasa namun hanya sedikit mengurangi performa. Proses pembulatan ini disebut kuantisasi, dan dengan bantuannya, ukuran model dapat dikurangi secara signifikan — alih-alih 16 bit, setiap bobot dapat menggunakan delapan, empat, atau dua bit.

Menurut penelitian saat ini, model yang lebih besar dengan lebih banyak parameter dan kuantisasi terkadang dapat memberikan hasil yang lebih baik dibandingkan model dengan penyimpanan bobot yang akurat tetapi parameternya lebih sedikit.

Berbekal pengetahuan ini, Anda kini siap menjelajahi harta karun model bahasa sumber terbuka, papan peringkat Open LLM teratas. Dalam daftar ini, alat AI diurutkan berdasarkan beberapa metrik kualitas generasi dan filter memudahkan untuk mengecualikan model yang terlalu besar, terlalu kecil, atau terlalu akurat.

Daftar model bahasa diurutkan berdasarkan kumpulan filter

Daftar model bahasa diurutkan berdasarkan kumpulan filter

Setelah membaca deskripsi model dan memastikan model tersebut sesuai dengan kebutuhan Anda, uji kinerjanya di cloud menggunakan layanan Face Hugging atau Google Colab. Dengan cara ini, Anda dapat menghindari pengunduhan model yang memberikan hasil yang tidak memuaskan, sehingga menghemat waktu Anda. Setelah Anda puas dengan pengujian awal model, sekarang saatnya melihat cara kerjanya secara lokal!

Perangkat lunak yang diperlukan

Sebagian besar model sumber terbuka dipublikasikan di Hugging Face, tetapi mengunduhnya ke komputer saja tidak cukup. Untuk menjalankannya, Anda perlu menginstal perangkat lunak khusus, seperti LLaMA.cpp, atau — lebih sederhananya — “pembungkusnya”, LM Studio. Yang terakhir memungkinkan Anda memilih model yang Anda inginkan langsung dari aplikasi, mengunduhnya, dan menjalankannya dalam kotak dialog.

Cara lain yang “out of the box” untuk menggunakan chatbots secara lokal adalah GPT4All. Di sini, pilihannya terbatas pada sekitar selusin model bahasa, namun sebagian besar dapat dijalankan bahkan pada komputer dengan memori hanya 8 GB dan kartu grafis dasar.

Jika pembangkitannya terlalu lambat, Anda mungkin memerlukan model dengan kuantisasi yang lebih kasar (dua bit, bukan empat). Jika pembangkitan terganggu atau terjadi kesalahan eksekusi, masalahnya sering kali adalah memori yang tidak mencukupi — ada baiknya mencari model dengan parameter yang lebih sedikit atau, sekali lagi, dengan kuantisasi yang lebih kasar.

Banyak model di Hugging Faces telah dikuantisasi dengan tingkat akurasi yang berbeda-beda, namun jika belum ada yang mengkuantifikasi model yang Anda inginkan hingga akurasi yang diinginkan, Anda dapat melakukannya sendiri menggunakan GPTQ.

Minggu ini, alat menjanjikan lainnya dirilis ke versi beta publik: Ngobrol Dengan RTX dari NVIDIA. Pembuat chip AI yang paling banyak dicari ini telah merilis chatbot lokal yang mampu merangkum konten video YouTube, memproses kumpulan dokumen, dan banyak lagi — asalkan pengguna memiliki PC Windows dengan memori 16 GB dan NVIDIA RTX 30ke atau 40ke kartu grafis serial dengan memori video 8 GB atau lebih. “Under the hood” adalah tipe yang sama dari Mistral dan Llama 2 dari Hugging Face. Tentu saja, kartu grafis yang kuat dapat meningkatkan kinerja generasi tersebut, namun menurut feedback dari penguji pertama, beta yang ada cukup kompleks (sekitar 40GB) dan sulit untuk diinstal. Namun, NVIDIA Chat With RTX bisa menjadi asisten AI lokal yang sangat berguna di masa depan.

Kode untuk permainan tersebut "Ular"ditulis oleh model bahasa terkuantisasi TheBloke/CodeLlama-7B-Instruct-GGUF

Kode untuk permainan “Snake”, ditulis oleh model bahasa terkuantisasi TheBloke/CodeLlama-7B-Instruct-GGUF

Aplikasi yang tercantum di atas melakukan semua perhitungan secara lokal, tidak mengirim data ke server dan dapat dijalankan secara offline sehingga Anda dapat dengan aman berbagi informasi rahasia dengan mereka. Namun, untuk sepenuhnya melindungi diri Anda dari kebocoran, Anda perlu memastikan tidak hanya keamanan model bahasa tetapi juga komputer Anda – dan di situlah solusi keamanan komprehensif kami berperan. Sebagaimana dikonfirmasi dalam pengujian independen, Kaspersky Premium praktis tidak berpengaruh. pada kinerja komputer Anda — sebuah keuntungan penting saat bekerja dengan model AI lokal.


#Cara #menjalankan #model #bahasa #dan #alat #lainnya #secara #lokal #komputer #Anda

Pertumbuhan pesat tahun lalu dalam aplikasi, layanan, dan plugin AI tampaknya akan semakin cepat. Dari aplikasi kantor dan editor gambar hingga lingkungan pengembangan terintegrasi (IDE) seperti Visual Studio — AI ditambahkan ke alat yang sudah dikenal dan sudah lama digunakan. Banyak pengembang membuat ribuan aplikasi baru yang menggunakan model AI terbesar. Namun, belum ada seorang pun dalam perlombaan ini yang mampu memecahkan masalah keamanan yang melekat, pertama-tama, meminimalkan kebocoran data rahasia, dan juga tingkat peretasan akun/perangkat melalui berbagai alat AI — belum lagi menciptakan perlindungan yang tepat. terhadap sesuatu yang futuristik. “AI yang jahat”. Sampai seseorang menemukan solusi luar biasa untuk melindungi pengguna asisten AI, Anda perlu mempelajari beberapa keterampilan dan membantu diri Anda sendiri.

Lantas, bagaimana caranya menggunakan AI tanpa penyesalan nantinya?

Saring data penting

Kebijakan privasi OpenAI, pengembang ChatGPT, dengan jelas menyatakan bahwa setiap dialog dengan chatbot disimpan dan dapat digunakan untuk beberapa tujuan. Pertama, untuk menyelesaikan masalah teknis dan mencegah pelanggaran persyaratan layanan: jika seseorang mendapat ide untuk membuat konten yang tidak pantas. Siapa sangka, bukan? Dalam hal ini, obrolan mungkin ditinjau oleh manusia. Kedua, data dapat digunakan untuk melatih GPT versi baru dan melakukan “peningkatan” pada produk lainnya.

Sebagian besar model bahasa populer lainnya — baik itu Bard dari Google, Claude dari Anthropic, atau Bing dan Copilot dari Microsoft — memiliki kebijakan yang sama: semuanya dapat menyimpan dialog secara keseluruhan.

Meskipun demikian, kebocoran obrolan yang tidak disengaja telah terjadi karena bug perangkat lunak, dengan pengguna melihat percakapan orang lain, bukan percakapan mereka sendiri. Penggunaan data ini untuk pelatihan juga dapat menyebabkan kebocoran data dari model yang telah dilatih sebelumnya: asisten AI dapat memberikan informasi Anda kepada seseorang jika diyakini relevan untuk ditanggapi. Pakar keamanan informasi bahkan telah merancang beberapa serangan (satu, dua, tiga) yang ditujukan untuk mencuri dialog, dan kemungkinan besar serangan tersebut tidak akan berhenti di situ.

Jadi, ingat: apa pun yang Anda tulis ke chatbot dapat digunakan untuk merugikan Anda. Kami menyarankan untuk mengambil tindakan pencegahan saat berbicara dengan AI.

Jangan mengirimkan data pribadi apa pun ke chatbot. Tidak ada kata sandi, nomor paspor atau kartu bank, alamat, nomor telepon, nama atau data pribadi lainnya milik Anda, perusahaan Anda, atau pelanggan Anda yang boleh dimasukkan ke dalam obrolan dengan AI. Anda dapat menggantinya dengan tanda bintang atau “TERSEDIA” dalam permintaan Anda.

Jangan mengunggah dokumen apa pun. Banyak plugin dan add-on yang memungkinkan Anda menggunakan chatbots untuk pemrosesan dokumen. Mungkin ada godaan kuat untuk mengunggah dokumen kerja, misalnya, untuk mendapatkan ringkasan eksekutif. Namun, dengan mengunggah dokumen multi-halaman secara sembarangan, Anda berisiko membocorkan data rahasia, kekayaan intelektual, atau rahasia komersial seperti tanggal rilis produk baru atau gaji seluruh tim. Atau, lebih buruk dari itu, saat memproses dokumen yang diterima dari sumber eksternal, Anda mungkin menjadi sasaran serangan yang bergantung pada dokumen yang dipindai oleh model bahasa.

Gunakan pengaturan privasi. Periksa dengan cermat kebijakan privasi vendor model bahasa besar (LLM) Anda dan pengaturan yang tersedia: ini biasanya dapat dimanfaatkan untuk meminimalkan pelacakan. Misalnya, produk OpenAI memungkinkan Anda menonaktifkan penyimpanan riwayat obrolan. Dalam hal ini, data akan dihapus setelah 30 hari dan tidak pernah digunakan untuk pelatihan. Mereka yang menggunakan API, aplikasi atau layanan pihak ketiga untuk mengakses solusi OpenAI mengaktifkan pengaturan tersebut secara default.

Kirim kode? Hapus semua data sensitif. Tip ini diberikan kepada insinyur perangkat lunak yang menggunakan asisten AI untuk meninjau dan meningkatkan kode mereka: hapus semua kunci API, alamat server, atau informasi lain apa pun yang dapat mengungkapkan struktur aplikasi atau konfigurasi server.

Batasi penggunaan aplikasi dan plugin pihak ketiga

Ikuti tips di atas setiap saat — apa pun asisten AI populer yang Anda gunakan. Namun, hal ini mungkin tidak cukup untuk menjamin privasi. Penggunaan plugin ChatGPT, ekstensi Bard, atau aplikasi tambahan terpisah menciptakan jenis ancaman baru.

Pertama, riwayat obrolan Anda kini dapat disimpan tidak hanya di server Google atau OpenAI tetapi juga di server pihak ketiga yang mendukung plugin atau add-on, serta di sudut-sudut yang tidak terduga di komputer atau ponsel cerdas Anda.

Kedua, sebagian besar plugin mendapatkan informasi dari sumber eksternal: penelusuran web, kotak masuk Gmail Anda, atau catatan pribadi dari layanan seperti Notion, Jupyter, atau Evernote. Akibatnya, data Anda dari layanan tersebut mungkin juga berada di server tempat plugin atau model bahasa itu sendiri berjalan. Integrasi semacam itu mungkin membawa risiko yang signifikan: misalnya, pertimbangkan serangan yang membuat repositori GitHub baru atas nama pengguna.

Ketiga, penerbitan dan validasi plugin untuk asisten AI saat ini merupakan proses yang kurang terorganisir dibandingkan, misalnya, penyaringan aplikasi di App Store atau Google Play. Oleh karena itu, peluang Anda untuk menemukan plugin yang tidak berfungsi, ditulis dengan buruk, bermasalah, atau bahkan berbahaya cukup tinggi — terutama karena tampaknya tidak ada yang benar-benar memeriksa pembuat atau kontak mereka.

Bagaimana Anda mengurangi risiko ini? Tip utama kami di sini adalah memberinya waktu. Ekosistem plugin masih terlalu muda, proses penerbitan dan dukungan tidak cukup lancar, dan pembuatnya sendiri tidak selalu berhati-hati dalam merancang plugin dengan benar atau mematuhi persyaratan keamanan informasi. Seluruh ekosistem ini membutuhkan lebih banyak waktu untuk matang dan menjadi lebih aman dan dapat diandalkan.

Selain itu, nilai yang ditambahkan oleh banyak plugin dan add-on ke versi stok ChatGPT sangat minim: perubahan kecil pada UI dan templat “system prompt” yang menyesuaikan asisten untuk tugas tertentu (“Bertindak sebagai guru fisika sekolah menengah…”) Pembungkus ini tentu saja tidak ada gunanya memercayai data Anda, karena Anda dapat menyelesaikan pekerjaan dengan baik tanpanya.

Jika Anda memerlukan fitur plugin tertentu saat ini, cobalah mengambil tindakan pencegahan maksimal yang tersedia sebelum menggunakannya.

  • Pilih ekstensi dan add-on yang telah ada setidaknya selama beberapa bulan dan diperbarui secara berkala.
  • Hanya pertimbangkan plugin yang memiliki banyak unduhan dan baca ulasan dengan cermat untuk masalah apa pun.
  • Jika plugin dilengkapi dengan kebijakan privasi, bacalah dengan cermat sebelum ini Anda mulai menggunakan ekstensi.
  • Pilih alat sumber terbuka.
  • Jika Anda memiliki keterampilan pengkodean dasar — ​​atau sesama pembuat kode — tinjau kode tersebut untuk memastikan kode tersebut hanya mengirimkan data ke server yang dinyatakan dan, idealnya, hanya server model AI.

Plugin eksekusi memerlukan pemantauan khusus

Sejauh ini, kita telah membahas risiko yang terkait dengan kebocoran data; tapi ini bukan satu-satunya potensi masalah saat menggunakan AI. Banyak plugin yang mampu melakukan tindakan tertentu atas perintah pengguna — seperti memesan tiket penerbangan. Alat ini memberikan vektor serangan baru kepada pelaku kejahatan: korban disuguhi dokumen, halaman web, video, atau bahkan gambar yang berisi instruksi tersembunyi untuk model bahasa selain konten utama. Jika korban memasukkan dokumen atau tautan ke chatbot, bot tersebut akan menjalankan instruksi jahat — misalnya, dengan membeli tiket menggunakan uang korban. Jenis serangan ini disebut injeksi instan, dan meskipun berbagai pengembang LLM telah mencoba mengembangkan perlindungan terhadap ancaman ini, belum ada yang berhasil – dan mungkin tidak akan pernah berhasil.

Untungnya, sebagian besar tindakan penting — terutama yang melibatkan transaksi pembayaran seperti pembelian tiket — memerlukan autentikasi dua faktor. Namun, interaksi antara model bahasa dan plugin menciptakan permukaan serangan yang besar sehingga sulit untuk menjamin hasil yang konsisten dari langkah ini.

Oleh karena itu, Anda harus sangat berhati-hati saat memilih alat AI, dan juga memastikan bahwa alat tersebut hanya menerima data yang dipercaya untuk diproses.


#Penggunaan #yang #aman #rumah #dan #tempat #kerja

Abdi rada bosen ayeuna kana sadaya warta AI, tapi sigana kuring kedah tahan sakedik deui, sabab éta pasti bakal diomongkeun tanpa lirén sahenteuna sahenteuna atanapi dua taun deui. Henteu yén AI bakal ngeureunkeun ningkatkeun, tangtosna; Éta ngan ukur wartawan, blogger, TikTokers, Tweeter, sareng spiker sanésna di luar sana antukna bakal bosen kana topik éta. Tapi pikeun ayeuna, sumanget maranéhanana keur ngalarti teu ukur ku raksasa tech, tapi ogé ku pamaréntah: Britania ngarencanakeun pikeun ngawanohkeun tilu arah régulasi AI; Cina ngalebetkeun tagihan AI pikeun debat umum; AS nyauran “akuntabilitas algoritma”; EU keur ngabahas tapi teu acan lulus tagihan on AI, jeung saterusna. Rencana abound keur mangsa nu bakal datang, tapi, nepi ka ayeuna, kreasi sarta pamakéan sistem AI teu kungsi diwatesan pisan; Nanging, sigana bakal énggal-énggal robih.

Isu anu tiasa diperdebatkeun, tangtosna, nyaéta kieu: naha urang peryogi pangaturan pamaréntahan AI? Lamun enya – naha, sarta kumaha eta kasampak kawas?

Naon pikeun ngatur

Naon kecerdasan jieunan? (Henteu) hatur nuhun kana departemén pamasaran, istilah éta parantos dianggo pikeun seueur hal – tina modél generatif canggih sapertos GPT-4, dugi ka sistem pembelajaran mesin pangbasajanna, kalebet sababaraha anu parantos aya mangpuluh-puluh taun. Inget Т9 dina telepon push-tombol? Kantos nguping spam otomatis sareng klasifikasi file jahat? Naha anjeun ningali rekomendasi pilem dina Netflix? Sadayana téknologi akrab ieu dumasar kana algoritma pembelajaran mesin (ML), alias “AI”.

Di dieu di Kaspersky, urang geus ngagunakeun téhnologi misalna dina produk urang pikeun ampir 20 taun, sok preferring pikeun nelepon deui “mesin learning” – lamun ngan kusabab “kecerdasan jieunan” sigana ngingetkeun lolobana jalma hal kawas ngomong supercomputers dina spaceships jeung lianna. barang langsung kaluar tina fiksi ilmiah. Nanging, komputer sareng droids sapertos kitu kedah tiasa pinuh mikir sapertos manusa – pikeun maréntahkeun intelijen buatan umum (AGI) atanapi intelijen super-jieunan (ASI), tapi boh AGI atanapi ASI henteu acan diciptakeun, sareng boro-boro kitu. dina mangsa nu bakal datang.

Barina ogé, upami sagala jinis AI diukur ku yardstick anu sami sareng diatur sapinuhna, sakumna industri IT sareng seueur industri anu aya hubunganana henteu bakal saé pisan. Contona, upami urang (Kaspersky) bakal dipenta pikeun ménta idin ti sakabéh “pangarang” runtuyan latihan urang, urang, salaku parusahaan kaamanan informasi, bakal ngajalankeun kana roadblock a. Urang diajar tina malware sareng spam, sareng ngalebetkeun pangaweruh anu dicandak kana pembelajaran mesin urang, sedengkeun panyipta langkung resep nahan data kontakna (anu terang?!). Ogé, nunjukkeun yen data geus dikumpulkeun sarta algoritma urang geus dilatih pikeun ampir 20 taun ayeuna – sabaraha jauh deui nu geus kaliwat hiji ekspektasi?

Ku alatan éta, hal anu penting pikeun anggota DPRD ngadangukeun, teu pamasaran jalma, tapi pikeun mesin learning / ahli industri AI sarta ngabahas poténsi pangaturan dina cara husus tur difokuskeun: contona, kamungkinan ngagunakeun sistem multi-fungsi anu dilatih dina volume badag. tina data kabuka, ageung atanapi tanggung jawab luhur sareng sistem pengambilan kaputusan tingkat résiko.

Sareng aplikasi AI énggal ngabutuhkeun révisi pangaturan anu sering.

Naha diatur?

Jujur, kuring henteu percanten kana Poé Kiamat anu dibantuan intelijen super dina saratus taun ka hareup. Tapi kuring yakin dina loba headaches ti pamakéan thoughtless tina kotak hideung komputer.

Salaku panginget pikeun anu henteu acan maca tulisan kami ngeunaan kabungahan sareng kasedih tina pembelajaran mesin, aya tilu masalah utama sareng AI naon waé:

  • Henteu écés kumaha saé data latihan anu dianggo pikeun éta.
  • Henteu jelas pisan naon anu AI parantos “ngarti” tina stok data éta, atanapi kumaha AI nyandak kaputusan na.
  • Sareng anu paling penting – algoritma tiasa disalahgunakeun ku pamekar sareng pangguna na.

Sapertos kitu, naon waé tiasa kajantenan: tina panyalahgunaan AI anu jahat, dugi ka patuh kana kaputusan AI. Conto grafis tina kahirupan nyata: kasalahan autopilot fatal, deepfakes (1, 2, 3) anu ayeuna jadi kabiasaan di memes komo warta, kasalahan konyol dina kontrak guru sakola, pulisi nyekel shoplifters tapi jalma salah, sarta misogynistic AI parabot recruiting. . Sajaba ti éta, sagala AI bisa diserang ku bantuan sampel data adversarial husus crafted: kandaraan bisa tricked maké stiker, hiji bisa nimba informasi pribadi tina GPT-3, sarta anti virus atawa EDR ogé bisa ditipu. Sareng ku jalan kitu, serangan dina drone tempur AI anu dijelaskeun dina fiksi ilmiah sigana henteu langkung tebih deui.

Pondokna, pamakean AI henteu acan nyiptakeun masalah anu ageung, tapi pasti aya seueur poténsi pikeun éta. Ku alatan éta, prioritas pangaturan kudu jelas:

  1. Nyegah insiden infrastruktur kritis (pabrik/kapal/jalur transmisi listrik/pembangkit listrik nuklir).
  2. Ngaminimalkeun ancaman fisik (kandaraan nyetir sorangan, salah diagnosis panyakit).
  3. Ngaminimalkeun karuksakan pribadi jeung resiko bisnis (ditewak atawa rekrutmen dumasar kana ukuran tangkorak, requisition / pengadaan miscalculations, jsb).

Tujuan régulasi kedah maksa pangguna sareng padagang AI pikeun ati-ati supados henteu ningkatkeun résiko négatip ieu kajantenan. Sareng résiko anu langkung serius, langkung aktip kedah dipaksa.

Aya perhatian sejen anu mindeng timbul lamun datang ka AI: kudu sasuai jeung norma moral jeung etika, sarta pikeun minuhan kanyamanan psikologis, maksudna. Pikeun tujuan ieu, urang ningali panggeuing anu dipasihkeun pikeun ngabéjaan yén aranjeunna ningali obyék anu henteu aya (digambar AI) atanapi komunikasi sareng robot tibatan manusa, ogé béwara anu nginpokeun aranjeunna yén hak cipta dihormat nalika latihan AI, jeung saterusna. Jeung naha? Janten anggota parlemén sareng padagang AI henteu janten targét pikeun gerombolan ambek! Sareng ieu mangrupikeun perhatian anu nyata di sababaraha bagian dunya (inget protés ngalawan Uber, contona).

Kumaha nyetél

Cara pangbasajanna pikeun ngatur AI nyaéta ngalarang sadayana, tapi sigana pendekatan ieu henteu acan sayogi. Barina ogé, henteu gampang ngalarang AI tibatan komputer. Ku alatan éta, sagala ukuran pangaturan lumrah kudu nuturkeun prinsip “nu gede resiko, beuki stringent kaayaan”.

Modél pembelajaran mesin anu digunakeun pikeun hal anu rada sepele – sapertos rekomendasi pembeli ritel – tiasa teu tiasa diatur, tapi modél anu langkung canggih – atanapi langkung sénsitip kana daérah aplikasi – syarat anu drastis pikeun ngical paralatan sareng pangguna sistem. Salaku conto:

  • Kirimkeun kode modél atanapi set data latihan pikeun ditinjau ka régulator atanapi ahli.
  • Ngabuktoskeun kateguhan set data pelatihan, kalebet tina segi bias, hak cipta sareng sajabana.
  • Ngabuktikeun kawajaran “output” AI; contona, bebas tina halusinasi.
  • Labél operasi sareng hasil AI.
  • Ngamutahirkeun modél sareng set data pelatihan; contona, nyaring jalma kalawan warna kulit tangtu tina data sumber, atawa nyumputkeun rumus kimia pikeun hiji ngabeledug dina kaluaran model.
  • Uji AI pikeun “data lawan”, sareng ngapdet paripolahna upami diperyogikeun.
  • Kontrol saha anu ngagunakeun AI tangtu sareng kunaon. Nolak sababaraha jinis pamakean.
  • Ngalatih AI badag, atawa dilarapkeun ka wewengkon husus, ngan kalawan persetujuan pangaturan.
  • Ngabuktikeun yén éta aman ngagunakeun AI pikeun ngarengsekeun sababaraha masalah. Pendekatan ieu pisan aheng pikeun IT, tapi leuwih ti akrab, contona, pausahaan farmasi, pabrik pesawat, sarta loba industri lianna dimana kaamanan nyaeta di forefront. Kahiji datang lima taun nguji teleb, lajeng clearance pangaturan, sarta ngan lajeng hiji produk bisa dileupaskeun pikeun pamakéan umum.

Ukuran terakhir sigana ketat teuing, tapi ngan dugi ka anjeun terang ngeunaan kajadian dimana AI ngacokeun prioritas perawatan pikeun asma sareng penderita pneumonia akut sareng nyobian ngirim aranjeunna ka bumi tinimbang ka unit perawatan intensif.

Ukuran penegak tiasa dibasajankeun denda pikeun ngalanggar aturan AI (saluyu sareng hukuman Éropa pikeun ngalanggar GDPR) dugi ka lisénsi kagiatan anu aya hubunganana sareng AI sareng sanksi kriminal pikeun ngalanggar hukum (sakumaha anu diajukeun di China).

Tapi naon cara anu leres?

Di handap ieu ngagambarkeun pamadegan pribadi kuring – tapi dumasar kana 30 taun ngungudag aktip ngembangkeun téhnologis canggih dina industri cybersecurity: ti mesin learning kana sistem “aman-demi-desain”.

Kahiji, urang butuh regulasi. Tanpa éta, AI bakal sapertos jalan raya tanpa aturan lalu lintas. Atanapi, langkung relevan, éta nyarupaan kaayaan pangumpulan data pribadi online dina ahir taun 2000-an, nalika ampir saha waé bakal ngumpulkeun sadayana anu tiasa dicandak. Luhureun sadaya, pangaturan nyorong disiplin diri pamilon pasar.

Kadua, urang kedah maksimalkeun harmonisasi sareng kerjasama internasional dina peraturan – sapertos standar téknis dina komunikasi sélulér, internét, sareng sajabana. Ieu disada utopia tinangtu realitas geopolitik modern, tapi éta teu nyieun naon kirang desirable.

Katilu, pangaturan henteu kedah ketat pisan: sigana pondok pikeun ngahirupkeun industri ngora anu dinamis sapertos kieu kalayan régulasi anu langkung ageung. Ku alatan éta, urang peryogi mékanisme pikeun ngarévisi aturan remen pikeun tetep abreast téhnologi jeung kamajuan pasar.

Kaopat, aturan, tingkat résiko, sareng tingkat ukuran pelindung kedah ditangtukeun ku konsultasi sareng sajumlah ageung ahli anu berpengalaman sareng relevan.

Kalima, urang teu kudu nungguan sapuluh taun. Kuring parantos nyarioskeun ngeunaan résiko serius anu aya dina Internet of Things sareng ngeunaan kerentanan dina alat-alat industri salami langkung ti dasawarsa, sedengkeun dokumén sapertos EU Cyber ​​​​Resilience Act munggaran muncul (salaku draf!) ngan taun ka tukang.

Tapi éta sadayana pikeun ayeuna guys! Sareng ucapan salamet ka anjeun anu parantos maca ieu dugi ka akhir – hatur nuhun sadayana! Sareng ieu pikeun masa depan anu pikaresepeun – aman sareng AI anu ningkat!…


#Perda #pamaréntah #naha #sareng #kumaha

Jaringan (saraf) anjeun bocor

Panaliti di paguron luhur di AS sareng Swiss, dina kolaborasi sareng Google sareng DeepMind, parantos nyebarkeun makalah anu nunjukkeun kumaha data tiasa bocor tina sistem generasi gambar nganggo algoritma pembelajaran mesin DALL-E, Imagen, atanapi Stable Diffusion. Sagalana jalan dina cara nu sarua dina sisi pamaké: Anjeun ngetik query téks husus – contona, “korsi leungeun ngawangun kawas alpukat” – sarta meunang hiji gambar balik gantina.

Gambar dihasilkeun ku jaringan saraf Dall-E

Gambar dihasilkeun ku jaringan saraf Dall-E. Sumber.

Sadaya sistem ieu dilatih dina sajumlah ageung (puluhan atanapi ratusan rébu) gambar sareng déskripsi anu tos disiapkeun. Gagasan di balik jaringan saraf sapertos kitu, ku ngonsumsi jumlah data latihan anu ageung, aranjeunna tiasa nyiptakeun gambar anu énggal sareng unik. Sanajan kitu, kacindekan utama tina ulikan anyar éta gambar ieu teu salawasna unik. Dina sababaraha kasus, kasebut nyaéta dimungkinkeun pikeun maksa jaringan saraf pikeun baranahan ampir persis gambar aslina saméméhna dipaké pikeun latihan. Sareng éta hartosna jaringan saraf tanpa disadari tiasa ngungkabkeun inpormasi pribadi.

Gambar dihasilkeun ku Stable Diffusion neural network (katuhu) sareng gambar asli tina set latihan (kénca)

Gambar dihasilkeun ku Stable Diffusion neural network (katuhu) sareng gambar asli tina set latihan (kénca). Sumber.

Langkung seueur data pikeun “dewa data”

Kaluaran tina sistem pembelajaran mesin pikeun ngaréspon patarosan tiasa sigana sapertos sihir pikeun non-spesialis: “woah – éta sapertos robot anu terang!”! Tapi sabenerna teu aya keajaiban …

Sadaya jaringan saraf dianggo langkung atanapi kirang dina cara anu sami: algoritma diciptakeun anu dilatih dina sakumpulan data – sebutkeun runtuyan gambar ucing sareng anjing – kalayan pedaran naon anu sabenerna digambarkeun dina unggal gambar. Sanggeus fase latihan, algoritma ditémbongkeun gambar anyar jeung dipenta pikeun nangtukeun naha éta téh ucing atawa anjing. Ti mimiti anu hina ieu, pamekar sistem sapertos kitu ngalih ka skenario anu langkung kompleks: algoritma anu dilatih dina sababaraha gambar ucing nyiptakeun gambar piaraan anu henteu pernah aya dina paménta. Ékspérimén sapertos kitu dilaksanakeun henteu ngan ukur nganggo gambar, tapi ogé nganggo téks, pidéo sareng sora: kami parantos nyerat ngeunaan masalah deepfakes (dimana pidéo anu dirobih sacara digital tina (lolobana) politikus atanapi selebriti sigana nyarioskeun hal-hal anu henteu pernah dilakukeun) . ngalakukeun.).

Pikeun sakabéh jaringan saraf, titik awal nyaéta sakumpulan data latihan: jaringan saraf teu bisa nyieun éntitas anyar kaluar nanaon. Pikeun nyieun gambar ucing, hiji algoritma kudu diajar rébuan poto sabenerna atawa gambar sato. Aya seueur alesan pikeun ngajaga set data ieu pribadi. Sababaraha di antarana aya dina domain publik; set data sejenna mangrupakeun hak cipta intelektual pausahaan ngembangkeun nu investasi deal gede waktu jeung usaha pikeun nyieun aranjeunna dina harepan achieving kaunggulan kalapa. Masih batur anu, ku harti, informasi sénsitip. Contona, percobaan keur dijalankeun pikeun ngagunakeun jaringan saraf pikeun nangtukeun jenis panyakitna kasakit dumasar kana sinar-X sarta scan médis séjén. Ieu ngandung harti yén data latihan algorithmic ngandung data kaséhatan sabenerna ti jalma nyata, nu, alesan atra, teu kudu digolongkeun kana leungeun salah.

Diffuse

Sanaos algoritma pembelajaran mesin sigana sami sareng urang luar, aranjeunna saleresna béda. Dina makalahna, panalungtik nengetan husus ka mesin learning modél difusi. Gawéna saperti kieu: data latihan (deui gambar jalma, mobil, imah, jsb) distort ku nambahkeun noise. Sareng jaringan saraf teras dilatih pikeun ngabalikeun gambar ka kaayaan aslina. Metoda ieu ngamungkinkeun pikeun ngahasilkeun gambar tina kualitas santun, tapi hiji aral poténsial (dibandingkeun jeung algoritma dina jaringan adversarial generative, contona) nyaeta kacenderungan na gede pikeun bocor data.

Data aslina bisa sasari ti aranjeunna dina sahanteuna tilu cara béda: Kahiji, ngagunakeun query custom, anjeun tiasa maksakeun jaringan neural balik – lain hal unik, dihasilkeun dumasar kana rébuan gambar – tapi gambar sumber husus. Kadua, gambar asli tiasa direkonstruksi sanaos ngan ukur sawaréh aya. Katilu, mungkin pikeun nangtukeun naha gambar tinangtu aya dina data latihan atanapi henteu.

Sering pisan, jaringan saraf … puguh, sarta tinimbang gambar anyar, aranjeunna ngahasilkeun hal ti set latihan lamun ngandung sababaraha duplikat tina gambar anu sarua. Salian conto di luhur sareng poto Ann Graham Lotz, ieu panalungtikan nyayogikeun sababaraha hasil anu sami:

Baris ganjil: gambar aslina.  Baris malah: gambar dihasilkeun ku Stabil Difusi v1.4

Baris ganjil: gambar aslina. Baris malah: gambar dihasilkeun ku Stabil Difusi v1.4. Sumber.

Upami gambar diduplikasi dina set latihan langkung ti saratus kali, kamungkinan kamungkinan bocor dina bentuk aslina. Nanging, panalungtik nunjukkeun cara pikeun nyandak gambar latihan anu ngan ukur muncul sakali dina set aslina. Metoda ieu jauh kurang éfisién: tina lima ratus gambar anu diuji, algoritma sacara acak ngan ukur tilu. Métode anu paling artistik pikeun nyerang jaringan saraf ngalibatkeun nyiptakeun gambar sumber ngan ukur nganggo bagian tina éta salaku input.

Para panalungtik naroskeun ka jaringan saraf pikeun ngalengkepan gambar, saatos ngaleungitkeun sababaraha éta.  Ngalakukeun ieu bisa dipaké pikeun nangtukeun kalawan akurasi lumrah naha gambar tinangtu aya dina set latihan.  Lamun kitu, algoritma machine learning ngahasilkeun salinan ampir-pasti tina poto atawa gambar aslina

Para panalungtik naroskeun ka jaringan saraf pikeun ngalengkepan gambar, saatos ngaleungitkeun sababaraha éta. Ngalakukeun ieu bisa dipaké pikeun nangtukeun kalawan akurasi lumrah naha gambar tinangtu aya dina set latihan. Lamun kitu, algoritma machine learning ngahasilkeun salinan ampir-pasti tina poto atawa gambar aslina. Sumber.

Dina titik ieu, hayu urang ngalihkeun perhatian urang kana masalah jaringan saraf sareng hak cipta.

Anu maling ti saha?

Dina Januari 2023, tilu seniman ngagugat panyipta layanan ngahasilkeun gambar anu ngagunakeun algoritma pembelajaran mesin. Aranjeunna ngaku (justifiably) yén pamekar jaringan neural geus ngalatih aranjeunna dina gambar dikumpulkeun online tanpa respecting hak cipta. Jaringan saraf memang tiasa niru gaya seniman anu tangtu, sareng ku kituna ngaleungitkeun pendapatan. Tulisan nunjukkeun yén dina sababaraha kasus algoritma tiasa, pikeun sababaraha alesan, kalibet dina plagiarisme langsung, nyababkeun gambar, foto sareng gambar sanés anu ampir sami sareng karya jalma nyata.

Panaliti ngadamel saran pikeun nguatkeun privasi set latihan asli:

  • Nyingkirkeun duplikat.
  • Reprocess gambar latihan, contona ku nambahkeun noise atawa ngarobah kacaangan; ieu ngajadikeun data bocor kurang kamungkinan.
  • Uji algoritma nganggo gambar latihan khusus sareng pariksa yén éta henteu ngahaja ngahasilkeun deui sacara akurat.

Naon salajengna?

Étika sareng legalitas seni generatif tangtosna mangrupikeun perdebatan anu pikaresepeun – dimana kasaimbangan kedah dipilarian antara seniman sareng pamekar téknologi. Di hiji sisi, hak cipta kudu dihargaan. Di sisi anu sanés, naha seni komputer béda pisan sareng manusa? Dina dua kasus, panyipta ngagambar inspirasi tina karya kolega sareng pesaing.

Tapi hayu urang balik deui ka bumi sareng ngobrol ngeunaan kaamanan. Tulisan ieu nyayogikeun sakumpulan fakta khusus ngeunaan ngan hiji modél pembelajaran mesin. Manjangkeun konsép pikeun sadayana algoritma sarupa, urang anjog ka kaayaan metot. Henteu sesah ngabayangkeun skenario dimana asisten pinter operator sélulér ngabagi inpormasi perusahaan anu sénsitip pikeun ngaréspon pamundut pangguna: saatosna, éta aya dina data pelatihan. Atanapi, contona, patarosan licik anu menipu jaringan saraf umum pikeun ngahasilkeun salinan paspor batur. Para panalungtik negeskeun yén masalah sapertos kitu tetep téoritis pikeun ayeuna.

Tapi masalah anu sanés parantos aya di urang. Nalika urang nyarios, jaringan saraf anu ngahasilkeun téks ChatGPT dianggo pikeun nyerat kode jahat nyata anu (kadang-kadang) jalanna. Jeung GitHub Copilot mantuan programer nulis kode ngagunakeun jumlah badag software open source salaku input. Sareng alat-alat éta henteu salawasna hormat hak cipta sareng privasi pangarang anu kodena ditungtungan dina set data pelatihan anu ageung. Nalika jaringan saraf berkembang, serangan ngalawan aranjeunna ogé bakal kajantenan – kalayan akibat anu teu acan aya anu ngartos.


#Jaringan #saraf #nembongkeun #gambar #anu #digunakeun #pikeun #ngalatih #aranjeunna