'Veri zehirlenmesi' anti-AI hırsızlığı araçları ortaya çıkıyor - peki bunlar etik mi? - Dünyadan Güncel Teknoloji Haberleri

'Veri zehirlenmesi' anti-AI hırsızlığı araçları ortaya çıkıyor - peki bunlar etik mi? - Dünyadan Güncel Teknoloji Haberleri
Veri kazımaya karşı birçok teknolojik savunmanın geçmişi 2018’e kadar uzanıyor olsa da Nightshade, daha önce görülmemiş bir şey

Hancock, genAI geliştirme şirketlerinin, hükümet düzenleyicilerinin fikri mülkiyet korumaları konusunda ne kadar agresif “ya da değil” olacağını görmeyi beklediklerini söyledi ”

Amorf LLM’ler, genel amaçlar için kullanılabildikleri için alana özgü LLM’lerle birlikte büyümeye devam edecek; bu da, kontrolsüz IP kazımasını engelleyen araçların da büyümeye devam edeceği anlamına geliyor

Peki veri zehirlenmesi etik değil mi?

Şirketlerin alana özel kullanım için Yüksek Lisans (LLM) geliştirmelerine yardımcı olan bir girişim olan Snorkel AI’nin teknoloji başkanı ve kurucu ortağı Bradon Hancock, Nightshade’in AI geliştiricileri tarafından veri kazımasını engellemek için başka çabaları teşvik edebileceğine inanıyor Bu tür geçici çözümleri önlemek için yeni teknikler ortaya çıktı, ancak bu sürekli gelişen bir mücadele “Bu benim verilerim veya sanat eserim” dedi Modeller, kullanıcılardan gelen yanıtları üretmek veya soruları çözmek için internetten ve satın alınan veri kümeleri de dahil olmak üzere diğer yerlerden derledikleri verilerden öğrenir “Dolayısıyla, bu davaların sonucunun, telif hakkıyla korunan eserin sahibinin izni olmadan eleştiri, hiciv, adil yorum veya habercilik gibi amaçlarla kullanılmasına izin veren adil kullanım doktrininin yorumlanmasına bağlı olması bekleniyor

Bu arada sanatçılar da hayal kırıklıklarında ve tepkilerinde tamamen haklılar

Çevrimiçi bulunan içeriğin adil kullanımını neyin oluşturduğuna dair mücadele, bu konuda yapılanların merkezinde yer alıyor

Nightshade – bir genAI kabusu mu?

Teknoloji, AI büyük dil modeli (LLM) eğitim verilerini bozarak görüntü üreten genAI araçlarına zarar verebilir; bu da DALL-E, Midjourney ve Stable Diffusion gibi platformların hatalı resim veya videolar yayınlamasına yol açar

Hancock, “Bir modele aktarmanız gereken bu kadar çok veriye sahip olduğunuzda, ne kadar paralelleştirme yaptığınıza bağlı olarak haftalarca veya aylarca çalıştıracağınız yüzlerce veya binlerce özel hızlandırıcıya (CPU’lar veya GPU’lar) ihtiyaç duyarsınız Mücadele sanat eserinin ötesine geçerek genAi şirketlerinin Microsoft ve ortağı OpenAI gibiyazılım kodunu ve diğer yayınlanmış içerikleri modellerine dahil edebilir

“Bu şu anda büyük bir tartışma konusu,” diye ekledi Japonya, yapay zeka tarafından üretilen sanatın telif hakkı yasalarını ihlal etmediğini söylüyor” dedi Litan

Microsoft o kadar ileri gitti ki Copilot kullanıcılarına söyleyin Şirketin aracına yerleştirdiği içerik filtrelerini ve korkulukları kullanmazlarsa yasal olarak korunmazlar

Avivah Litan, “Nightshade gibi bir araç çok gerçek ve benzer araçlar, bilgisayar korsanları ve suçlular tarafından model eğitim verilerini kendi çıkarları doğrultusunda zehirlemek için (örneğin, bir uydu veya GPS sistemini kandırmak ve böylece düşman tespitini önlemek için) yıllardır kullanılıyor” dedi Zhao’ya göre Nightshade teknolojisi sonunda Glaze’e entegre edilecek Örneğin yapay zeka tarafından araba olarak yorumlanan bir fotoğraf aslında bir tekne olabilir; bir ev muza dönüşür; bir kişi balinaya dönüşür vb “Artık bunu yapmak zorunda kalacaklar Zhao okulun lisansüstü öğrencileriyle çalıştı

Bu tür araçların kullanımının etik olup olmadığı, bunların nereye yönelik olduğuna bağlı olduğunu söyledi “Bunu kamuoyuna açıkladım ve bir şeyle maskeledim ”

genAI geliştiren şirketler, çevrimiçi içeriğin ayrım gözetmeksizin kazınmasından daha sık vazgeçiyor ve bunun yerine, fikri mülkiyet mevzuatına aykırı olmadıklarından emin olmak için içerik satın alıyor

“AB Yapay Zeka Yasası, yapay zeka modeli üreticilerinin ve geliştiricilerinin, modellerini eğitmek için kullanılan telif hakkı materyallerini açıklamaları gerektiğine dair bir kural önermektedir Yani benim iznim olmadan alıyorsan bu senin sorunun Veri gizliliğini koruma konusunda genellikle ABD’ye göre biraz daha rahatlar ve biz de sonunda aynı yolu izliyoruz” dedi Hancock Sonuç: OpenAI’nin GPT-4, Google’ın PaLM 2’si veya Meta’nın Llama 2 modellerinden daha küçük veri kümelerine sahip LLM’ler Bu şekilde, AI hizmetlerini satın alan müşterilere, içerik yaratıcıları tarafından dava edilmeyeceklerine dair güvence sunabilirler


Teknoloji uzmanları, eğitim algoritmaları otomatik olarak interneti ve diğer yerleri içerik için tarayan üretken yapay zeka (genAI) araçlarıyla, sanatçıların fikri mülkiyet (IP) hırsızlığı olarak gördükleri şeye karşı mücadele etmelerine yardımcı oluyor

“Ve bu davalarda yargı yetkisine bağlı olarak pek çok değişiklik var; farklı eyalet veya federal çevre mahkemeleri farklı yorumlarla yanıt verebilir” dedi İsminde İtüzümüBu teknoloji, genAI eğitim algoritmasını, gerçekte tamamen farklı bir şeyi yutarken, bir şeyi aldığına inandırmak için “gizleme”yi kullanıyor ”

Jyoti’ye göre şirketler, binlerce ve hatta milyonlarca lisanslı veya lisanssız çalışma içeren veri göllerini kullanarak yapay zeka içerik oluşturma araçlarını rutin olarak eğitiyor

Düzenlenemeyecek kadar hızlı mı gelişiyorsunuz?

Jyoti’ye göre her durumda, hukuk sisteminden fikri mülkiyet yasaları kapsamında özel bir çalışmanın ne olduğunu açıklığa kavuşturması isteniyor

Litan, “Böyle bir aracın etiğini yargılayamam; yalnızca yangına ateşle karşılık vermeye yardımcı olduğunu ve büyük model geliştiricileri ve sağlayıcıları için çıtayı yükselttiğini söyleyebilirim” dedi KUM Laboratuvarıbu yılın başlarında ayrıca ücretsiz bir hizmet başlattı isminde Sır genAI modelleri tarafından kazınmaması için kendi IP’lerini maskelemek

Google şu anda dahil toplu dava Şirketin genAI sistemlerini eğitmek için veri toplamasının milyonlarca insanın mahremiyetini ve mülkiyet haklarını ihlal ettiğini iddia ediyor “Çoğu zaman olduğu gibi, burada liderlik için Avrupa’ya bakacağımızdan şüpheleniyorum

Jyoti, “Konuştuğum her şirket, tüm teknoloji şirketleri, IBM, Adobe, Microsoft tazminat teklif ediyor” dedi ” Litan söz konusu ” söz konusu “Telif haklarına ilişkin ABD federal yasaları hâlâ mevcut değil, ancak hükümet yetkilileri ve endüstri liderleri arasında içerik kaynak standartlarının kullanılması veya zorunlu kılınması konusunda tartışmalar var Gartner’da başkan yardımcısı ve seçkin analist

İlk kez bildirildi MİT’ler Teknoloji İncelemesiNightshade, esasen yapay zeka modellerinin bir görüntüyü gerçekte gösterdiğinden farklı bir şey olarak yorumlamasını sağlıyor “Amacınız daha çok ‘beni kazıma’ yönündeyse ve aktif olarak bir modeli mahvetmeye çalışmıyorsanız, sanırım benim için çizgi burada İçerik oluşturucuları korumanın başka bir yöntemi de şunları içerir: kaynak içerik referansları Çeşitli yapay zeka modeli satıcıları veya üçüncü taraf firmalar tarafından sağlanan genAI çıktılarında Kalipso AI Ve Veri Robotu Finansal hizmet şartları ve piyasa bilgileri gibi daha hedefe yönelik veri ve dil kullanmanın yanı sıra, temel LLM’ler hala çok büyük miktarda işlemci döngüsü tüketebilir ve eğitimleri milyonlarca dolara mal olabilir 2015 yılında Google tarihi bir mahkeme kararını kazandı kütüphane kitaplarını dijitalleştirmesine izin veriyor

“Microsoft 365 Copilot RAG kullanıyor, böylece modellerden kullanıcılara verilen yanıtlar her zaman kuruluşun özel verilerine dayanıyor, bu nedenle M365 Copilot kurallarına uydukları ve korkuluklarını kullandıkları sürece işletmeleri telif hakkı ihlallerine karşı koruyorlar



genel-13

Gartner’dan Litan’a göre, kullanıcıların çalınan IP’ye karşı tazmin edilmesinin yanı sıra, görüntülerin ve diğer nesnelerin kaynağını destekleyen içerik kimlik doğrulama standartları oluşturmak için endüstri çabaları sürüyor

Özelleştirilmiş genAI kurtarmaya mı gidiyor?

Snorkel AI, tamamen belirli alanlar ve uygulamalar için temel genAI modellerini özelleştirmeye ve uzmanlaştırmaya odaklanmış bir şirkettir OpenAI ve IBM, yorum taleplerine yanıt vermedi

Nightshade, Chicago Üniversitesi araştırmacıları tarafından geliştirildi Buna veri toplamaya harcanan süre bile dahil değil ” Modellerini bu tür düşmanca saldırıları ve veri zehirlenmelerini göz ardı edecek şekilde eğitmek için çok para harcıyorlar , veya öğretim veya sınıfta kullanım için

Litan’a göre bugüne kadar hükümetin genAI modellerine karşı fikri mülkiyet korumasını ele alma çabaları en iyi ihtimalle dengesiz Kim en güçlü ve en etkili yapay zekaya sahipse o kazanacak

Bir Microsoft sözcüsü şirketin herhangi bir yorumu olmadığını söyledi ”

Araştırma firması IDC’de başkan yardımcısı analisti olan Ritu Jyoti, konuyu Nightshade’in ne olduğuyla ilgili bir sorudan ziyade etikle ilgili bir soru olarak görüyor

Hancock, “Modele genel eğitimden bilmesi gerekenleri öğretmek için hala onlarca veya yüzlerce veri noktasından değil, binlerce veya on binlerce veri noktasından bahsediyoruz” dedi

Yeni bir yöntem şunu kullanıyor:veri zehirlenmesi saldırılarıgenAI eğitim verilerini manipüle etmek ve makine öğrenimi modellerine beklenmedik davranışlar eklemek için

Hancock, “Bunun etik olmayan kullanımları olduğunu düşünüyorum; örneğin, sürücüsüz araçların dur işaretlerini ve hız sınırı işaretlerini tanımalarına yardımcı olan verilerini zehirlemeye çalışıyorsanız” dedi “IBM duyurdu [it] Bir model piyasaya sürülecek ve eğer bir işletme bunu kullanıyorsa, bir dava açılırsa emin ellerdedirler, çünkü IBM sağlayacak tazminatla onları

Temel modelleri“Transformatörler” olarak da bilinen , binlerce, hatta milyonlarca parça ham, etiketlenmemiş veri üzerinde eğitilmiş büyük ölçekli üretken yapay zeka modelleridir “Donanımın kendisi pahalı ama aynı zamanda onu uzun süre kesintisiz elektrik faturasıyla çalıştırıyorsunuz Örneğin, bir görüntü lisanslama hizmeti olan Getty Images, AI sanat aracı Stable Diffusion’a dava açtı bu yılın başlarında fotoğraflarının uygunsuz şekilde kullanıldığı ve hem telif hakkı hem de ticari marka haklarını ihlal ettiği iddiasıyla dava açıldı ”

Telif Hakkı © 2023 IDG Communications, Inc bilgisayar bilimi profesörü Ben Zhao

Ancak dijital filigranlama yöntemleri geçmişte ağ parametrelerini değiştirerek davetsiz misafirlerin içeriği kendilerine aitmiş gibi talep etmelerine olanak tanıyan geliştiriciler tarafından engellendi

Hancock, çok daha fazla şirketin AI geliştiricilerini içeriğin kazınmasına karşı açıkça uyardığını gördüğünü söyledi Hancock, “Reddit, Stack Overflow, Twitter ve diğer yerler, ‘Bunu modelleriniz için iznimiz olmadan kullanırsanız sizi dava ederiz’ diyerek daha açık ve agresif bir tavır takınıyorlar” dedi

Örneğin, Adobe’nin oluşturduğu İçerik Kimlik Bilgileri — sanat eserini kimin yaptığı, ne zaman yaptığı ve nasıl yaratıldığı gibi bağlamsal ayrıntıları taşıyan meta veriler

Birçoğu üniversitelerin bilgisayar bilimleri bölümlerinden olan yazılım mühendisleri, mücadeleyi kendi ellerine aldılar Dijital “filigranlar” bir seçenektir yazarlık talebinde bulunmak için oluşturuldu benzersiz sanat eserleri veya diğer içerikler üzerinden devam eden bir mahkeme savaşı ”

Dikey endüstri ihtiyaçlarını karşılayan, alana özel daha küçük LLM’ler halihazırda yapay zekanın bir sonraki sınırı olarak ortaya çıkıyor “Fakat bu yine de İnternet’in diğer temel modellerin ön eğitimi için kullanılan önemli kısımlarından biraz farklı

Son olarak, hızlı mühendislik gibi genAI eğitim teknikleri ve artırılmış nesil alma (RAG) veya ince ayar, bir modele yalnızca kullanıcı kuruluşundan gelen özel doğrulanmış verileri kullanması talimatını verebilir