'Veri zehirlenmesi' anti-AI hırsızlığı araçları ortaya çıkıyor - peki bunlar etik mi? - Dünyadan Güncel Teknoloji Haberleri

'Veri zehirlenmesi' anti-AI hırsızlığı araçları ortaya çıkıyor - peki bunlar etik mi? - Dünyadan Güncel Teknoloji Haberleri

Birçoğu üniversitelerin bilgisayar bilimleri bölümlerinden olan yazılım mühendisleri, mücadeleyi kendi ellerine aldılar

“Microsoft 365 Copilot RAG kullanıyor, böylece modellerden kullanıcılara verilen yanıtlar her zaman kuruluşun özel verilerine dayanıyor, bu nedenle M365 Copilot kurallarına uydukları ve korkuluklarını kullandıkları sürece işletmeleri telif hakkı ihlallerine karşı koruyorlar “Bunu kamuoyuna açıkladım ve bir şeyle maskeledim Japonya, yapay zeka tarafından üretilen sanatın telif hakkı yasalarını ihlal etmediğini söylüyor” dedi Litan



genel-13

Telif Hakkı © 2023 IDG Communications, Inc “Fakat bu yine de İnternet’in diğer temel modellerin ön eğitimi için kullanılan önemli kısımlarından biraz farklı

Özelleştirilmiş genAI kurtarmaya mı gidiyor?

Snorkel AI, tamamen belirli alanlar ve uygulamalar için temel genAI modellerini özelleştirmeye ve uzmanlaştırmaya odaklanmış bir şirkettir

Hancock, “Bir modele aktarmanız gereken bu kadar çok veriye sahip olduğunuzda, ne kadar paralelleştirme yaptığınıza bağlı olarak haftalarca veya aylarca çalıştıracağınız yüzlerce veya binlerce özel hızlandırıcıya (CPU’lar veya GPU’lar) ihtiyaç duyarsınız “Donanımın kendisi pahalı ama aynı zamanda onu uzun süre kesintisiz elektrik faturasıyla çalıştırıyorsunuz ”

genAI geliştiren şirketler, çevrimiçi içeriğin ayrım gözetmeksizin kazınmasından daha sık vazgeçiyor ve bunun yerine, fikri mülkiyet mevzuatına aykırı olmadıklarından emin olmak için içerik satın alıyor

Jyoti, “Konuştuğum her şirket, tüm teknoloji şirketleri, IBM, Adobe, Microsoft tazminat teklif ediyor” dedi Veri gizliliğini koruma konusunda genellikle ABD’ye göre biraz daha rahatlar ve biz de sonunda aynı yolu izliyoruz” dedi Hancock

“Ve bu davalarda yargı yetkisine bağlı olarak pek çok değişiklik var; farklı eyalet veya federal çevre mahkemeleri farklı yorumlarla yanıt verebilir” dedi Buna veri toplamaya harcanan süre bile dahil değil “Bu benim verilerim veya sanat eserim” dedi

Bu tür araçların kullanımının etik olup olmadığı, bunların nereye yönelik olduğuna bağlı olduğunu söyledi

Ancak dijital filigranlama yöntemleri geçmişte ağ parametrelerini değiştirerek davetsiz misafirlerin içeriği kendilerine aitmiş gibi talep etmelerine olanak tanıyan geliştiriciler tarafından engellendi Bu şekilde, AI hizmetlerini satın alan müşterilere, içerik yaratıcıları tarafından dava edilmeyeceklerine dair güvence sunabilirler Modeller, kullanıcılardan gelen yanıtları üretmek veya soruları çözmek için internetten ve satın alınan veri kümeleri de dahil olmak üzere diğer yerlerden derledikleri verilerden öğrenir Gartner’da başkan yardımcısı ve seçkin analist 2015 yılında Google tarihi bir mahkeme kararını kazandı kütüphane kitaplarını dijitalleştirmesine izin veriyor ” söz konusu bilgisayar bilimi profesörü Ben Zhao “Çoğu zaman olduğu gibi, burada liderlik için Avrupa’ya bakacağımızdan şüpheleniyorum

Çevrimiçi bulunan içeriğin adil kullanımını neyin oluşturduğuna dair mücadele, bu konuda yapılanların merkezinde yer alıyor Yani benim iznim olmadan alıyorsan bu senin sorunun

Hancock, genAI geliştirme şirketlerinin, hükümet düzenleyicilerinin fikri mülkiyet korumaları konusunda ne kadar agresif “ya da değil” olacağını görmeyi beklediklerini söyledi Bu tür geçici çözümleri önlemek için yeni teknikler ortaya çıktı, ancak bu sürekli gelişen bir mücadele Sonuç: OpenAI’nin GPT-4, Google’ın PaLM 2’si veya Meta’nın Llama 2 modellerinden daha küçük veri kümelerine sahip LLM’ler OpenAI ve IBM, yorum taleplerine yanıt vermedi

Düzenlenemeyecek kadar hızlı mı gelişiyorsunuz?

Jyoti’ye göre her durumda, hukuk sisteminden fikri mülkiyet yasaları kapsamında özel bir çalışmanın ne olduğunu açıklığa kavuşturması isteniyor

“Bu şu anda büyük bir tartışma konusu,” diye ekledi

Bu arada sanatçılar da hayal kırıklıklarında ve tepkilerinde tamamen haklılar

Yeni bir yöntem şunu kullanıyor:veri zehirlenmesi saldırılarıgenAI eğitim verilerini manipüle etmek ve makine öğrenimi modellerine beklenmedik davranışlar eklemek için ” Litan söz konusu Zhao’ya göre Nightshade teknolojisi sonunda Glaze’e entegre edilecek

Hancock, “Modele genel eğitimden bilmesi gerekenleri öğretmek için hala onlarca veya yüzlerce veri noktasından değil, binlerce veya on binlerce veri noktasından bahsediyoruz” dedi Finansal hizmet şartları ve piyasa bilgileri gibi daha hedefe yönelik veri ve dil kullanmanın yanı sıra, temel LLM’ler hala çok büyük miktarda işlemci döngüsü tüketebilir ve eğitimleri milyonlarca dolara mal olabilir ”

Araştırma firması IDC’de başkan yardımcısı analisti olan Ritu Jyoti, konuyu Nightshade’in ne olduğuyla ilgili bir sorudan ziyade etikle ilgili bir soru olarak görüyor

Hancock, “Bunun etik olmayan kullanımları olduğunu düşünüyorum; örneğin, sürücüsüz araçların dur işaretlerini ve hız sınırı işaretlerini tanımalarına yardımcı olan verilerini zehirlemeye çalışıyorsanız” dedi

Gartner’dan Litan’a göre, kullanıcıların çalınan IP’ye karşı tazmin edilmesinin yanı sıra, görüntülerin ve diğer nesnelerin kaynağını destekleyen içerik kimlik doğrulama standartları oluşturmak için endüstri çabaları sürüyor

Litan, “Böyle bir aracın etiğini yargılayamam; yalnızca yangına ateşle karşılık vermeye yardımcı olduğunu ve büyük model geliştiricileri ve sağlayıcıları için çıtayı yükselttiğini söyleyebilirim” dedi İsminde İtüzümüBu teknoloji, genAI eğitim algoritmasını, gerçekte tamamen farklı bir şeyi yutarken, bir şeyi aldığına inandırmak için “gizleme”yi kullanıyor KUM Laboratuvarıbu yılın başlarında ayrıca ücretsiz bir hizmet başlattı isminde Sır genAI modelleri tarafından kazınmaması için kendi IP’lerini maskelemek “IBM duyurdu [it] Bir model piyasaya sürülecek ve eğer bir işletme bunu kullanıyorsa, bir dava açılırsa emin ellerdedirler, çünkü IBM sağlayacak tazminatla onları ”

Dikey endüstri ihtiyaçlarını karşılayan, alana özel daha küçük LLM’ler halihazırda yapay zekanın bir sonraki sınırı olarak ortaya çıkıyor

Hancock, çok daha fazla şirketin AI geliştiricilerini içeriğin kazınmasına karşı açıkça uyardığını gördüğünü söyledi Hancock, “Reddit, Stack Overflow, Twitter ve diğer yerler, ‘Bunu modelleriniz için iznimiz olmadan kullanırsanız sizi dava ederiz’ diyerek daha açık ve agresif bir tavır takınıyorlar” dedi “Dolayısıyla, bu davaların sonucunun, telif hakkıyla korunan eserin sahibinin izni olmadan eleştiri, hiciv, adil yorum veya habercilik gibi amaçlarla kullanılmasına izin veren adil kullanım doktrininin yorumlanmasına bağlı olması bekleniyor

Nightshade – bir genAI kabusu mu?

Teknoloji, AI büyük dil modeli (LLM) eğitim verilerini bozarak görüntü üreten genAI araçlarına zarar verebilir; bu da DALL-E, Midjourney ve Stable Diffusion gibi platformların hatalı resim veya videolar yayınlamasına yol açar ” Modellerini bu tür düşmanca saldırıları ve veri zehirlenmelerini göz ardı edecek şekilde eğitmek için çok para harcıyorlar “Amacınız daha çok ‘beni kazıma’ yönündeyse ve aktif olarak bir modeli mahvetmeye çalışmıyorsanız, sanırım benim için çizgi burada , veya öğretim veya sınıfta kullanım için ”

Amorf LLM’ler, genel amaçlar için kullanılabildikleri için alana özgü LLM’lerle birlikte büyümeye devam edecek; bu da, kontrolsüz IP kazımasını engelleyen araçların da büyümeye devam edeceği anlamına geliyor Zhao okulun lisansüstü öğrencileriyle çalıştı

İlk kez bildirildi MİT’ler Teknoloji İncelemesiNightshade, esasen yapay zeka modellerinin bir görüntüyü gerçekte gösterdiğinden farklı bir şey olarak yorumlamasını sağlıyor Veri kazımaya karşı birçok teknolojik savunmanın geçmişi 2018’e kadar uzanıyor olsa da Nightshade, daha önce görülmemiş bir şey

Örneğin, Adobe’nin oluşturduğu İçerik Kimlik Bilgileri — sanat eserini kimin yaptığı, ne zaman yaptığı ve nasıl yaratıldığı gibi bağlamsal ayrıntıları taşıyan meta veriler

Peki veri zehirlenmesi etik değil mi?

Şirketlerin alana özel kullanım için Yüksek Lisans (LLM) geliştirmelerine yardımcı olan bir girişim olan Snorkel AI’nin teknoloji başkanı ve kurucu ortağı Bradon Hancock, Nightshade’in AI geliştiricileri tarafından veri kazımasını engellemek için başka çabaları teşvik edebileceğine inanıyor

Bir Microsoft sözcüsü şirketin herhangi bir yorumu olmadığını söyledi Kim en güçlü ve en etkili yapay zekaya sahipse o kazanacak Mücadele sanat eserinin ötesine geçerek genAi şirketlerinin Microsoft ve ortağı OpenAI gibiyazılım kodunu ve diğer yayınlanmış içerikleri modellerine dahil edebilir

Son olarak, hızlı mühendislik gibi genAI eğitim teknikleri ve artırılmış nesil alma (RAG) veya ince ayar, bir modele yalnızca kullanıcı kuruluşundan gelen özel doğrulanmış verileri kullanması talimatını verebilir “Telif haklarına ilişkin ABD federal yasaları hâlâ mevcut değil, ancak hükümet yetkilileri ve endüstri liderleri arasında içerik kaynak standartlarının kullanılması veya zorunlu kılınması konusunda tartışmalar var ”

Jyoti’ye göre şirketler, binlerce ve hatta milyonlarca lisanslı veya lisanssız çalışma içeren veri göllerini kullanarak yapay zeka içerik oluşturma araçlarını rutin olarak eğitiyor


Teknoloji uzmanları, eğitim algoritmaları otomatik olarak interneti ve diğer yerleri içerik için tarayan üretken yapay zeka (genAI) araçlarıyla, sanatçıların fikri mülkiyet (IP) hırsızlığı olarak gördükleri şeye karşı mücadele etmelerine yardımcı oluyor

Litan’a göre bugüne kadar hükümetin genAI modellerine karşı fikri mülkiyet korumasını ele alma çabaları en iyi ihtimalle dengesiz İçerik oluşturucuları korumanın başka bir yöntemi de şunları içerir: kaynak içerik referansları Çeşitli yapay zeka modeli satıcıları veya üçüncü taraf firmalar tarafından sağlanan genAI çıktılarında Kalipso AI Ve Veri Robotu devam eden bir mahkeme savaşı “Artık bunu yapmak zorunda kalacaklar

Temel modelleri“Transformatörler” olarak da bilinen , binlerce, hatta milyonlarca parça ham, etiketlenmemiş veri üzerinde eğitilmiş büyük ölçekli üretken yapay zeka modelleridir

Google şu anda dahil toplu dava Şirketin genAI sistemlerini eğitmek için veri toplamasının milyonlarca insanın mahremiyetini ve mülkiyet haklarını ihlal ettiğini iddia ediyor Örneğin yapay zeka tarafından araba olarak yorumlanan bir fotoğraf aslında bir tekne olabilir; bir ev muza dönüşür; bir kişi balinaya dönüşür vb

Nightshade, Chicago Üniversitesi araştırmacıları tarafından geliştirildi Örneğin, bir görüntü lisanslama hizmeti olan Getty Images, AI sanat aracı Stable Diffusion’a dava açtı bu yılın başlarında fotoğraflarının uygunsuz şekilde kullanıldığı ve hem telif hakkı hem de ticari marka haklarını ihlal ettiği iddiasıyla dava açıldı

“AB Yapay Zeka Yasası, yapay zeka modeli üreticilerinin ve geliştiricilerinin, modellerini eğitmek için kullanılan telif hakkı materyallerini açıklamaları gerektiğine dair bir kural önermektedir

Avivah Litan, “Nightshade gibi bir araç çok gerçek ve benzer araçlar, bilgisayar korsanları ve suçlular tarafından model eğitim verilerini kendi çıkarları doğrultusunda zehirlemek için (örneğin, bir uydu veya GPS sistemini kandırmak ve böylece düşman tespitini önlemek için) yıllardır kullanılıyor” dedi Dijital “filigranlar” bir seçenektir yazarlık talebinde bulunmak için oluşturuldu benzersiz sanat eserleri veya diğer içerikler üzerinden

Microsoft o kadar ileri gitti ki Copilot kullanıcılarına söyleyin Şirketin aracına yerleştirdiği içerik filtrelerini ve korkulukları kullanmazlarsa yasal olarak korunmazlar