Yapay Zeka Modelleri İnsan Zihnini Simüle Ediyor
Araştırmacılar yapay zeka modellerinin insan zihnini simüle ettiğini iddia ediyor. Diğerleri ise şüpheyle yaklaşıyor
Bilişsel bilimciler yeni Centaur modelinin insan davranışını tahmin etme yeteneğini sorguluyor.
Araştırmacılar, insan davranışlarına ilişkin geniş bir veri seti üzerinde bir Büyük Dil Modeli (LLM) eğiterek insan zihnini taklit edebilen bir yapay zeka (YZ) sistemi geliştirdiklerini söylüyor. Nature’da bugün yayımlanan makalede, Centaur adlı modellerinin doğal dilde ifade edilebilecek her deneyde insan davranışını “tahmin edebildiğini ve simüle edebildiğini” belirtiyorlar.
Ancak diğer bilim insanları bu iddiaya şüpheyle yaklaşıyor. McGill Üniversitesi ve Mila – Quebec Yapay Zeka Enstitüsü’nden hesaplamalı sinirbilimci Blake Richards, “Bence bilim camiasının önemli bir bölümü bu makaleye çok şüpheci yaklaşacak ve sert eleştirilerde bulunacak” diyor. Kendisi ve diğerleri, modelin insan bilişsel süreçlerini anlamlı şekilde taklit etmediğini ve bu nedenle insan davranışıyla örtüşecek sonuçlar üretmesinin güvenilir olmadığını savunuyor.
Bilişsel bilimciler sıklıkla görme ve hafıza gibi yeteneklerin temelindeki sistemleri anlamalarına yardımcı olmak için modeller oluştururlar. Helmholtz Münih’teki İnsan Merkezli YZ Enstitüsü’nden bilişsel bilimci Marcel Binz’e göre, bu modellerin her biri insan bilişinin çok küçük, izole bir bölümünü yakalar. Ancak Büyük Dil Modellerindeki (LLM) son ilerlemelerle “birdenbire zihni bir bütün olarak anlamak için kullanılabilecek bu yeni heyecan verici araç setine kavuştuk,” diyor.
Böylesi bir modeli geliştirmek için Binz ve meslektaşları Psych-101 adlı bir veri seti oluşturdu; bu set, toplamda 60.000’den fazla katılımcının 10 milyondan fazla seçim yaptığı 160 daha önce yayımlanmış psikoloji deneyine ait verileri içeriyordu. Örneğin iki “iki kollu haydut” deneyinde, katılımcıların bilinmeyen veya değişken ödeme olasılıklarına sahip iki sanal slot makinesi arasında sürekli seçim yapması gerekiyordu.
Araştırmacılar daha sonra Meta tarafından geliştirilen Llama adlı LLM’yi, her deneyde katılımcıların karşılaştığı kararlarla ilgili bilgileri ve verdikleri seçimleri besleyerek eğittiler. Binz’e göre, ortaya çıkan modele yarı llama, yarı insan bir varlığa en yakın mitolojik yaratık olduğu için “Centaur” adını verdiler.
Her deney için insan verilerinin %90’ı modelin eğitimi için kullanıldı ve ardından modelin çıktısının geri kalan %10’la uyumlu olup olmadığı test edildi. Deneyler genelinde, Centaur’un insan verileriyle uyumu, belirli görevlere özgü bilişsel modellerden daha yakındı. Örneğin iki kollu haydut görevindeki kararlar söz konusu olduğunda, modelin ürettiği veriler, katılımcıların slot makinesi seçimlerini yakalamaya yönelik özel olarak tasarlanmış bir modelinkinden daha fazla benzerlik gösterdi.
Centaur ayrıca eğitim verilerinde olmayan değiştirilmiş görevlerde de insan benzeri çıktılar verdi; örneğin, iki kollu haydut deneyine üçüncü bir slot makinesinin eklendiği bir versiyonda da benzer performans sergiledi. Bu, araştırmacıların deneyleri “in silico” olarak Centaur ile geliştirip insan katılımcılara sunmadan önce test edebilecekleri veya insan davranışına dair yeni teoriler geliştirebilecekleri anlamına geliyor, diyor Binz.
Ancak Bristol Üniversitesi’nden bilişsel bilimci Jeffrey Bowers, modelin “absürt” olduğunu düşünüyor. Kendisi ve meslektaşları, Binz’in ekibinin makalenin ilk taslağını preprint olarak yayınladığında erişime açtığı Centaur’u test etmiş ve belirgin şekilde insana benzemeyen davranışlar gözlemlemişler. Kısa süreli bellek testlerinde model 256 basamağa kadar rakam hatırlayabilirken, insanların yaygın olarak yaklaşık yedi rakamı hatırlayabildiğini belirtiyor. Tepki hızı testinde ise modele 1 milisaniyelik “aşırı insanüstü” sürelerde yanıt verme komutu verilebiliyor, diyor Bowers. Bunun, modelin eğitim verilerinin ötesine genelleme yapamayacağını gösterdiğini sonucuna varıyor.
Daha da önemlisi, diyor Bowers, Centaur insan bilişi hakkında hiçbir açıklama sunamıyor. Analog ve dijital bir saatin aynı zamanı gösterebilmesine rağmen iç işleyişlerinin tamamen farklı olması gibi, Centaur da insan benzeri çıktılar verebiliyor ancak insan zihninin mekanizmalarına benzemeyen yöntemlere dayanıyor.
Max Planck Topluluğu’nun Ernst Strüngmann Sinirbilim Enstitüsü’nden hesaplamalı biliş bilimci Federico Adolfi de aynı görüşte; daha katı testlerin modelin “çok kolay kırılabileceğini” göstereceğini ve Psych-101 veri setinin etkileyici büyüklüğüne rağmen 160 deneyin “sonsuz biliş havuzunda bir kum tanesinden ibaret” olduğunu vurguluyor.
Ancak Illinois Urbana-Champaign Üniversitesi’nden görme bilimci Rachel Heaton, modelin insan bilişini anlamada doğrudan kullanışlı araçlar sunmadığını, yine de Psych-101 veri setinin diğer araştırmacıların kendi modellerini test etmek için değerli bir kaynak olduğunu düşünüyor. Blake Richards ise Centaur’un perde arkasında neler olup bittiğini anlamaya yönelik gelecekteki çalışmaların da faydalı olabileceğini belirtiyor.
Auckland Üniversitesi’nden hesaplamalı görsel sinirbilimci Katherine Storrs ise birçok hesaplamalı sinirbilimcinin Centaur gibi yeni araçlara “temkinli bir heyecan” beslediğini, makalenin bazı aşırı genellemeler içerdiğini ama veri seti ve modele büyük emek harcandığını ve bu çalışmanın uzun vadede bilimsel olarak getirisi olabileceğini söylüyor.