Yapay zeka bunadı mı? Bilişsel testte ilginç sonuçlar
The BMJ dergisinde yayımlanan çalışmaya göre, ChatGPT 4, Claude 3.5 ve Gemini gibi popüler yapay zeka modelleri, Montreal Bilişsel Değerlendirme Testi’nde (MoCA) düşük puanlar aldı.
Yazarlar, bu bulguların "yapay zekanın yakında insan doktorların yerini alacağı" yönündeki düşünceyi sorgulattığını öne sürüyor.
Yapay zeka gelişmeleri ve kaygılar
Son dönemdeki yapay zeka gelişmeleri, sohbet robotlarının tıp alanındaki görevlerde insan doktorları geçip geçemeyeceği konusunda hem heyecan hem de endişe uyandırdı.
Yapay zekanın bilişsel yeteneklerinin değerlendirilmesi
Bu bilgi boşluğunu doldurmak için araştırmacılar, önde gelen ve halka açık olarak bulunan büyük dil modelleri olan ChatGPT 4 ve 4o (OpenAI tarafından geliştirilen), Claude 3.5 "Sonnet" (Anthropic tarafından geliştirilen) ve Gemini 1 ve 1.5 (Alphabet tarafından geliştirilen) versiyonlarını, Montreal Bilişsel Değerlendirme (MoCA) testini kullanarak değerlendirdiler.
Bir dizi kısa görev ve soru aracılığıyla dikkat, bellek, dil, uzamsal beceriler ve yürütücü işlevler gibi yetenekleri değerlendirir. Testin maksimum puanı 30'dur ve 26 veya üzeri puan genellikle normal kabul edilir.
Yapay zeka modellerine her görev için verilen talimatlar, insan hastalara verilenlerle aynıydı. Puanlama resmi kılavuzu takip etti ve bir nörolog tarafından değerlendirildi.
ChatGPT 4o, MoCA testinde en yüksek puanı (30 üzerinden 26) aldı, ardından ChatGPT 4 ve Claude (30 üzerinden 25) geldi. Gemini 1.0 ise en düşük puanı (30 üzerinden 16) aldı.
Görsel ve yürütücü işlevlerde zorluklar
Tüm sohbet robotları, sayı ve harfleri artan sırada birbirine bağlama (yol izleme görevi) ve belirli bir saati gösteren bir saat yüzü çizme (saat çizme testi) gibi uzamsal beceriler ve yürütücü işlevlerde düşük performans gösterdi.