Bulgular, belirtilerin tıpkı insanlarda olduğu gibi, geçen yıllarla birlikte daha belirgin hale geldiğini gösterdi. Daha eski büyük dil modelleri (LLM) en kötü performansları sergiledi.
Çalışmanın amacı aslında bu teknolojinin tıbbi alanda, özellikle de bunamada teşhis aracı olarak kullanılabilecek kadar yetkin olup olmadığını anlamaktı.
Araştırma makalesinde, “Bu bulgular, yapay zekanın yakında insan doktorların yerini alacağı varsayımını sorguluyor. Zira önde gelen sohbet botlarında görülen bilişsel bozukluk, tıbbi teşhislerdeki güvenilirliklerini etkileyebilir ve hastaların güvenini zedeleyebilir,” ifadeleri kullanıldı.
Araştırmada demansın erken belirtilerini tespit etmek için tasarlanmış bir test olan Montreal Bilişsel Değerlendirmesi kullanıldı. Bu testte daha yüksek puan almak, bilişsel yeteneğin de iyi olduğuna işaret ediyor.
Test edilen yapay zeka araçlarından OpenAI firmasına ait son model olan GPT-4o, 30 üzerinden 26 ile en yüksek puanı aldı. Google’ın Gemini ailesi ise 30 üzerinden 16 alarak en düşük puanı elde etti.
Gemini modelleri beş kelimelik bir diziyi hatırlamayı içeren epey basit bir gecikmeli hatırlama görevinde bütünüyle başarısız oldu.
Araştırmacılar ayrıca, bu testlere dayanarak tüm sohbet botlarının endişe verici derecede bir empati yoksunluğu gösterdiğini buldu. Uzmanlara göre bu, frontotemporal bunamanın belirgin bir belirtisi.
Öte yandan araştırmacılar, tüm sohbet botlarının isimlendirme, dikkat, dil ve soyutlama gibi çoğu görev türünde başarılı olduğunu tespit etti.
Ancak araçlardan her biri, daire içine alınmış sayılar arasına çizgi çizmek gibi görsel uzamsal görevlerde kötü performans gösterdi. Belirli bir zamanı gösteren bir saat çizme görevi de araçlar için son derece zordu.