İngiltere merkezli Yapay Zeka Güvenlik Enstitüsü öncülüğünde, Oxford, Stanford ve Berkeley gibi dünyanın önde gelen üniversitelerinden araştırmacılar, yapay zeka sistemlerini değerlendirmek için kullanılan 440’tan fazla değerlendirme testini mercek altına aldı. Sonuç çarpıcıydı: Testlerin neredeyse tamamında metodolojik zayıflıklar tespit edildi.

Araştırmacılara göre birçok test, “modelin gerçekten neyi ölçtüğünü” doğru tanımlamıyor; bu da yapay zeka modellerinin güvenliği, etik uyumu veya karar doğruluğu konusunda yanıltıcı sonuçlar doğurabiliyor.

Oxford İnternet Enstitüsü’nden Dr. Andrew Bean, “Bugün yapay zekada ilerleme iddialarının neredeyse tamamı bu testlere dayanıyor. Ancak ölçüm çerçevesi zayıfsa, ‘ilerleme’ olarak sunulan şey aslında bir yanılsama olabilir.” dedi.

‘YAPAY ZEKA GÜVENLİĞİ’ SÖYLEMİ SORGULANIYOR

Çalışmanın sonuçları, özellikle büyük dil modelleri (LLM) için kullanılan değerlendirme testlerinin “yapı geçerliği” açısından güven vermediğini ortaya koyuyor. Yani testler, iddia ettikleri şeyi gerçekten ölçmüyor olabilir. Bu durum, “Yapay zeka güvenli mi?” sorusunu yeniden gündeme taşıdı. Çünkü şirketlerin model tanıtımlarında öne sürdükleri güvenlik ve doğruluk skorları, bu zayıf testlerden elde edilmiş olabilir.

Saç dökülmesinde yeni umut: Tayvanlı bilim insanları 20 günde sonuç aldı
Saç dökülmesinde yeni umut: Tayvanlı bilim insanları 20 günde sonuç aldı
İçeriği Görüntüle

Yapay zeka güvenliği uzmanı Dr. Bean, “Yapay zekanın ne kadar ‘güvenli’ veya ‘doğru’ olduğu, teknolojiden çok ölçüm yöntemlerinin doğruluğuna bağlı.” ifadelerini kullandı.

KÜRESEL STANDART EKSİKLİĞİ ENDİŞE YARATIYOR

The Guardian’a göre, yapay zeka şirketleri ve laboratuvarları performanslarını göstermek için yüzlerce farklı değerlendirme testi kullanıyor. Ancak bu testlerin hiçbiri uluslararası standartlarla tam uyumlu değil. Araştırmacılar, düzenleyici kurumların bu alanda ortak bir ölçüm sistemi oluşturmasının kaçınılmaz olduğunu vurguluyor. Zira mevcut durum hem tüketiciyi hem de yatırımcıyı yanıltma riski taşıyor.

TÜRKİYE İÇİN DE UYARI NİTELİĞİNDE

Uzmanlara göre bu bulgular yalnızca ABD veya İngiltere’deki modelleri değil, yapay zeka ekosistemine dahil tüm ülkeleri ilgilendiriyor. Türkiye’de de hem akademik hem kurumsal düzeyde geliştirilen yapay zeka projelerinde, kullanılan testlerin geçerliliği sorgulanmalı. Etkinlik veya doğruluk skorlarının “gerçek” performansı yansıtıp yansıtmadığı, özellikle finans, sağlık ve savunma gibi kritik alanlarda büyük önem taşıyor.

Kaynak: Haber Merkezi