Yapay zeka güçleniyor, ancak halüsinasyonları kötüleşiyor

Yapay zeka güçleniyor, ancak halüsinasyonları kötüleşiyor

SAN FRANCISCO – Geçtiğimiz ay, bilgisayar programcıları için yükselen bir araç olan Cursor’ın teknik desteğini üstlenen bir yapay zeka botu, birkaç müşteriyi şirket politikasında bir değişiklik konusunda uyardı. Artık Cursor’ı birden fazla bilgisayarda kullanmalarına izin verilmediğini söyledi.

Müşteriler internet mesaj panolarına öfkeli gönderilerde şikayette bulundu. Bazıları Cursor hesaplarını iptal etti. Ve bazıları ne olduğunu anladıklarında daha da öfkelendi: AI botu var olmayan bir politika değişikliği duyurmuştu.

Şirketin CEO’su ve kurucu ortağı Michael Truell, Reddit’te paylaştığı bir gönderide “Böyle bir politikamız yok. Elbette Cursor’ı birden fazla makinede kullanmakta özgürsünüz,” diye yazdı. “Ne yazık ki bu, ön saflardaki bir AI destek botundan gelen yanlış bir yanıt.”

ChatGPT’nin gelişinin üzerinden iki yıldan fazla zaman geçmesine rağmen, teknoloji şirketleri, ofis çalışanları ve günlük tüketiciler giderek daha geniş bir yelpazedeki görevler için AI botlarını kullanıyor. Ancak bu sistemlerin doğru bilgi ürettiğinden emin olmanın hala bir yolu yok.

En yeni ve en güçlü teknolojiler – OpenAI, Google ve Çinli startup DeepSeek gibi şirketlerin sözde akıl yürütme sistemleri – daha az değil, daha fazla hata üretiyor. Matematik becerileri belirgin şekilde iyileştikçe, gerçeklere olan hakimiyetleri daha da sarsıldı. Bunun nedeni tam olarak belli değil.

Günümüzün AI botları, muazzam miktarda dijital veriyi analiz ederek becerilerini öğrenen karmaşık matematiksel sistemlere dayanmaktadır. Neyin doğru neyin yanlış olduğuna karar vermezler ve veremezler. Bazen, bazı AI araştırmacılarının halüsinasyon olarak adlandırdığı bir fenomen olan, sadece bir şeyler uydururlar. Bir testte, daha yeni AI sistemlerinin halüsinasyon oranları %79 kadar yüksekti.

Bu sistemler, insan mühendisler tarafından tanımlanmış katı bir dizi kural yerine, en iyi yanıtı tahmin etmek için matematiksel olasılıkları kullanır. Bu nedenle belirli sayıda hata yaparlar. İşletmeler için yapay zeka araçları geliştiren bir girişim olan Vectara’nın CEO’su ve eski bir Google yöneticisi olan Amr Awadallah, “En iyi çabalarımıza rağmen, her zaman halüsinasyon görecekler,” dedi. “Bu asla ortadan kalkmayacak.”

Bu olgu, birkaç yıldır bu sistemlerin güvenilirliği konusunda endişelere yol açmıştır. Bazı durumlarda yararlı olsalar da – dönem ödevleri yazmak, ofis belgelerini özetlemek ve bilgisayar kodu üretmek gibi – hataları sorunlara yol açabilir.

Google ve Bing gibi arama motorlarına bağlı AI botları bazen gülünç derecede yanlış arama sonuçları üretir. Batı Yakası’nda iyi bir maraton için onlara sorarsanız, Philadelphia’da bir yarış önerebilirler. Illinois’deki hane sayısını söylerlerse, bu bilgiyi içermeyen bir kaynak gösterebilirler.

Bu halüsinasyonlar birçok insan için büyük bir sorun olmayabilir, ancak mahkeme belgeleri, tıbbi bilgiler veya hassas ticari verilerle bu teknolojiyi kullanan herkes için ciddi bir sorundur.

İşletmelerin halüsinasyon sorununu aşmalarına yardımcı olan bir şirket olan Okahu’nun kurucu ortağı ve CEO’su Pratik Verma, “Hangi yanıtların gerçek olduğunu ve hangilerinin olmadığını anlamaya çalışarak çok zaman harcıyorsunuz,” dedi. “Bu hatalarla düzgün bir şekilde başa çıkmamak, sizin için görevleri otomatikleştirmesi gereken AI sistemlerinin değerini temelde ortadan kaldırır.”

Cursor ve Truell yorum taleplerine yanıt vermedi.

İki yıldan fazla bir süredir OpenAI ve Google gibi şirketler AI sistemlerini istikrarlı bir şekilde geliştirdiler ve bu hataların sıklığını azalttılar. Ancak yeni akıl yürütme sistemlerinin kullanımıyla hatalar artıyor. Şirketin kendi testlerine göre, en son OpenAI sistemleri şirketin önceki sistemine göre daha yüksek oranda halüsinasyon görüyor.

Şirket, en güçlü sistemi olan o3’ün, kamu figürleri hakkında soruları yanıtlamayı içeren PersonQA kıyaslama testini çalıştırırken %33 oranında halüsinasyon gördüğünü buldu. Bu, OpenAI’nin o1 olarak adlandırılan önceki akıl yürütme sisteminin halüsinasyon oranının iki katından fazladır. Yeni o4-mini daha da yüksek bir oranda halüsinasyon gördü: %48.

Daha genel sorular soran SimpleQA adlı başka bir test çalıştırıldığında, o3 ve o4-mini için halüsinasyon oranları %51 ve %79 idi. Önceki sistem olan o1, zamanın %44’ünde halüsinasyon gördü.

Testleri ayrıntılı olarak açıklayan bir makalede OpenAI, bu sonuçların nedenini anlamak için daha fazla araştırmaya ihtiyaç olduğunu söyledi. Yapay zeka sistemleri insanların kavrayabileceğinden daha fazla veriden öğrendiği için, teknoloji uzmanları neden bu şekilde davrandıklarını belirlemekte zorlanıyor.

“Halüsinasyonlar, akıl yürütme modellerinde doğası gereği daha yaygın değildir, ancak o3 ve o4-mini’de gördüğümüz daha yüksek halüsinasyon oranlarını azaltmak için aktif olarak çalışıyoruz,” dedi bir şirket sözcüsü Gaby Raila. “Doğruluğu ve güvenilirliği artırmak için tüm modellerde halüsinasyonlar üzerine araştırmalarımıza devam edeceğiz.”

Washington Üniversitesi’nde profesör ve Allen Yapay Zeka Enstitüsü’nde araştırmacı olan Hannaneh Hajishirzi, yakın zamanda bir sistemin davranışını, eğitildiği bireysel veri parçalarına kadar izlemenin bir yolunu bulan bir ekibin parçası. Ancak sistemler çok fazla veriden öğrendiği ve neredeyse her şeyi üretebildiği için bu yeni araç her şeyi açıklayamıyor. “Bu modellerin tam olarak nasıl çalıştığını hala bilmiyoruz,” dedi.

Bağımsız şirketler ve araştırmacılar tarafından yapılan testler, Google ve DeepSeek gibi şirketlerin muhakeme modelleri için de halüsinasyon oranlarının arttığını gösteriyor.

Awadallah’ın şirketi Vectara, 2023’ün sonlarından bu yana, sohbet robotlarının gerçeklerden ne sıklıkla saptığını takip ediyor. Şirket, bu sistemlerden kolayca doğrulanabilen basit bir görevi yerine getirmelerini istiyor: Belirli haber makalelerini özetlemek. O zaman bile, sohbet robotları ısrarla bilgi icat ediyor.

Vectara’nın orijinal araştırması, bu durumda sohbet robotlarının en az %3 oranında, bazen de %27’ye kadar bilgi ürettiğini tahmin ediyordu.

Aradan geçen bir buçuk yılda, OpenAI ve Google gibi şirketler bu sayıları %1 veya %2 aralığına düşürdü. San Francisco merkezli Anthropic gibi diğerleri ise %4 civarında seyretti. Ancak bu testteki halüsinasyon oranları muhakeme sistemleriyle birlikte arttı. DeepSeek’in muhakeme sistemi R1, %14,3 oranında halüsinasyon gördü. OpenAI’nin o3’ü %6,8’e çıktı.

(New York Times, yapay zeka sistemleriyle ilgili haber içeriklerinde telif hakkı ihlali yaptıkları gerekçesiyle OpenAI ve ortağı Microsoft’a dava açtı. OpenAI ve Microsoft bu iddiaları reddetti.)

Yıllar boyunca OpenAI gibi şirketler basit bir konsepte güvendi: AI sistemlerine ne kadar çok internet verisi girerlerse, bu sistemler o kadar iyi performans gösterirdi. Ancak internetteki İngilizce metinlerin neredeyse tamamını tükettiler, bu da sohbet robotlarını geliştirmenin yeni bir yoluna ihtiyaç duydukları anlamına geliyordu.

Bu yüzden bu şirketler bilim insanlarının takviyeli öğrenme adını verdiği bir tekniğe daha fazla yaslanıyor. Bu süreçle bir sistem deneme yanılma yoluyla davranışı öğrenebilir. Matematik ve bilgisayar programlama gibi belirli alanlarda iyi çalışıyor. Ancak diğer alanlarda yetersiz kalıyor.

Halüsinasyon sorununu yakından inceleyen bir ekibin üyesi olan Edinburgh Üniversitesi’nden araştırmacı Laura Perez-Beltrachini, “Bu sistemler eğitildikçe, tek bir göreve odaklanmaya başlayacak ve diğerlerini unutmaya başlayacaklar” dedi.

Bir diğer sorun ise, akıl yürütme modellerinin bir cevaba karar vermeden önce karmaşık problemler üzerinde “düşünmek” için zaman harcamak üzere tasarlanmış olmasıdır. Bir problemi adım adım ele almaya çalıştıkça, her adımda halüsinasyon görme riskiyle karşı karşıya kalırlar. Daha fazla zaman düşündükçe hatalar artabilir.

En son botlar her adımı kullanıcılara gösterir, bu da kullanıcıların her hatayı da görebileceği anlamına gelir. Araştırmacılar ayrıca birçok durumda bir bot tarafından gösterilen adımların sonunda verdiği cevapla ilgisi olmadığını buldular.

Edinburgh Üniversitesi’nde yapay zeka araştırmacısı ve Anthropic’te araştırmacı olan Aryo Pradipta Gema, “Sistemin düşündüğünü söylediği şey, mutlaka düşündüğü şey olmayabilir” diyor.

Sosyal Medyada Paylaşın:

BİRDE BUNLARA BAKIN

Düşüncelerinizi bizimle paylaşırmısınız ?

Sponsorlu Bağlantılar
  • ÇOK OKUNAN
  • YORUM