Grok yine zirvede: Yapay zekaların halüsinasyon oranlarında şaşırtıcı sonuçlar

OpenAI, geçtiğimiz Perşembe günü ChatGPT-5’i tanıttığında CEO Sam Altman, bu sürümün şimdiye kadar yayınladıkları en “güçlü, akıllı, hızlı, güvenilir ve sağlam” ChatGPT olduğunu vurguladı. Lansman sırasında, şirket çalışanları ayrıca ChatGPT-5’in “halüsinasyon” olarak bilinen yanlış bilgi üretme oranını azaltacağını belirtti.

Halüsinasyon nedir?

Yapay zekâ, gerçekte olmayan bilgileri gerçekmiş gibi sunduğunda bu durum “halüsinasyon” olarak adlandırılır. Büyük dil modellerinin (LLM) halüsinasyon oranları son yıllarda düşse de, hâlâ tamamen ortadan kalkmış değil. Bu da, insan gözetimi olmadan görevleri güvenle yerine getirmelerini engelleyen temel faktörlerden biri.

Vectara testleri: ChatGPT-5, GPT-4o’dan sadece %0,09 daha iyi

LLM performansını ölçen Vectara, halüsinasyon oranlarını karşılaştırmak için kendi “Hughes Halüsinasyon Değerlendirme Modeli” (HHEM) tablosunu kullandı. Sonuçlara göre:

  • ChatGPT-5: %1,4 halüsinasyon oranı

  • GPT-4: %1,8

  • GPT-4 Turbo & 4o Mini: %1,69

  • GPT-4o: %1,49

Yani ChatGPT-5, GPT-4o’dan yalnızca %0,09 oranında daha düşük halüsinasyon üretiyor. İlginç bir şekilde, ChatGPT-5’in oranı, %1,2 ile daha iyi bir performans sergileyen ChatGPT-4.5 Önizleme sürümünden biraz daha yüksek. Öte yandan, OpenAI’nin en iyi akıl yürütme modeli olan o3-mini %0,795 ile hâlâ en düşük halüsinasyon oranına sahip.

Grok’un yüksek halüsinasyon oranı ve tartışmalı “Spicy” modu

Karşılaştırmada, rakip modellerin performansı ChatGPT-5’in hâlâ önde olduğunu gösteriyor.

  • Gemini-2.5-pro: %2,6

  • Grok-4: %4,8

Özellikle Grok, halüsinasyon üretme konusunda listenin zirvesinde. XAI’nin geliştirdiği Grok, yakın zamanda “Spicy” modu ile de eleştiri topladı. Bu mod, ünlü isimler üzerinde deepfake içerikler oluşturulmasına zemin hazırlayabileceği endişesi yarattı. Şirket, sistemin çıplaklık veya cinsel içerikleri engelleyecek filtreler içerdiğini söylese de, bazı örnekler bu endişeleri güçlendirdi.

Eski modellerin kaldırılması tepki çekti

ChatGPT-5’in piyasaya sürülmesiyle birlikte OpenAI, ChatGPT-4, GPT-4o ve 4o-mini gibi sürümleri Plus kullanıcılarının erişiminden kaldırdı. Bu durum, kullanıcıların tepkisine yol açtı. Bazı Reddit kullanıcıları, “tek arkadaşını bir gecede kaybetmek” benzetmesiyle tepkilerini dile getirdi.

Sam Altman, X üzerinden yaptığı açıklamada, GPT-5’in genel olarak daha iyi olsa da GPT-4o’da sevilen bazı özelliklerin önemini hafife aldıklarını kabul etti. Şirket, bu tepkiler üzerine sınırlı bir süreliğine GPT-4o’yu Plus kullanıcılarına geri getireceğini duyurdu.

Related Posts

Fiat, Renault veya BMW değil: 2025’in en çok sevilen otomobili belli oldu

Otomobil sahibi olmak yalnızca ulaşım aracı edinmek değil, aynı zamanda sürücü ile araç arasında kurulan özel bir bağı da ifade ediyor. 2025 yılında tüketicilerin en çok sevdiği otomobil modelleri belli olurken, listede hem lüks hem de ana akım segmentten araçların yer alması dikkat çekti.

Dünyanın ilk “insansı robot olimpiyatları” Pekin’de başladı

Pekin’de düzenlenen ilk Dünya İnsansı Robot Oyunları, 16 ülkeden yüzlerce robotun futbol, boks ve koşu gibi spor dallarında yarıştığı üç günlük bir teknoloji şöleni olarak başladı.

Bilim insanlarından yeni teori: Karanlık madde “ayna evrende” olabilir

Bilim insanları, karanlık maddenin ya evrenin kenarında Büyük Patlama sonrası oluştuğunu ya da yalnızca “karanlık” kuvvetlerin işlediği bir ayna evrende saklandığını öne sürüyor.

Eski ABD istihbarat görevlisi, ABD’nin “Uzaylılarla” ilişkisini ifşa etti

Eski bir ABD istihbarat görevlisi, ABD’nin dört farklı uzaylı türle iletişim halinde olduğunu açıkladı. Peki bu doğru mu, yoksa sadece yeni bir dikkat çekme çabası mı?

Yapay zeka ile modanın yeni çağı

Moda dünyası, yapay zeka (AI) ile tarihinin en büyük dönüşümlerinden birini yaşıyor. Tasarım süreçlerinden tedarik zincirine, müşteri deneyiminden sürdürülebilirlik hedeflerine kadar her alanda yapay zeka, sektörü yeniden şekillendirdi. Bilimsel …

Temmuz 2025 karnesi açıklandı: Windows 11 yükseldi, Windows 10 düştü

Statcounter’ın Temmuz 2025 verilerine göre, Microsoft’un kullanıcıları Windows 11’e geçirme çabaları nihayet işe yarıyor. Windows 10 hızla erirken, Windows 11 yükseliyor…