OpenAI, doğal insan-bilgisayar etkileşimine doğru büyük bir adım atarak ses, görüntü ve metin girdilerini gerçek zamanlı olarak işleyebilen yeni yapay zeka modeli GPT-4o’yu tanıttı. Gelin birlikte inceleyelim!
- GPT-4o, önceki versiyonlarına göre daha hızlı ve dili konuşma diline daha yakın; konuşmayı önce metne dönüştürmek yerine doğrudan sesi dinleyebiliyor ve ses girdilerine 232 milisaniyeden az bir sürede yanıt verebiliyor ki bu da bir konuşmada insan tepki süresine oldukça yakın.
- Karmaşık metinleri anlamlandırma, anlamlı yanıtlar üretme, yaratıcı yazarlık ve farklı diller arasındaki iletişimi kolaylaştırma gibi görevlerde üstün performans sergiliyor. Ses tonlamaları arasındaki farkı ayırt edebiliyor, farklı çeşit ve tonlarda sesler üretebiliyor ve 50 dil arasında gerçek zamanlı çeviri yapabiliyor.
- Kişisel bir öğretmen rolünü de üstlenebilen GPT-4o, eğitimde gerçek yapay zeka çağını başlatacak gibi görünüyor. Size sizin istediğiniz ses tonuyla cevap verebilen, öğrencilere özel ders planları hazırlayabilen, anında geri bildirim sağlayabilen, eğitim materyallerini optimize edebilen ve hatta üst üste hatalar yaptığınızda size kızabilen bir eğitim modelinden bahsediyoruz.
- Görselleri analiz edebilen ve yüz ifadelerinden duyguları ayırt edebilen GPT-4o, bu kabiliyetleriyle sağlık sektöründe teşhis ve tedavi süreçlerinde büyük fayda sağlayabilir. Tıbbi görüntüleri analiz ederek potansiyel hastalıkları tespit edebilir ya da hastaların tıbbi geçmişlerini inceleyerek daha doğru teşhisler koyabilir.
OpenAI tarafından tanıtım etkinliğinde paylaşılan bilgilere göre GPT-4o’nun metin ve görüntü yetenekleri an itibarıyla tüm ChatGPT kullanıcıları için erişilebilir durumda. Modelin önceki modellere göre daha uygun maliyetli olması nedeniyle ücretsiz olarak da sunulacağı, ücretli GPT-4o kullanıcılarının ise daha fazla kapasiteye sahip olacağı aktarıldı.