Ekonomi

Yapay Zeka ve İnsan: Bernstein LLM’lerin nasıl kullanılacağını açıkladı

Investing.com — Bernstein, büyük dil modellerinin (LLM) kullanımı hakkında yeni bir araştırma yayınladı. Araştırma, yapay zekanın nerede bağımsız çalışabileceğini ve nerede insan gözetimine ihtiyaç duyduğunu değerlendiriyor.

Aracı kurum, yapay zeka sistemlerinin bilgi toplama ve sentezleme gibi görevlerde iyi performans gösterdiğini, ancak yargı gerektiren alanlarda yetersiz kaldığını tespit etti.

Analistler, finansal araştırmanın standartlaştırılmış sektörlerden farklı olduğunu belirtiyor. Bunun nedeni, özel “duvarlarla çevrili verilere” ve niteliksel yargıya dayanması.

LLM’lerin beş ila altı yıllık kazanç görüşmelerini özetlemede ve uzun raporları incelemede etkili olduğu görüldü.

Bununla birlikte, şirket modelleri veya yatırım tezleri oluşturması istendiğinde yapay zeka sistemleri düşük performans gösterdi.

Yapılandırılmış talimatlara rağmen, çıktılar hatalar ve sabit kodlanmış değerler içeriyordu. Ayrıca analitik derinlikten yoksundu.

Sorgu kalitesi kritik bir faktör olarak belirlendi. Güney Kaliforniya Üniversitesi’nin bir çalışması, sorgu ifadelerindeki küçük değişikliklerin yanıtların %5 ile %9’unu değiştirdiğini gösterdi.

Örneğin, bir soruyu “Teşekkür ederim” ile bitirmek sonuçların %5,6’sını değiştirirken, bir soruyu ifade olarak yeniden formüle etmek %8,5’ini değiştirdi.

Tıbbi araştırmalarda GPT-4, “düşünce zinciri” yöntemi kullanarak klinik kılavuzlarla uyumlu tedavi önerileri %50,6 ila %52,9 oranında üretti. Bu oran, düşünce tekrarlama sorgulamasıyla %63’e yükseldi.

Yapılandırılmış sorgular teşhis doğruluğunu daha da artırdı. Yapay zeka, metastatik kanser vakalarını 0,886 F1 puanıyla tespit etti. Bu, insan değerlendiricilerin 0,838 olan ortalamasının üzerindeydi.

Testler ayrıca aşırı detayın doğruluğu azalttığını gösterdi. Performans başlangıçta daha fazla bilgiyle iyileşti. Ancak sorgular aşırı yüklendiğinde düştü ve “sorgu şişkinliği”ne yol açtı.

Bernstein, LLM’leri finansal görevlerde yeniden test etti. Kazanç görüşmelerini işlemede, yinelemeli sorgulama kullanıldığında ortalama puanlar 5 üzerinden 3,8’den 4,3’e yükseldi. Perplexity 2’den 4,5’e yükselirken, ChatGPT 3,5’ten 4’e yükseldi.

Yönetim tonunu değerlendirmede, sorgulamalara belirli yatırımcı endişeleri eklendiğinde ortalama puanlar 3,8’den 4’e yükseldi.

Daha geniş sektör analizi, daha yoğun sorgulamayla 3,2’den 3,9’a yükseldi. Yatırım tezi oluşturma, yapılandırılmış adım adım çerçevelere rağmen sadece 3’ten 3,4’e yükseldi.

Yönetim kararlarını değerlendirmede, tam bir analitik parametre seti sağlandığında ortalama puanlar 3,5’ten 4,1’e yükseldi.

Standartlaştırılmış görevler daha güçlü yapay zeka performansı gösterdi. BT yardım masası testlerinde, Erişim Destekli Üretim kullanan yapay zeka sistemleri, SelfScore karşılaştırmasında 29,4 puan aldı. İnsanların puanı ise 23,1’di. Erişim teknikleri olmadan bile, yapay zeka ajanları insan meslektaşlarından daha iyi performans gösterdi.

Bernstein ayrıca 1990’ların sonlarından bu yana becerilerdeki yapay zeka ilerlemesini takip ediyor. Sistemler el yazısı tanıma, görüntü tanıma ve konuşma tanımada insan seviyelerine ulaştı veya aştı.

Okuma anlama, kodlama ve matematik problem çözmede de kazanımlar rapor edildi. Bununla birlikte, nüanslı dil yorumlama ve karmaşık akıl yürütme insan güçlü yönleri olmaya devam ediyor.

Bu makale yapay zekanın desteğiyle oluşturulmuş, çevrilmiş ve bir editör tarafından incelenmiştir. Daha fazla bilgi için Şart ve Koşullar bölümümüze bakın.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu