Teknoloji

AI Görüntü Oluşturucuları Neden Metni Doğru Yaratmakta Zorlanıyor?

Metni Doğru Yaratmakta Zorlanıyor?
Komut: Üzerinde ‘Fotoğrafçı Salonu’ yazan büyük bir tabela bulunan bir kamera mağazasının resmini çekin | DALL-E 3

Yapay zeka görüntüsü ile gerçek fotoğraf arasında ayrım yapmak giderek zorlaşıyor. Ancak hala bazı ipuçları var ve bunlardan biri de yapay zeka görüntü oluşturucularının tutarlı metinler üretmekte zorluk çekmesi.

Yapay zeka şirketleri sıklıkla en son modellerinin “okunaklı bir şekilde metin oluşturabilme” özelliğiyle övünüyor ve metin oluşturma geliştirilmiş olsa da yapay zeka programları hala bu konuda takılıp kalıyor.

Make a picture of a camera store with a big sign that
Midjourney V6’nın üzerinde ‘Fotoğrafçı Salonu’ yazan bir kamera mağazasına giriş girişimi.
Yakınında bile değil.

Yapay Zeka Görüntü Oluşturucuları Neden Kelimeleri Doğru Yazamıyor?

Basit bir açıklama, yapay zeka görüntü oluşturucularının, metnin ne olduğunu bilmediği için insanlar gibi yazmak yerine harfler ve rakamlar üzerine çizim yapmasıdır.

University College London’da bilgisayar bilimcisi ve yazar olan Profesör Peter Bentley, şunları söylüyor: “Şu anda, çok fazla parmak veya tuhaf eklemlere sahip çılgın el görüntüleri elde edebilmemizle aynı nedenden dolayı başarısız oluyorlar . “

“Görüntü üreten yapay zekalar dünyamız hakkında hiçbir şey bilmiyor, 3 boyutlu nesneleri anlamıyorlar ve görüntülerde görünen metinleri de anlamıyorlar.

“Görsellerle ilişkilendirilen metinsel etiketler biçimindeki büyük miktarda metin üzerinde eğitilmiş olsalar da, görüntü içindeki metin onlar için görüntünün yalnızca bir başka parçası.

“Tıpkı bir tüyün, metin üretmesi istendiğinde ‘tüy benzeri’ olduğu sürece birçok varyasyonda ve renkte gösterilebilmesi gibi, birçok sistem de ‘metne benzer’ şekiller üretiyor.”

İnsanlar harflerin ne anlama geldiğini ve bir kelimenin nasıl oluşturulduğunu anlıyor, yapay zeka anlayamıyor. Yapay zeka, metin karakterlerini sadece çizgi ve şekillerin farklı bir kombinasyonu olarak görüyor.

DALL·E
DALL-E 3’ün bu cesur çabası, “‘Gerçek Fotoğrafçılar Analog Çekiyor’ yazan bir gazoz kutusunun resmini yapın.”
Yakında ama puro yok ve OpenAI’nin DALL-E 3’ü şu anda mevcut olan en gelişmiş yapay zeka görüntü oluşturucularından biri olmasa da.

DALL-E ve Midjourney gibi programlar, kelimeler ve görüntüler arasındaki ilişkileri öğrenen yapay sinir ağları üzerine kuruludur. Bazıları, metin gösterimi için tamamen yeni bir yapay zeka oluşturucunun gerekli olduğunu savunuyor.

DALLE-2 makalesinde yazarlar, modelin “işlenmiş metnin yazım bilgisini tam olarak kodlamadığını” söylüyorlar. Yani model, kelimenin nasıl okunması gerektiğini tahmin ediyor.

Bu sefer Google’dan gelen başka bir araştırma makalesi, daha fazla parametrenin (modellerin üzerinde eğitildiği değişkenler) eklenmesinin metin oluşturmayı önemli ölçüde iyileştirebileceğini öne sürüyor.

DALL·E 2
Komut: Bana ‘Hiçbir Şey Tam Çerçeveyle Kıyaslanamaz’ yazan bir tabela tutan bir adamın resmini yapın. | DALL-E 3
Make a picture of a man holding a sign that reads Not
Midjourney V6’ya girilen yukarıdaki istemin tamamen aynısı anlamsız bir görüntü üretti.

Yapay zeka görüntü oluşturucularının ellerle uğraştığı gibi, yapay zeka da bir kelimenin 3 boyutlu geometrisini kavramsallaştırmaya çabalıyor ve sonuçta her şey eğitim verilerine bağlı.

Yapay zeka görüntü oluşturucuları, görüntülerdeki metinlerden çok daha fazla insan yüzü resmine göre eğitilecek. Bu nedenle, insanların yüzlerinin görüntülerini oluşturmak, bir görüntüdeki metinden daha iyi bir iş çıkarıyorlar.

Make a picture of the Welcome to Fabulous Las Vegas
Yapay zeka modelleri (çoğunlukla) Las Vegas tabelasını doğru bir şekilde yeniden oluşturabiliyor çünkü tabelanın çok sayıda gerçek fotoğrafı üzerinde eğitilmişler. | Midjourney
DALL·E 3
DALL-E 3

Bunun güzel bir örneği Las Vegas tabelasıdır. Yapay zeka modelleri, ikonik Vegas tabelasının sayısız resmiyle eğitilecek. Bu nedenle onu doğru bir şekilde yeniden yaratabilirler. Tersine, modeller, “Hiçbir Şey Tam Çerçeveyle Kıyaslanamaz” yazan bir tabela tutan bir adamın resimlerine göre eğitilmedi. (Ama ilginçtir ki DALL-E bu konuda iyi bir iş çıkardı.)

Fotoğrafçılar veya Photoshop’u nasıl kullanacağını bilen herkes için yapay zekanın yaptığı bu yazım hatalarından bazıları kolaylıkla düzeltilebilir.

Bir yanıt yazın

Bu site, istenmeyenleri azaltmak için Akismet kullanıyor. Yorum verilerinizin nasıl işlendiği hakkında daha fazla bilgi edinin.

Başa dön tuşu
Eleanor Macnair: Whilst the world sleeps Andrei Stenin Uluslararası Basın Fotoğraf Yarışması 2024 Yılın Sualtı Fotoğrafçısı 2024 Şifreli olarak imzalanmış fotoğraflar neden önemlidir? Sony Dünya Fotoğraf Ödülleri 2023

Reklam Engelleyici Algılandı

Lütfen SanalSergi'yi gezerken reklam engelleyicinizi kapatın. Açık kalması durumunda site içerisinde içeriklerde kısıtlı erişim sağlayabilirsiniz. Desteğiniz için teşekkürler.