Bir fotoğrafın gerçek mi yoksa yapay zeka üretimi mi olduğunu nasıl anlarsınız? Yüzeysel bakışta her şey kusursuz görünebilir. Ancak görüntünün piksel katmanlarının altında, frekans analizi yöntemi olan FFT (Hızlı Fourier Dönüşümü) sayesinde çıplak gözün kaçırdığı izler gün yüzüne çıkar. Bu yazıda FFT’nin ne olduğunu, gerçek fotoğraflar ile yapay zeka görselleri arasındaki frekans farklılıklarını ve bu analizin tespit sürecinde nasıl kullanıldığını açıklıyoruz.
FFT Nedir ve Görsel Analizde Ne İşe Yarar?
Fourier Dönüşümü, herhangi bir sinyali (ses, elektrik, ışık ya da görüntü) frekans bileşenlerine ayıran matematiksel bir araçtır. Hızlı Fourier Dönüşümü (FFT) bu hesabı verimli biçimde yapan algoritmadır.
Görüntülere uygulandığında FFT, piksellerin uzamsal dağılımını frekans domenine taşır:
- Düşük frekanslar: Renk geçişleri, büyük yüzeyler, genel parlaklık
- Yüksek frekanslar: Kenarlar, dokular, ince ayrıntılar, gürültü
Sonuç olarak elde edilen güç spektrumu görselin frekans “parmak izini” verir. Ve bu parmak izi, görselin nasıl üretildiğine dair çok şey söyler.
Gerçek Fotoğraflarda Frekans Dağılımı
Bir kamerayla çekilen gerçek fotoğrafın frekans spektrumu belirli bir örüntü izler: 1/f (pembe gürültü) spektrumu. Bu ifade, görseldeki güç yoğunluğunun frekansla ters orantılı düştüğü anlamına gelir; düşük frekanslarda yüksek güç, yüksek frekanslarda düşük ama sürekli bir güç dağılımı.
Bu örüntünün nedenleri şunlardır:
- Doğal sahneler düşük frekanslı yapılara (gökyüzü, duvarlar, yüzeyler) hakimdir
- Kamera lensi ve sensör gürültüsü yüksek frekanslara düzensiz ama tutarlı bir katkı yapar
- JPEG sıkıştırması bile bu gürültü örüntüsünü tamamen silmez
Sonuç: gerçek bir fotoğrafın spektrumu pürüzsüz, izotropik (yönsüz) ve öngörülebilir bir bozunma sergiler.
Yapay Zeka Üretimi Görsellerde FFT İzleri
Yapay zeka modelleri görüntü üretirken gerçek dünyanın fizik kurallarını taklit etmek zorunda değildir. Bu nedenle frekans spektrumları karakteristik anormallikler içerir.
Grid Artefaktları (Izgara İzleri)
GAN (Generative Adversarial Network) ve bazı erken diffusion modellerinde yaygındır. Model mimarisindeki konvolüsyon filtrelerinin periyodik tekrarı FFT spektrumunda düzenli nokta örüntüleri oluşturur. Bu noktalar spektrumda ızgara şeklinde dizilir; doğal hiçbir fotoğrafta bu kadar düzenli bir yapı görülmez.
Tekdüze Frekans Bantları
Bazı üretici modeller belirli frekans aralıklarını diğerlerinden farklı işler. Sonuçta spektrumda yatay ya da dikey bantlar belirir. Gerçek fotoğraflarda bu tür bantsal örüntü yoktur; dağılım radyal ve süreklidir.
Yüksek Frekanslı Gürültünün Yokluğu
Bu belki de en belirgin ipucudur. Diffusion modelleri, özellikle Stable Diffusion ve Midjourney, yüksek frekanslı gürültüyü bastırma eğilimindedir. Gerçek bir fotoğrafta kamera sensörünün eklediği “shot noise” daima mevcuttur. AI görsellerinde bu gürültü yoktur ya da yapay biçimde düzgündür. Spektrumun yüksek frekans ucu, gerçek bir fotoğrafa kıyasla anormal biçimde “temiz” görünür.
Faz Tutarsızlıkları
FFT yalnızca güç spektrumunu değil, faz bilgisini de içerir. Yapay zeka görsellerinde faz ilişkileri kimi zaman tutarsızdır; piksellerin birbirleriyle olan uzamsal ilişkisi gerçek bir sahnede beklenenden farklı bir örüntü sergiler.
GAN ile Diffusion Model Frekansları: Farklar
İki farklı yapay zeka mimarisi farklı frekans imzaları bırakır:
| Özellik | GAN Görselleri | Diffusion Model Görselleri |
|---|---|---|
| Grid artefaktları | Yaygın, belirgin | Nadir, zayıf |
| Yüksek frekans gürültüsü | Bazen mevcut | Genellikle yoktur |
| Spektral bozunma | Keskin, yapay | Pürüzsüz, aşırı temiz |
| Tespit güçlüğü | Orta | Yüksek |
| Yönlü bantlar | Sık gözlenir | Daha az sık |
Diffusion modellerinin tespit edilmesi daha zordur çünkü çıktıları istatistiksel olarak gerçek fotoğraflara daha yakındır. Ancak yüksek frekanslardaki anormal temizlik, dikkatli bir analizde hâlâ öne çıkar.
FakeRadar’ın Yaklaşımı: FFT Tek Başına Yeterli Değil
FFT güçlü bir sinyal kaynağıdır, ancak hiçbir zaman tek başına kullanılmamalıdır. FakeRadar, frekans analizini aşağıdaki diğer yöntemlerle birleştirir:
- ELA (Error Level Analysis): JPEG sıkıştırma tutarsızlıklarını inceler; yapay zeka görsellerinde tipik olarak tekdüze ELA haritaları üretilir
- Hive AI: Büyük görsel veri kümesi üzerinde eğitilmiş sınıflandırıcı; doku ve anlambilimsel örüntüleri değerlendirir
- EXIF Metadata: Kamera bilgisi, GPS verisi ve yazılım imzaları kontrol edilir
- C2PA: İçerik kimlik bilgileri varsa doğrulanır
FFT tek bir analiz değil, çok katmanlı bir değerlendirmenin bir parçasıdır. Sinyal sayısı ne kadar fazla ve birbirini destekliyorsa, sonucun güvenilirliği o kadar artar.
FFT Analizinin Sınırlamaları
Dürüst bir değerlendirme için sınırlamaları da belirtmek gerekir:
- JPEG sıkıştırması bazı frekans izlerini maskeler; çok kez sıkıştırılmış bir görsel analizi zorlaştırır
- Ekran görüntüsü olarak kaydedilen yapay zeka görselleri ek gürültü katmanları ekler
- Yeni nesil modeller frekans tutarsızlıklarını giderek daha iyi örtbas etmektedir
- Gerçek fotoğraflar aşırı düzenlendiğinde yapay görünebilir; bu yanlış pozitif üretebilir
FFT bir kanıt değil, bir ipucudur. Diğer sinyallerle desteklendiğinde anlamlı hale gelir.
Sonuç
FFT spektrum analizi, yapay zeka görsellerinin bıraktığı görünmez parmak izlerini ortaya çıkarmak için güçlü bir araçtır. Grid artefaktları, yüksek frekans gürültüsünün yokluğu ve anormal bantsal dağılımlar; gerçek bir fotoğrafın hiçbir zaman sergilemeyeceği örüntülerdir. Ancak tek başına FFT kesin bir yargı veremez.
Görsellerinizin FFT spektrumunu, ELA haritasını ve diğer adli sinyalleri tek seferde analiz etmek için FakeRadar’ı ücretsiz deneyin. Pro plan kapsamında FFT görselleştirmesi doğrudan analiz raporunuzda yer alır.