Bir fotoğrafın gerçek mi yoksa yapay zeka üretimi mi olduğunu nasıl anlarsınız? Yüzeysel bakışta her şey kusursuz görünebilir. Ancak görüntünün piksel katmanlarının altında, frekans analizi yöntemi olan FFT (Hızlı Fourier Dönüşümü) sayesinde çıplak gözün kaçırdığı izler gün yüzüne çıkar. Bu yazıda FFT’nin ne olduğunu, gerçek fotoğraflar ile yapay zeka görselleri arasındaki frekans farklılıklarını ve bu analizin tespit sürecinde nasıl kullanıldığını açıklıyoruz.

FFT Nedir ve Görsel Analizde Ne İşe Yarar?

Fourier Dönüşümü, herhangi bir sinyali (ses, elektrik, ışık ya da görüntü) frekans bileşenlerine ayıran matematiksel bir araçtır. Hızlı Fourier Dönüşümü (FFT) bu hesabı verimli biçimde yapan algoritmadır.

Görüntülere uygulandığında FFT, piksellerin uzamsal dağılımını frekans domenine taşır:

  • Düşük frekanslar: Renk geçişleri, büyük yüzeyler, genel parlaklık
  • Yüksek frekanslar: Kenarlar, dokular, ince ayrıntılar, gürültü

Sonuç olarak elde edilen güç spektrumu görselin frekans “parmak izini” verir. Ve bu parmak izi, görselin nasıl üretildiğine dair çok şey söyler.

Gerçek Fotoğraflarda Frekans Dağılımı

Bir kamerayla çekilen gerçek fotoğrafın frekans spektrumu belirli bir örüntü izler: 1/f (pembe gürültü) spektrumu. Bu ifade, görseldeki güç yoğunluğunun frekansla ters orantılı düştüğü anlamına gelir; düşük frekanslarda yüksek güç, yüksek frekanslarda düşük ama sürekli bir güç dağılımı.

Bu örüntünün nedenleri şunlardır:

  • Doğal sahneler düşük frekanslı yapılara (gökyüzü, duvarlar, yüzeyler) hakimdir
  • Kamera lensi ve sensör gürültüsü yüksek frekanslara düzensiz ama tutarlı bir katkı yapar
  • JPEG sıkıştırması bile bu gürültü örüntüsünü tamamen silmez

Sonuç: gerçek bir fotoğrafın spektrumu pürüzsüz, izotropik (yönsüz) ve öngörülebilir bir bozunma sergiler.

Yapay Zeka Üretimi Görsellerde FFT İzleri

Yapay zeka modelleri görüntü üretirken gerçek dünyanın fizik kurallarını taklit etmek zorunda değildir. Bu nedenle frekans spektrumları karakteristik anormallikler içerir.

Grid Artefaktları (Izgara İzleri)

GAN (Generative Adversarial Network) ve bazı erken diffusion modellerinde yaygındır. Model mimarisindeki konvolüsyon filtrelerinin periyodik tekrarı FFT spektrumunda düzenli nokta örüntüleri oluşturur. Bu noktalar spektrumda ızgara şeklinde dizilir; doğal hiçbir fotoğrafta bu kadar düzenli bir yapı görülmez.

Tekdüze Frekans Bantları

Bazı üretici modeller belirli frekans aralıklarını diğerlerinden farklı işler. Sonuçta spektrumda yatay ya da dikey bantlar belirir. Gerçek fotoğraflarda bu tür bantsal örüntü yoktur; dağılım radyal ve süreklidir.

Yüksek Frekanslı Gürültünün Yokluğu

Bu belki de en belirgin ipucudur. Diffusion modelleri, özellikle Stable Diffusion ve Midjourney, yüksek frekanslı gürültüyü bastırma eğilimindedir. Gerçek bir fotoğrafta kamera sensörünün eklediği “shot noise” daima mevcuttur. AI görsellerinde bu gürültü yoktur ya da yapay biçimde düzgündür. Spektrumun yüksek frekans ucu, gerçek bir fotoğrafa kıyasla anormal biçimde “temiz” görünür.

Faz Tutarsızlıkları

FFT yalnızca güç spektrumunu değil, faz bilgisini de içerir. Yapay zeka görsellerinde faz ilişkileri kimi zaman tutarsızdır; piksellerin birbirleriyle olan uzamsal ilişkisi gerçek bir sahnede beklenenden farklı bir örüntü sergiler.

GAN ile Diffusion Model Frekansları: Farklar

İki farklı yapay zeka mimarisi farklı frekans imzaları bırakır:

ÖzellikGAN GörselleriDiffusion Model Görselleri
Grid artefaktlarıYaygın, belirginNadir, zayıf
Yüksek frekans gürültüsüBazen mevcutGenellikle yoktur
Spektral bozunmaKeskin, yapayPürüzsüz, aşırı temiz
Tespit güçlüğüOrtaYüksek
Yönlü bantlarSık gözlenirDaha az sık

Diffusion modellerinin tespit edilmesi daha zordur çünkü çıktıları istatistiksel olarak gerçek fotoğraflara daha yakındır. Ancak yüksek frekanslardaki anormal temizlik, dikkatli bir analizde hâlâ öne çıkar.

FakeRadar’ın Yaklaşımı: FFT Tek Başına Yeterli Değil

FFT güçlü bir sinyal kaynağıdır, ancak hiçbir zaman tek başına kullanılmamalıdır. FakeRadar, frekans analizini aşağıdaki diğer yöntemlerle birleştirir:

  • ELA (Error Level Analysis): JPEG sıkıştırma tutarsızlıklarını inceler; yapay zeka görsellerinde tipik olarak tekdüze ELA haritaları üretilir
  • Hive AI: Büyük görsel veri kümesi üzerinde eğitilmiş sınıflandırıcı; doku ve anlambilimsel örüntüleri değerlendirir
  • EXIF Metadata: Kamera bilgisi, GPS verisi ve yazılım imzaları kontrol edilir
  • C2PA: İçerik kimlik bilgileri varsa doğrulanır

FFT tek bir analiz değil, çok katmanlı bir değerlendirmenin bir parçasıdır. Sinyal sayısı ne kadar fazla ve birbirini destekliyorsa, sonucun güvenilirliği o kadar artar.

FFT Analizinin Sınırlamaları

Dürüst bir değerlendirme için sınırlamaları da belirtmek gerekir:

  • JPEG sıkıştırması bazı frekans izlerini maskeler; çok kez sıkıştırılmış bir görsel analizi zorlaştırır
  • Ekran görüntüsü olarak kaydedilen yapay zeka görselleri ek gürültü katmanları ekler
  • Yeni nesil modeller frekans tutarsızlıklarını giderek daha iyi örtbas etmektedir
  • Gerçek fotoğraflar aşırı düzenlendiğinde yapay görünebilir; bu yanlış pozitif üretebilir

FFT bir kanıt değil, bir ipucudur. Diğer sinyallerle desteklendiğinde anlamlı hale gelir.

Sonuç

FFT spektrum analizi, yapay zeka görsellerinin bıraktığı görünmez parmak izlerini ortaya çıkarmak için güçlü bir araçtır. Grid artefaktları, yüksek frekans gürültüsünün yokluğu ve anormal bantsal dağılımlar; gerçek bir fotoğrafın hiçbir zaman sergilemeyeceği örüntülerdir. Ancak tek başına FFT kesin bir yargı veremez.

Görsellerinizin FFT spektrumunu, ELA haritasını ve diğer adli sinyalleri tek seferde analiz etmek için FakeRadar’ı ücretsiz deneyin. Pro plan kapsamında FFT görselleştirmesi doğrudan analiz raporunuzda yer alır.