Ana içeriğe geç

7.4 Vision-Language Karşılaştırma — Bölüm 7 İMZA SAYFASI

Kim için: 🟢 başlangıç 🔵 iş 🟣 kişisel

⏱️ Süre: ~30 dakika
📋 Önkoşul: 7.1 + 7.2 + 7.3 okundu. Test için 5 görsel (OCR + diyagram + fotoğraf + grafik + Türkçe metin içeren).
🎯 Çıktı: 4 vision modelin karşılaştırma refleksi elinde — **Claude Sonnet 4.6 / Opus 4.7** vs **GPT-5.5** vs **Gemini 2.5 Pro** vs **Qwen3-VL** (açık ağırlık). 5 benchmark (OCR, Türkçe, diyagram, grafik, sahne) üzerinde model seçim matrisi. **Mülakatta "hangi vision modeli?"** sorusuna **gerekçeli** cevap. **Bölüm 7 kavramsal imza** — 9.6 pratik imza için zemin.

Yabancı kelime mi gördün?

Vision-Language Model (VLM — Görüntü-Dil Modeli) = görsel + metin birlikte işleyen model; Claude Sonnet 4.6, GPT-5.5, Gemini 2.5 hepsi VLM. Benchmark (kıyaslama) = ölçünlü sınama veri seti; MMMU, DocVQA, MathVista akademik, aynı veri farklı modeller. OCR benchmark = görselden metin okuma doğruluğu; DocVQA + InfoVQA + STVQA. Multimodal reasoning (çoklu kip akıl yürütme) = görsel + düşünce zinciri birlikte; "bu grafiği incele, en yüksek değerin sebebi ne?" türü sorular. Açık ağırlık (open weights) = model ağırlıkları halka açık; Qwen3-VL, Llama 4 Maverick (vision), Pixtral (Mistral), InternVL örnek. Pixtral = Mistral'ın 12B / 124B vision modeli, Apache 2.0 lisans. InternVL 2.5 / 3 = Shanghai AI Lab'ın açık kaynak VLM serisi; OCR'de Qwen3-VL ile başa baş.

Neden bu sayfa?

7.1 Claude vision'ı öğrendin. "Claude en iyi mi?" sorusunun cevabı tek kelime değil — kullanım alanına göre değişir. Bu sayfa 4 ana VLM'i karşılaştırır + seçim kriterleri verir. İMZA niteliğinde — Bölüm 7 kavramsal imza sayfası.

İkincisi: Mülakatta direkt çıkar (10.2 soru tipi): "Müşteri için vision özellikli sistem kurman gerek, hangi modeli seçersin?" — bu sayfa cevap şablonu. Sadece "Claude" değil; gerekçeli cevap.

Üçüncüsü: Platform Anthropic-first ama dogmatik değil. Bazı kullanım alanları için Gemini veya açık kaynak daha iyi. Bu sayfa o dengeyi kurar — Claude için güçlü argümanlar + nerede geri adım at.

4 model — tek bakış

🗺️ Vision-Language modeller 2026 Nisan
flowchart TB
    subgraph CLAUDE["🟠 Claude Sonnet 4.6 / Opus 4.7"]
        C1[Anthropic]
        C2[API odaklı]
        C3[Sonnet $3/M in, $15/M out\nOpus $5/M in, $25/M out]
        C4[1M token bağlam]
    end

    subgraph GPT["🟢 GPT-5.5 / GPT-5.2"]
        G1[OpenAI]
        G2[API + ChatGPT]
        G3[GPT-5.5 ~$1.25/$5\nGPT-5.2 ~$1.75/$14]
        G4[400K - 1M bağlam]
    end

    subgraph GEMINI["🔵 Gemini 2.5 Pro"]
        M1[Google]
        M2[API + Google AI Studio]
        M3[$1.25/M in, $10/M out]
        M4[1M bağlam (2M ileride)]
    end

    subgraph QWEN["🟣 Qwen3-VL"]
        Q1[Alibaba — açık ağırlık]
        Q2[Self-host veya bulut]
        Q3[Ücretsiz + GPU]
        Q4[32K bağlam]
    end

    classDef c fill:#fed7aa,stroke:#ea580c,color:#111
    classDef g fill:#fef3c7,stroke:#ca8a04,color:#111
    classDef m fill:#dbeafe,stroke:#2563eb,color:#111
    classDef q fill:#ddd6fe,stroke:#7c3aed,color:#111
    class C1,C2,C3,C4 c
    class G1,G2,G3,G4 g
    class M1,M2,M3,M4 m
    class Q1,Q2,Q3,Q4 q

Fiyat nüansı (2026 Nisan): Pricing aylık değişir; bu rakamlar referans — projede karar anında claude.com, openai.com/api/pricing, ai.google.dev/pricing kontrol.

Benchmark — 5 testin sonucu

Aşağıdaki sonuçlar platform-uyumlu özet — Anthropic + OpenAI + Google technical reports + academic leaderboards (MMMU, DocVQA, MathVista) 2025-2026 verilerinden.

Kıyaslama Claude 4.6/4.7 GPT-5.5 Gemini 2.5 Pro Qwen3-VL-235B
MMMU (genel çoklu kip akıl yürütme) 75.7% (Sonnet 4.6) / 78.2% (Opus 4.7) 73.5% 72.4% 68.5%
DocVQA (belge + soru-cevap) 95.4% (Opus 4.7) 93.1% 93.7% 91.2%
MathVista (görsel matematik) 71.4% 76.8% 74.5% 70.1%
ChartQA (grafik çözümlemesi) 88.5% 87.9% 91.2% 84.6%
InfoVQA (yoğun bilgi grafikleri) 92.1% 90.4% 90.8% 87.3%
Türkçe metin görseli (pratik sınama, MühendisAl 50 örnek) ~%92 ~%87 ~%88 ~%80

Not: Akademik kıyaslama sayıları model sürümleriyle güncellenir. Yukarıdaki rakamlar 2025-2026 teknik raporlarından (Anthropic Sonnet 4.6 system card, Opus 4.7 system card, OpenAI GPT-5 system card, Google Gemini 2.5 technical report, Alibaba Qwen3-VL paper) çıkarılmış değerlerdir; kesin değer için ilgili modelin "system card"ına bak.

Okuma: Claude genel + belge + Türkçe + InfoVQA önde; GPT-5.5 görsel matematik; Gemini 2.5 Pro grafik. Qwen3-VL-235B (açık ağırlık) 3. taraf ücretli modellere yakın, %4-7 gerisinde ama kendi sunucunda barındırma + telif/veri yerel kalır avantajı var. Llama 4 Maverick'in vision sürümü 2026 başında DocVQA'da %93.5'a ulaştı — açık ağırlıklı tarafta yarış kızıştı.

Benchmark kaynaklar

  • MMMU: https://mmmu-benchmark.github.io/
  • DocVQA: https://www.docvqa.org/
  • MathVista: https://mathvista.github.io/
  • ChartQA: https://github.com/vis-nlp/ChartQA

Akademik; Anthropic + OpenAI technical reports'tan çekilen. Her yeni model sürümü benchmark güncellenir — 6 ayda bir kontrol.

Kullanım alanı × model matrisi

Kullanım 🏆 Tercih Neden 2. Tercih
Türkçe belge OCR Claude Sonnet 4.6 DocVQA + Türkçe üstün Gemini 2.5 Pro
UI mockup → kod Claude Sonnet 4.6 Anthropic Claude Code ekosistemi GPT-5.5
Matematik + diyagram GPT-5.5 MathVista avantajı Claude Opus 4.7
Grafik analizi (çizgi, çubuk) Gemini 2.5 Pro ChartQA önde Claude Sonnet 4.6
Saatlerce video Gemini 2.5 Pro Doğal video girdi + 1M bağlam Claude (kare bazlı, 7.3)
1000+ sayfa PDF (Türkçe) Claude Opus 4.7 (1M) 1M bağlam + Türkçe + DocVQA Gemini 2.5 Pro
Yerinde (on-prem) / KVKK özel Qwen3-VL self-host Veri dışarı çıkmaz -
Maliyet kritik — yüksek hacim Qwen3-VL self-host GPU + ücretsiz Gemini Flash (en düşük API fiyat)
Genel günlük kullanım Claude Sonnet 4.6 Tutarlı kalite + Türkçe GPT-5.5
Computer Use / ajan Claude Sonnet 4.6 / Opus 4.7 Olgun computer_20250124+ aracı + Model Spec -
Araştırma + tekrar edilebilirlik Qwen3-VL Açık ağırlık + deterministik -

Model × kullanıcı profili

Senin için (genel AI Engineer): Claude Sonnet 4.6 default. Gerektiğinde diğer modeller.

On-prem müşteri: Qwen2-VL 72B self-host (4× A100 gerekli veya Together AI managed).

Startup bütçe 0: Gemini 2.5 (fiyat en ucuz) + Claude kritik operasyonlar için.

Enterprise + Anthropic customer: Claude Sonnet 4.6 default, tüm akış tek vendor.

Uzun video / 1000 sayfa PDF: Gemini 2.5 Pro zorunlu (2M context avantajı).

5 test senaryosu — kendi modelini seç

Senaryo 1: Türkçe ürün açıklama üretimi

Veri: E-ticaret ürün fotoğrafı (1000×1000 jpg).

Test: Aynı prompt 4 modele: "Bu ürün için Türkçe SEO uyumlu başlık (60 char) + açıklama (150 kelime)."

Beklenen sonuç: - Claude Türkçe akıcı, SEO farkında → Seçim - GPT-4o iyi ama Türkçe "AI" hissi var - Gemini akıcı, SEO orta - Qwen'in Türkçe'si %75 seviye

Karar: Claude. Aylık 1000 ürün × $0.01 = $10/ay.

Senaryo 2: Matematik soru çözümü

Veri: 9. sınıf matematik kitabı soru fotoğrafı + diyagram.

Test: "Çöz + adım adım açıkla (Türkçe)."

Beklenen sonuç: - GPT-4o doğru sonuç %85, net adımlar → Seçim - Claude yakın %80; bazen adımları atlar - Gemini %78 - Qwen %70

Karar: GPT-4o matematik için. Aynı ekosistemde Claude ile karma kullanım — matematik GPT-4o, Türkçe metin Claude.

Senaryo 3: Finansal grafik analizi

Veri: Şirket bilançosunda bar chart — 5 yıllık gelir trend.

Test: "Her yılın değerini çıkar + trend yorumu."

Beklenen sonuç: - Gemini 2.5 sayıları %95 doğru; en yüksek → Seçim - Claude %90 — bazen en küçük bar'ı kaçırır - GPT-4o %88 - Qwen %80

Karar: Gemini grafik analiz için. Trend yorumu için Claude'a post-process gönder.

Senaryo 4: Scan PDF → structured JSON (hukuki)

Veri: 20 sayfa Türkçe sözleşme tarama.

Test: "Her madde için: numara, başlık, özet, risk skoru."

Beklenen sonuç: - Claude Sonnet 4.6 Türkçe + yapılandırılmış çıktı + tool calling = Seçim - Gemini 2.5 uzun context avantajı (20 sayfa tek prompt), kalite Claude'a yakın - GPT-4o iyi ama Türkçe hukuki jargon'da zayıf - Qwen'in Türkçe hukuki %70

Karar: Claude birincil, Gemini 30+ sayfa olursa yedek.

Senaryo 5: On-prem sağlık sistemi

Veri: Röntgen görseli + rapor yazım.

Test: Hastane on-prem, KVKK özel nitelikli veri.

Beklenen sonuç: - Qwen2-VL 72B veya LLaVA-Med self-host → Seçim (veri dışarı çıkmaz) - Claude / GPT / Gemini yasal olarak kullanılamaz (KVKK Madde 6 özel nitelik + sınır ötesi veri) - Kalite düşüşü kabul edilir, mevzuat zorunluluk

Karar: Qwen2-VL self-host + RAG (tıp kaynakları) + FT (hastane raporu stil). Karmaşık ama zorunlu.

Kendi model karşılaştırma testin

Sen de kıyas yap. 5 test görseli hazırla:

  1. Türkçe ürün fotoğrafı (1 tane)
  2. Türkçe matematik soru (1 tane)
  3. Çizgi veya bar grafik (1 tane)
  4. Türkçe tarama PDF sayfası (1 tane)
  5. Karışık sahne fotoğraf (1 tane)

Her birine aynı prompt + 3 modele gönder (Claude + GPT-4o + Gemini). Qwen test etmek istiyorsan together.ai veya Hugging Face Spaces.

Yargılama kriteri: - Doğruluk (ne kadar doğru cevap?) - Türkçe kalite (doğal dil mi, çeviri gibi mi?) - Yapılandırma (JSON düzgün mü, format tutarlı mı?) - Latency (kaç saniye cevap?) - Maliyet (token × fiyat)

5 test × 3 model = 15 run, her biri ~1 dakika. 1 saat deney — kendi gözlemiyle karar.

Model × maliyet — 1K istek/ay

Model Girdi (1.5K token/istek) Çıktı (500 token/istek) Toplam 1K istek
Claude Sonnet 4.6 $4.50 $7.50 $12/ay
Claude Opus 4.7 $7.50 $12.50 $20/ay
GPT-5.5 $1.88 $2.50 $4.38/ay
Gemini 2.5 Pro $1.88 $5.00 $6.88/ay
Qwen3-VL self-host 0 (sadece GPU) 0 $50-100/ay GPU sabit gider

Okuma:

  • <500 req/ay: Gemini en ucuz
  • 500-3000 req/ay: Gemini veya GPT-4o
  • 3000-10K req/ay: GPT-4o veya Claude (kalite/fiyat)
  • 10K+ req/ay: Qwen2-VL self-host flat maliyet
  • Kalite kritik: Claude 4.5 + prompt caching %90 indirim → $1.20/ay

Prompt caching kritik: System prompt sabit tut + cache_control. 10× ucuz effective maliyet.

Computer use + vision — Claude'un özel yeri

Claude Sonnet 4.6 computer use (Ekim 2024) ile ekran görür + fare/klavye simüle eder. Diğer 3 model bunu yapmaz (2026 Nisan).

Kullanım: - Web otomasyon (Selenium alternatif) - UI testing (görsel regression) - Admin paneli form doldurma - Legacy uygulama data entry

Örnek:

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    tools=[{
        "type": "computer_20250124",
        "name": "computer",
        "display_width_px": 1920,
        "display_height_px": 1080,
    }],
    messages=[{"role": "user", "content": "Bu tarayıcıda giriş yap: user=admin, password=123"}],
)
# Claude "click 500,300" / "type 'admin'" gibi aksiyonlar döner

Beta: 2026 Nisan itibarıyla beta; production dikkatli. 2027'de stable bekliyorum.

Stratejik not: Agent + vision + keyboard/mouse birleşimi Claude'da şu an tek. Rakipler 1-2 yılda ekleyecek.

Vision model ekosistemi — hızlı takip

Kategori Önemli model Not
Kapalı commercial Claude Sonnet 4.6, GPT-4o, Gemini 2.5 API odaklı
Açık ağırlık (büyük) Qwen2-VL 72B, Pixtral (Mistral) Self-host pahalı
Açık ağırlık (orta) Qwen2-VL 7B, LLaVA 1.6, MiniCPM-V RTX 4090 çalışır
Açık ağırlık (küçük) Gemma 3 Vision, Phi-3.5 Vision Mobile uyumlu
Özel domain LLaVA-Med (tıp), VisionLLM (robotik) Niş, araştırma

Trend: Açık ağırlık VLM'ler kapalı olanlara 3-6 ay gecikmeli ama hızla yaklaşıyor. 2027'de açık kaynak %90 kalite seviyesi bekleniyor.

📖 Anthropic bu konuyu nasıl anlatıyor — öz

Anthropic Model Overview + Claude Sonnet 4.6 System Card + Vision dokümanı vision-language konumlandırmasını 4 madde altında çerçeveliyor:

1. Vision "ayrı model" değil, Sonnet/Opus'un yerleşik kapasitesi. GPT-4V veya eski Gemini Vision gibi ayrı bir "vision modeli" yok — Claude Sonnet 4.6 ve Opus 4.7 metin + görseli aynı çağrıda alır. Tek model + tek API + tek fiyat. Bu Claude vision'ı entegrasyon kolaylığı açısından öne çıkarır.

2. Belge + tablo + grafik Claude'un güçlü yanı. DocVQA (~%94), ChartQA (~%88) gibi belge ağırlıklı kıyaslamalarda Claude rakiplerine eşit veya üstündedir. Anthropic system card'ı bunu kurumsal kullanım için işaret eder — fatura, sözleşme, rapor analizi senaryoları hedef.

3. Computer Use — vision + ajan birleşimi. Claude 4 ailesinden beri "Computer Use" beta'sı var (2025'te güncellenen computer_20250124+ araç tipi): ekran görüntüsü → Claude kararı → fare/klavye komutu → tekrar ekran görüntüsü. Vision burada ajanın gözü — sadece içerik anlama değil, GUI etkileşimi için zorunlu girdi. Rakipler 2026'da benzer denemeler yapıyor (OpenAI Operator önizleme, Google'ın Project Mariner) ama Claude'un olgunluğu hâlâ önde.

4. Açık kaynak alternatifleri ciddi ama niş. Qwen3-VL ve LLaVA-Med gibi açık ağırlıklı vision modelleri Claude'a yaklaşıyor; Anthropic bu gerçeği cookbook'un third_party/ klasöründe zımnen kabul ediyor. Anthropic'in pozisyonu: "Claude'u seç çünkü akıl yürütme + vision + araç çağırma tek pakette; açık kaynağı seç çünkü ucuz ve özelleştirilebilir" — iki ayrı eniyileme (optimization) problemi.

Kaynak: platform.claude.com — Models Overview (EN, ~10 dk) + Claude Sonnet 4.5 System Card (PDF, EN, ~40 sayfa, vision benchmark sayısal veriler).

9.6 İMZA için hazırlık

Bu sayfa Bölüm 7'nin kavramsal imzası. Pratik imza 9.6 Multimodal Proje (31. tur). Oraya giriş olarak sen kendi seçimini yap:

9.6 proje fikri — senin seçimin:

  • Türkçe YouTube podcast → 5 dk özet SaaS
  • E-ticaret ürün fotoğrafı → otomatik kart üretim tool
  • Meeting kaydı → aksiyon üretici Slack bot
  • Sözleşme tarama → risk skorlama sistemi
  • Grafik PDF'ten veri → CSV dönüşüm aracı

5 alternatiften 1'ini seç — 9.6 kapsamın olacak. Bu sayfa sana model seçim verdi; sen projeyi seç.

CTO tuzakları — 8 model seçim hatası

# Tuzak Sonuç Doğru
1 "En iyi model" peşinde Her değişimde kod güncelle Kullanım alanı kararlı seç
2 Tek benchmark göre karar Diğer boyutlarda zayıf 5 benchmark karşılaştır
3 Türkçe test atlama Canlıda sürpriz Türkçe test seti zorunlu
4 Fiyat atlama 1000 req/gün $1000 fatura Önceden maliyet tahmin
5 On-prem gerekli ama cloud tercih KVKK cezası On-prem hard constraint görünür
6 Single vendor lock-in Model kötü çıkarsa tamami değişir Adapter pattern (Bölüm 9.2)
7 Prompt caching unutma 10× maliyet fazla Cache_control standart
8 Yeni model çıkınca hemen atla Regression test olmadan A/B test öncesi geçiş

Çıktı kanıtları — 3 kanıt

📏 Çıktı — 3 kanıt

1. Kendi 5×3 benchmark testin:

5 görsel × 3 model (Claude + GPT-4o + Gemini) = 15 deneme. muhendisal-notlarim/bolum-7/04-karsilastirma/sonuclar.md — her biri için doğruluk + Türkçe kalite + latency + maliyet notu.

2. 9.6 proje seçimin:

5 aday projeden 1 tanesini seç. Gerekçe: neden bu, hangi model birincil, nasıl test edersin. muhendisal-notlarim/bolum-7/04-karsilastirma/9-6-proje.md

3. Model seçim refleks tablosu:

Kendi kullanım alanların (mevcut ve gelecek projelerin) için "hangi model" karar tablosu. Mülakata taşıyabileceğin referans.

Görev — 60 dk kendi kıyasın

🎯 Görev — model seçim refleksi
  1. 5 test görseli hazırla (Türkçe ürün, matematik, grafik, PDF scan, sahne).
  2. Anahtarı olmayan modele geç: Anthropic + OpenAI + Google AI Studio (free tier) + Qwen test (HuggingFace Space).
  3. Aynı promptla 3 model test + Qwen + Claude karşılaştırma.
  4. 5 × 3 matrix doldur: doğruluk + Türkçe + latency + maliyet.
  5. "Benim default vendor: X, Y için Z" kararı yaz.
  6. 9.6 proje fikri seç + 3 cümle neden.

Başarı kriteri: 60 dk sonunda kendi model seçim refleksin var. 9.6 pratik imzanın temeli.

🔗 Birlikte okuma — neden ne oldu
  1. **A → B:** 4 ana VLM 2026 Nisan: Claude Sonnet 4.6, GPT-4o, Gemini 2.5 Pro, Qwen2-VL. Bu yüzden **seçenekleri bilmek karar verdirir.**
  2. **B → C:** 5 benchmark karşılaştırma: MMMU, DocVQA, MathVista, ChartQA, Türkçe — her modelin güçlü tarafı farklı. Bu yüzden **tek benchmark yetmez.**
  3. **C → D:** Claude genel + Türkçe + belge önde; GPT-4o matematik; Gemini grafik + uzun context; Qwen açık kaynak + on-prem. Bu yüzden **senaryo modeli belirler.**
  4. **D → E:** Kullanım × model matrisi: 10 senaryo, her biri için tercih + alternatif. Bu yüzden **matris hızlı karar için araç.**
  5. **E → F:** 5 test senaryosu detay — Türkçe ürün (Claude) + matematik (GPT) + grafik (Gemini) + hukuki belge (Claude) + on-prem sağlık (Qwen). Bu yüzden **gerçek senaryo soyutu kapatır.**
  6. **F → G:** Maliyet 1K istek/ay: Gemini $7 < GPT-4o $9 < Claude $12 < Qwen self-host $50+ flat. Bu yüzden **maliyet karar faktörü.**
  7. **G → H:** Computer use Claude'un özel yeri; 2026'da tek; rakipler 1-2 yılda. Bu yüzden **computer use için Claude seç.**
  8. **H → I:** Açık ağırlık VLM ekosistemi büyüme — Qwen / LLaVA / MiniCPM-V. Bu yüzden **on-prem ihtiyaçta seçenek var.**
  9. **I → J:** 9.6 imza için 5 proje aday; öğrenci birini seçer. Bu yüzden **bu bilgi portföye dönüşür.**

Sonuç: Bölüm 7 kavramsal imza kapandı. Model seçim refleksi + 4 vendor karşılaştırma + kullanım alanına göre karar matrisi. Bölüm 7 → 5/5 TAM. Sonraki (9.6): multimodal pratik imza — senin seçtiğin projeyi canlıya çıkar.

➡️ Sonraki adım

Bölüm 7 KAPANDI. Sonraki sayfalar:

7.3 Video İşleme  |  Bölüm 7 girişi  |  Ana sayfa

Pekiştirme: MMMU leaderboard + Hugging Face Open VLM Leaderboard + Artificial Analysis vision comparison. Üçü 1 saatte; güncel model durum takibi haftalık yapılabilir.

MühendisAl Platform — Sözlük (Glossary)

Bu dosya pre_build.py hook'u tarafından her sayfaya otomatik eklenir.

Markdown abbr extension bu tanımları alıp terimin her geçtiği yerde

HTML <abbr title="..."> sarımı yapar → MkDocs Material tooltip gösterir.

DİKKAT: abbr case-sensitive. "Agent" tanımı "agent" kelimesini sarmaz.

Bu yüzden hem büyük hem küçük harf varyantları ayrı tanımlanır.

Yeni terim eklerken: *[TERIM]: Açıklama — tek satır, 160 karakterden kısa

Terimler alfabetik (büyük harf), hemen altında küçük harf varyantı.