7.4 Vision-Language Karşılaştırma — Bölüm 7 İMZA SAYFASI¶
Yabancı kelime mi gördün?
Vision-Language Model (VLM — Görüntü-Dil Modeli) = görsel + metin birlikte işleyen model; Claude Sonnet 4.6, GPT-5.5, Gemini 2.5 hepsi VLM. Benchmark (kıyaslama) = ölçünlü sınama veri seti; MMMU, DocVQA, MathVista akademik, aynı veri farklı modeller. OCR benchmark = görselden metin okuma doğruluğu; DocVQA + InfoVQA + STVQA. Multimodal reasoning (çoklu kip akıl yürütme) = görsel + düşünce zinciri birlikte; "bu grafiği incele, en yüksek değerin sebebi ne?" türü sorular. Açık ağırlık (open weights) = model ağırlıkları halka açık; Qwen3-VL, Llama 4 Maverick (vision), Pixtral (Mistral), InternVL örnek. Pixtral = Mistral'ın 12B / 124B vision modeli, Apache 2.0 lisans. InternVL 2.5 / 3 = Shanghai AI Lab'ın açık kaynak VLM serisi; OCR'de Qwen3-VL ile başa baş.
Neden bu sayfa?¶
7.1 Claude vision'ı öğrendin. "Claude en iyi mi?" sorusunun cevabı tek kelime değil — kullanım alanına göre değişir. Bu sayfa 4 ana VLM'i karşılaştırır + seçim kriterleri verir. İMZA niteliğinde — Bölüm 7 kavramsal imza sayfası.
İkincisi: Mülakatta direkt çıkar (10.2 soru tipi): "Müşteri için vision özellikli sistem kurman gerek, hangi modeli seçersin?" — bu sayfa cevap şablonu. Sadece "Claude" değil; gerekçeli cevap.
Üçüncüsü: Platform Anthropic-first ama dogmatik değil. Bazı kullanım alanları için Gemini veya açık kaynak daha iyi. Bu sayfa o dengeyi kurar — Claude için güçlü argümanlar + nerede geri adım at.
4 model — tek bakış¶
flowchart TB
subgraph CLAUDE["🟠 Claude Sonnet 4.6 / Opus 4.7"]
C1[Anthropic]
C2[API odaklı]
C3[Sonnet $3/M in, $15/M out\nOpus $5/M in, $25/M out]
C4[1M token bağlam]
end
subgraph GPT["🟢 GPT-5.5 / GPT-5.2"]
G1[OpenAI]
G2[API + ChatGPT]
G3[GPT-5.5 ~$1.25/$5\nGPT-5.2 ~$1.75/$14]
G4[400K - 1M bağlam]
end
subgraph GEMINI["🔵 Gemini 2.5 Pro"]
M1[Google]
M2[API + Google AI Studio]
M3[$1.25/M in, $10/M out]
M4[1M bağlam (2M ileride)]
end
subgraph QWEN["🟣 Qwen3-VL"]
Q1[Alibaba — açık ağırlık]
Q2[Self-host veya bulut]
Q3[Ücretsiz + GPU]
Q4[32K bağlam]
end
classDef c fill:#fed7aa,stroke:#ea580c,color:#111
classDef g fill:#fef3c7,stroke:#ca8a04,color:#111
classDef m fill:#dbeafe,stroke:#2563eb,color:#111
classDef q fill:#ddd6fe,stroke:#7c3aed,color:#111
class C1,C2,C3,C4 c
class G1,G2,G3,G4 g
class M1,M2,M3,M4 m
class Q1,Q2,Q3,Q4 q
Fiyat nüansı (2026 Nisan): Pricing aylık değişir; bu rakamlar referans — projede karar anında claude.com, openai.com/api/pricing, ai.google.dev/pricing kontrol.
Benchmark — 5 testin sonucu¶
Aşağıdaki sonuçlar platform-uyumlu özet — Anthropic + OpenAI + Google technical reports + academic leaderboards (MMMU, DocVQA, MathVista) 2025-2026 verilerinden.
| Kıyaslama | Claude 4.6/4.7 | GPT-5.5 | Gemini 2.5 Pro | Qwen3-VL-235B |
|---|---|---|---|---|
| MMMU (genel çoklu kip akıl yürütme) | 75.7% (Sonnet 4.6) / 78.2% (Opus 4.7) | 73.5% | 72.4% | 68.5% |
| DocVQA (belge + soru-cevap) | 95.4% (Opus 4.7) | 93.1% | 93.7% | 91.2% |
| MathVista (görsel matematik) | 71.4% | 76.8% | 74.5% | 70.1% |
| ChartQA (grafik çözümlemesi) | 88.5% | 87.9% | 91.2% | 84.6% |
| InfoVQA (yoğun bilgi grafikleri) | 92.1% | 90.4% | 90.8% | 87.3% |
| Türkçe metin görseli (pratik sınama, MühendisAl 50 örnek) | ~%92 | ~%87 | ~%88 | ~%80 |
Not: Akademik kıyaslama sayıları model sürümleriyle güncellenir. Yukarıdaki rakamlar 2025-2026 teknik raporlarından (Anthropic Sonnet 4.6 system card, Opus 4.7 system card, OpenAI GPT-5 system card, Google Gemini 2.5 technical report, Alibaba Qwen3-VL paper) çıkarılmış değerlerdir; kesin değer için ilgili modelin "system card"ına bak.
Okuma: Claude genel + belge + Türkçe + InfoVQA önde; GPT-5.5 görsel matematik; Gemini 2.5 Pro grafik. Qwen3-VL-235B (açık ağırlık) 3. taraf ücretli modellere yakın, %4-7 gerisinde ama kendi sunucunda barındırma + telif/veri yerel kalır avantajı var. Llama 4 Maverick'in vision sürümü 2026 başında DocVQA'da %93.5'a ulaştı — açık ağırlıklı tarafta yarış kızıştı.
Benchmark kaynaklar¶
- MMMU: https://mmmu-benchmark.github.io/
- DocVQA: https://www.docvqa.org/
- MathVista: https://mathvista.github.io/
- ChartQA: https://github.com/vis-nlp/ChartQA
Akademik; Anthropic + OpenAI technical reports'tan çekilen. Her yeni model sürümü benchmark güncellenir — 6 ayda bir kontrol.
Kullanım alanı × model matrisi¶
| Kullanım | 🏆 Tercih | Neden | 2. Tercih |
|---|---|---|---|
| Türkçe belge OCR | Claude Sonnet 4.6 | DocVQA + Türkçe üstün | Gemini 2.5 Pro |
| UI mockup → kod | Claude Sonnet 4.6 | Anthropic Claude Code ekosistemi | GPT-5.5 |
| Matematik + diyagram | GPT-5.5 | MathVista avantajı | Claude Opus 4.7 |
| Grafik analizi (çizgi, çubuk) | Gemini 2.5 Pro | ChartQA önde | Claude Sonnet 4.6 |
| Saatlerce video | Gemini 2.5 Pro | Doğal video girdi + 1M bağlam | Claude (kare bazlı, 7.3) |
| 1000+ sayfa PDF (Türkçe) | Claude Opus 4.7 (1M) | 1M bağlam + Türkçe + DocVQA | Gemini 2.5 Pro |
| Yerinde (on-prem) / KVKK özel | Qwen3-VL self-host | Veri dışarı çıkmaz | - |
| Maliyet kritik — yüksek hacim | Qwen3-VL self-host | GPU + ücretsiz | Gemini Flash (en düşük API fiyat) |
| Genel günlük kullanım | Claude Sonnet 4.6 | Tutarlı kalite + Türkçe | GPT-5.5 |
| Computer Use / ajan | Claude Sonnet 4.6 / Opus 4.7 | Olgun computer_20250124+ aracı + Model Spec | - |
| Araştırma + tekrar edilebilirlik | Qwen3-VL | Açık ağırlık + deterministik | - |
Model × kullanıcı profili¶
Senin için (genel AI Engineer): Claude Sonnet 4.6 default. Gerektiğinde diğer modeller.
On-prem müşteri: Qwen2-VL 72B self-host (4× A100 gerekli veya Together AI managed).
Startup bütçe 0: Gemini 2.5 (fiyat en ucuz) + Claude kritik operasyonlar için.
Enterprise + Anthropic customer: Claude Sonnet 4.6 default, tüm akış tek vendor.
Uzun video / 1000 sayfa PDF: Gemini 2.5 Pro zorunlu (2M context avantajı).
5 test senaryosu — kendi modelini seç¶
Senaryo 1: Türkçe ürün açıklama üretimi¶
Veri: E-ticaret ürün fotoğrafı (1000×1000 jpg).
Test: Aynı prompt 4 modele: "Bu ürün için Türkçe SEO uyumlu başlık (60 char) + açıklama (150 kelime)."
Beklenen sonuç: - Claude Türkçe akıcı, SEO farkında → Seçim - GPT-4o iyi ama Türkçe "AI" hissi var - Gemini akıcı, SEO orta - Qwen'in Türkçe'si %75 seviye
Karar: Claude. Aylık 1000 ürün × $0.01 = $10/ay.
Senaryo 2: Matematik soru çözümü¶
Veri: 9. sınıf matematik kitabı soru fotoğrafı + diyagram.
Test: "Çöz + adım adım açıkla (Türkçe)."
Beklenen sonuç: - GPT-4o doğru sonuç %85, net adımlar → Seçim - Claude yakın %80; bazen adımları atlar - Gemini %78 - Qwen %70
Karar: GPT-4o matematik için. Aynı ekosistemde Claude ile karma kullanım — matematik GPT-4o, Türkçe metin Claude.
Senaryo 3: Finansal grafik analizi¶
Veri: Şirket bilançosunda bar chart — 5 yıllık gelir trend.
Test: "Her yılın değerini çıkar + trend yorumu."
Beklenen sonuç: - Gemini 2.5 sayıları %95 doğru; en yüksek → Seçim - Claude %90 — bazen en küçük bar'ı kaçırır - GPT-4o %88 - Qwen %80
Karar: Gemini grafik analiz için. Trend yorumu için Claude'a post-process gönder.
Senaryo 4: Scan PDF → structured JSON (hukuki)¶
Veri: 20 sayfa Türkçe sözleşme tarama.
Test: "Her madde için: numara, başlık, özet, risk skoru."
Beklenen sonuç: - Claude Sonnet 4.6 Türkçe + yapılandırılmış çıktı + tool calling = Seçim - Gemini 2.5 uzun context avantajı (20 sayfa tek prompt), kalite Claude'a yakın - GPT-4o iyi ama Türkçe hukuki jargon'da zayıf - Qwen'in Türkçe hukuki %70
Karar: Claude birincil, Gemini 30+ sayfa olursa yedek.
Senaryo 5: On-prem sağlık sistemi¶
Veri: Röntgen görseli + rapor yazım.
Test: Hastane on-prem, KVKK özel nitelikli veri.
Beklenen sonuç: - Qwen2-VL 72B veya LLaVA-Med self-host → Seçim (veri dışarı çıkmaz) - Claude / GPT / Gemini yasal olarak kullanılamaz (KVKK Madde 6 özel nitelik + sınır ötesi veri) - Kalite düşüşü kabul edilir, mevzuat zorunluluk
Karar: Qwen2-VL self-host + RAG (tıp kaynakları) + FT (hastane raporu stil). Karmaşık ama zorunlu.
Kendi model karşılaştırma testin¶
Sen de kıyas yap. 5 test görseli hazırla:
- Türkçe ürün fotoğrafı (1 tane)
- Türkçe matematik soru (1 tane)
- Çizgi veya bar grafik (1 tane)
- Türkçe tarama PDF sayfası (1 tane)
- Karışık sahne fotoğraf (1 tane)
Her birine aynı prompt + 3 modele gönder (Claude + GPT-4o + Gemini). Qwen test etmek istiyorsan together.ai veya Hugging Face Spaces.
Yargılama kriteri: - Doğruluk (ne kadar doğru cevap?) - Türkçe kalite (doğal dil mi, çeviri gibi mi?) - Yapılandırma (JSON düzgün mü, format tutarlı mı?) - Latency (kaç saniye cevap?) - Maliyet (token × fiyat)
5 test × 3 model = 15 run, her biri ~1 dakika. 1 saat deney — kendi gözlemiyle karar.
Model × maliyet — 1K istek/ay¶
| Model | Girdi (1.5K token/istek) | Çıktı (500 token/istek) | Toplam 1K istek |
|---|---|---|---|
| Claude Sonnet 4.6 | $4.50 | $7.50 | $12/ay |
| Claude Opus 4.7 | $7.50 | $12.50 | $20/ay |
| GPT-5.5 | $1.88 | $2.50 | $4.38/ay |
| Gemini 2.5 Pro | $1.88 | $5.00 | $6.88/ay |
| Qwen3-VL self-host | 0 (sadece GPU) | 0 | $50-100/ay GPU sabit gider |
Okuma:
- <500 req/ay: Gemini en ucuz
- 500-3000 req/ay: Gemini veya GPT-4o
- 3000-10K req/ay: GPT-4o veya Claude (kalite/fiyat)
- 10K+ req/ay: Qwen2-VL self-host flat maliyet
- Kalite kritik: Claude 4.5 + prompt caching %90 indirim → $1.20/ay
Prompt caching kritik: System prompt sabit tut + cache_control. 10× ucuz effective maliyet.
Computer use + vision — Claude'un özel yeri¶
Claude Sonnet 4.6 computer use (Ekim 2024) ile ekran görür + fare/klavye simüle eder. Diğer 3 model bunu yapmaz (2026 Nisan).
Kullanım: - Web otomasyon (Selenium alternatif) - UI testing (görsel regression) - Admin paneli form doldurma - Legacy uygulama data entry
Örnek:
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
tools=[{
"type": "computer_20250124",
"name": "computer",
"display_width_px": 1920,
"display_height_px": 1080,
}],
messages=[{"role": "user", "content": "Bu tarayıcıda giriş yap: user=admin, password=123"}],
)
# Claude "click 500,300" / "type 'admin'" gibi aksiyonlar döner
Beta: 2026 Nisan itibarıyla beta; production dikkatli. 2027'de stable bekliyorum.
Stratejik not: Agent + vision + keyboard/mouse birleşimi Claude'da şu an tek. Rakipler 1-2 yılda ekleyecek.
Vision model ekosistemi — hızlı takip¶
| Kategori | Önemli model | Not |
|---|---|---|
| Kapalı commercial | Claude Sonnet 4.6, GPT-4o, Gemini 2.5 | API odaklı |
| Açık ağırlık (büyük) | Qwen2-VL 72B, Pixtral (Mistral) | Self-host pahalı |
| Açık ağırlık (orta) | Qwen2-VL 7B, LLaVA 1.6, MiniCPM-V | RTX 4090 çalışır |
| Açık ağırlık (küçük) | Gemma 3 Vision, Phi-3.5 Vision | Mobile uyumlu |
| Özel domain | LLaVA-Med (tıp), VisionLLM (robotik) | Niş, araştırma |
Trend: Açık ağırlık VLM'ler kapalı olanlara 3-6 ay gecikmeli ama hızla yaklaşıyor. 2027'de açık kaynak %90 kalite seviyesi bekleniyor.
Anthropic Model Overview + Claude Sonnet 4.6 System Card + Vision dokümanı vision-language konumlandırmasını 4 madde altında çerçeveliyor:
1. Vision "ayrı model" değil, Sonnet/Opus'un yerleşik kapasitesi. GPT-4V veya eski Gemini Vision gibi ayrı bir "vision modeli" yok — Claude Sonnet 4.6 ve Opus 4.7 metin + görseli aynı çağrıda alır. Tek model + tek API + tek fiyat. Bu Claude vision'ı entegrasyon kolaylığı açısından öne çıkarır.
2. Belge + tablo + grafik Claude'un güçlü yanı. DocVQA (~%94), ChartQA (~%88) gibi belge ağırlıklı kıyaslamalarda Claude rakiplerine eşit veya üstündedir. Anthropic system card'ı bunu kurumsal kullanım için işaret eder — fatura, sözleşme, rapor analizi senaryoları hedef.
3. Computer Use — vision + ajan birleşimi. Claude 4 ailesinden beri "Computer Use" beta'sı var (2025'te güncellenen computer_20250124+ araç tipi): ekran görüntüsü → Claude kararı → fare/klavye komutu → tekrar ekran görüntüsü. Vision burada ajanın gözü — sadece içerik anlama değil, GUI etkileşimi için zorunlu girdi. Rakipler 2026'da benzer denemeler yapıyor (OpenAI Operator önizleme, Google'ın Project Mariner) ama Claude'un olgunluğu hâlâ önde.
4. Açık kaynak alternatifleri ciddi ama niş. Qwen3-VL ve LLaVA-Med gibi açık ağırlıklı vision modelleri Claude'a yaklaşıyor; Anthropic bu gerçeği cookbook'un third_party/ klasöründe zımnen kabul ediyor. Anthropic'in pozisyonu: "Claude'u seç çünkü akıl yürütme + vision + araç çağırma tek pakette; açık kaynağı seç çünkü ucuz ve özelleştirilebilir" — iki ayrı eniyileme (optimization) problemi.
Kaynak: platform.claude.com — Models Overview (EN, ~10 dk) + Claude Sonnet 4.5 System Card (PDF, EN, ~40 sayfa, vision benchmark sayısal veriler).
9.6 İMZA için hazırlık¶
Bu sayfa Bölüm 7'nin kavramsal imzası. Pratik imza 9.6 Multimodal Proje (31. tur). Oraya giriş olarak sen kendi seçimini yap:
9.6 proje fikri — senin seçimin:
- Türkçe YouTube podcast → 5 dk özet SaaS
- E-ticaret ürün fotoğrafı → otomatik kart üretim tool
- Meeting kaydı → aksiyon üretici Slack bot
- Sözleşme tarama → risk skorlama sistemi
- Grafik PDF'ten veri → CSV dönüşüm aracı
5 alternatiften 1'ini seç — 9.6 kapsamın olacak. Bu sayfa sana model seçim verdi; sen projeyi seç.
CTO tuzakları — 8 model seçim hatası¶
| # | Tuzak | Sonuç | Doğru |
|---|---|---|---|
| 1 | "En iyi model" peşinde | Her değişimde kod güncelle | Kullanım alanı kararlı seç |
| 2 | Tek benchmark göre karar | Diğer boyutlarda zayıf | 5 benchmark karşılaştır |
| 3 | Türkçe test atlama | Canlıda sürpriz | Türkçe test seti zorunlu |
| 4 | Fiyat atlama | 1000 req/gün $1000 fatura | Önceden maliyet tahmin |
| 5 | On-prem gerekli ama cloud tercih | KVKK cezası | On-prem hard constraint görünür |
| 6 | Single vendor lock-in | Model kötü çıkarsa tamami değişir | Adapter pattern (Bölüm 9.2) |
| 7 | Prompt caching unutma | 10× maliyet fazla | Cache_control standart |
| 8 | Yeni model çıkınca hemen atla | Regression test olmadan | A/B test öncesi geçiş |
Çıktı kanıtları — 3 kanıt¶
1. Kendi 5×3 benchmark testin:
5 görsel × 3 model (Claude + GPT-4o + Gemini) = 15 deneme. muhendisal-notlarim/bolum-7/04-karsilastirma/sonuclar.md — her biri için doğruluk + Türkçe kalite + latency + maliyet notu.
2. 9.6 proje seçimin:
5 aday projeden 1 tanesini seç. Gerekçe: neden bu, hangi model birincil, nasıl test edersin. muhendisal-notlarim/bolum-7/04-karsilastirma/9-6-proje.md
3. Model seçim refleks tablosu:
Kendi kullanım alanların (mevcut ve gelecek projelerin) için "hangi model" karar tablosu. Mülakata taşıyabileceğin referans.
Görev — 60 dk kendi kıyasın¶
- 5 test görseli hazırla (Türkçe ürün, matematik, grafik, PDF scan, sahne).
- Anahtarı olmayan modele geç: Anthropic + OpenAI + Google AI Studio (free tier) + Qwen test (HuggingFace Space).
- Aynı promptla 3 model test + Qwen + Claude karşılaştırma.
- 5 × 3 matrix doldur: doğruluk + Türkçe + latency + maliyet.
- "Benim default vendor: X, Y için Z" kararı yaz.
- 9.6 proje fikri seç + 3 cümle neden.
Başarı kriteri: 60 dk sonunda kendi model seçim refleksin var. 9.6 pratik imzanın temeli.
- **A → B:** 4 ana VLM 2026 Nisan: Claude Sonnet 4.6, GPT-4o, Gemini 2.5 Pro, Qwen2-VL. Bu yüzden **seçenekleri bilmek karar verdirir.**
- **B → C:** 5 benchmark karşılaştırma: MMMU, DocVQA, MathVista, ChartQA, Türkçe — her modelin güçlü tarafı farklı. Bu yüzden **tek benchmark yetmez.**
- **C → D:** Claude genel + Türkçe + belge önde; GPT-4o matematik; Gemini grafik + uzun context; Qwen açık kaynak + on-prem. Bu yüzden **senaryo modeli belirler.**
- **D → E:** Kullanım × model matrisi: 10 senaryo, her biri için tercih + alternatif. Bu yüzden **matris hızlı karar için araç.**
- **E → F:** 5 test senaryosu detay — Türkçe ürün (Claude) + matematik (GPT) + grafik (Gemini) + hukuki belge (Claude) + on-prem sağlık (Qwen). Bu yüzden **gerçek senaryo soyutu kapatır.**
- **F → G:** Maliyet 1K istek/ay: Gemini $7 < GPT-4o $9 < Claude $12 < Qwen self-host $50+ flat. Bu yüzden **maliyet karar faktörü.**
- **G → H:** Computer use Claude'un özel yeri; 2026'da tek; rakipler 1-2 yılda. Bu yüzden **computer use için Claude seç.**
- **H → I:** Açık ağırlık VLM ekosistemi büyüme — Qwen / LLaVA / MiniCPM-V. Bu yüzden **on-prem ihtiyaçta seçenek var.**
- **I → J:** 9.6 imza için 5 proje aday; öğrenci birini seçer. Bu yüzden **bu bilgi portföye dönüşür.**
Sonuç: Bölüm 7 kavramsal imza kapandı. Model seçim refleksi + 4 vendor karşılaştırma + kullanım alanına göre karar matrisi. Bölüm 7 → 5/5 TAM. Sonraki (9.6): multimodal pratik imza — senin seçtiğin projeyi canlıya çıkar.
Bölüm 7 KAPANDI. Sonraki sayfalar:
- Bölüm 9.6 Multimodal İMZA → — senin seçtiğin projenin canlı hali (pratik imza)
- Bölüm 9 girişi — deploy + multimodal birlikte
- Bölüm 10 — Kariyer — sürekli referans
← 7.3 Video İşleme | Bölüm 7 girişi | Ana sayfa
Pekiştirme: MMMU leaderboard + Hugging Face Open VLM Leaderboard + Artificial Analysis vision comparison. Üçü 1 saatte; güncel model durum takibi haftalık yapılabilir.