Bölüm 7 — Multimodal¶
Neden bu bölüm?¶
Multimodal 2025-2026'da yerleşti. Claude artık sadece metin okumuyor — PDF'teki grafikleri yorumluyor (PDF native input desteği 2025'te eklendi: Messages API'sinde 32 MB / 100 sayfa, Files API'sinde 500 MB), fotoğrafları anlatıyor, diyagram çiziminden kod üretiyor. Projen "e-ticaret ürün resmi otomatik başlık" veya "öğrenci tahta fotoğrafından ders özeti" gibi somut yerlerde bu kabiliyeti kullanacak.
Niye 4 sayfa, daha az? Çünkü multimodal API seviyesinde kolaydır — image ya da document bloğunu JSON'a eklersin biter. Derinlik modelin sınırlarını anlamakta: ne görür, ne kaçırır, hangi çözünürlükte iyi çalışır, ses için hangi servise yönelmeli.
Üçüncüsü: Ses tarafında Anthropic doğrudan dinlemiyor; üçüncü parti çözüm gerek. Claude (2026 Nisan itibarıyla) ses input'u kabul etmiyor — STT (Whisper, Deepgram) ile yazıya dök, sonra Claude'a ver. Bu bölüm o akışı kurar.
Bölüm 7 kısaca¶
7.1 — Görüntü Modelleri. Claude Sonnet 4.6 / Opus 4.7 / Haiku 4.5 görüntü desteği. JPG/PNG/GIF/WEBP biçimleri, 5 MB / görsel + en çok 20 görsel / istek, 8000 piksel uzun kenar üst sınır (içeride 1568 piksele yeniden boyutlanır; bu yeniden boyutlama 1.15 token / piksel maliyetini etkiler). Base64 veya URL referansı. PDF doğal girdi (32 MB / 100 sayfa Messages API; 500 MB / 1000 sayfa Files API). 2025'te eklenen Citations API — Claude görsel veya PDF içinden okuduğu kaynağı sayfa numarasıyla geri verebilir.
7.2 — Ses ve TTS/STT. Whisper Large v3 (açık kaynak, kendi sunucunda veya OpenAI API üzerinden — whisper-1 artık ucuzlatılmış nesil), Deepgram Nova-3 (yönetilen, Türkçe destekli, ~$0.0043/dakika), ElevenLabs Turbo v3 (TTS kalite zirvesi), Replicate XTTS-v2 veya Cartesia Sonic (düşük gecikmeli TTS, Türkçe), GPT-5.5 Realtime API (canlı sesli sohbet). Seçim matrisi.
7.3 — Video İşleme. "Video → kare (frame) dizisi → Claude çözümlemesi" örüntüsü. Ücretsiz kare çıkarma (ffmpeg). Videonun 5-10 anahtar karesi üstünde çalışmak. Alternatif: Gemini 2.5 Pro doğal video girdisi (1M bağlamla 60 dakikaya kadar video) kabul ediyor — Claude için ise kare tabanlı (frame-based) örüntü kalıcı. 2025'te eklenen Twelve Labs — video için özel temel model (anlamsal arama + sahne sınıflandırma).
7.4 — Görsel-Dil Modelleri (Vision-Language Models). Claude (Opus 4.7 + Sonnet 4.6) vs GPT-5.5 vision vs Gemini 2.5 Pro vs Qwen3-VL-235B vs Llama 4 Maverick (vision) karşılaştırma. OCR, diyagram okuma, sahne anlama kıyaslamaları (güncel kıyaslamalar: MMMU, ChartQA, DocVQA).
Bu bölümün yol haritası¶
flowchart LR
S["👤 Sen\n(Bölüm 6 bitti)"]
P71["📄 7.1\nClaude\nvision"]
P72["📄 7.2\nSes &\nTTS/STT"]
P73["📄 7.3\nVideo"]
P74["🏁 7.4\nModel\nkarşılaştırma"]
THIRD[("🎤 3. parti\nWhisper +\nDeepgram +\nElevenLabs")]
OUT{{"✅ Görsel\nanalizi +\nsesli asistan\nörneği"}}
S --> P71 --> P72 --> P73 --> P74 --> OUT
P72 -.kullanır.-> THIRD
classDef user fill:#ddd6fe,stroke:#7c3aed,color:#111
classDef page fill:#dbeafe,stroke:#2563eb,color:#111
classDef pilot fill:#fef3c7,stroke:#ca8a04,color:#111
classDef infra fill:#fed7aa,stroke:#ea580c,color:#111
classDef goal fill:#fef3c7,stroke:#ca8a04,color:#111
class S user
class P71,P72,P73 page
class P74 pilot
class THIRD infra
class OUT goal
Aktör tablosu¶
| Düğüm | Nerede | Ne iş yapıyor |
|---|---|---|
| 👤 Sen | Python + bir örnek görsel + bir ses dosyası | Vision çağrısı at, Whisper ile yazıya dök, Claude'a ver |
| 📄 7.1 Vision | Platform + Python | 3-4 görsel örnek: faturaya bak, diyagram oku, grafik yorumla |
| 📄 7.2 Ses | Platform + 3. parti API | Whisper ile STT, ElevenLabs ile TTS — karar matrisi |
| 📄 7.3 Video | Python + ffmpeg | 30 saniyelik video → 5 kare → Claude analiz |
| 🏁 7.4 Karşılaştırma | Platform (karar) | Claude vs GPT-5.5 vision vs Gemini 2.5 Pro — benchmark tablosu |
| 🎤 3. parti servisler | OpenAI API / Deepgram / ElevenLabs | Ses tarafı — Anthropic kapsamında değil |
| ✅ Çıktı | Repo 7-multimodal/ |
2 mini örnek: görsel analizi + sesli asistan |
Bu bölüm bittiğinde elinde ne olacak¶
- Claude görüntü refleksi: Bir görsel veya PDF geldiğinde Claude'a verip çözümletme, sınırlarını bilme; Citations API ile sayfa numarası alıntısı
- STT + Claude boru hattı: Ses dosyası → Whisper Large v3 → metin → Claude cevabı. Sesli asistan iskeleti elinde
- Video çözümleme örüntüsü: Kare çıkarma + Claude tek adımlı çözümleme; alternatif olarak Twelve Labs anlamsal arama
- Model karşılaştırması: Proje görüntü gerektirdiğinde Claude vs Gemini 2.5 vs GPT-5.5 vs Qwen3-VL seçimi gerekçeli yapılıyor
- Üçüncü taraf ses ekosistemi: Whisper Large v3 / Deepgram Nova-3 / ElevenLabs Turbo v3 / Cartesia Sonic seçim ölçütü (maliyet + Türkçe kalitesi + ilk-token gecikmesi)
- Düşük gecikmeli sesli ajan örüntüsü: Pipecat + LiveKit + Deepgram + Claude + ElevenLabs zinciri — son kullanıcıda 1-1.5 sn ilk yanıt
Multimodal'da Anthropic kısmi güçlü: vision'da iyi (Claude 4.x Sonnet), ses doğrudan yok. Dürüst pozisyon:
1. Vision — platform.claude.com/docs/en/build-with-claude/vision. Claude'un desteklediği formatlar, boyut limitleri, pratik en iyi uygulamalar. 7.1'deki kodlar bu sayfaya birebir uyar. JPG/PNG/GIF/WEBP, en çok 5 MB / görsel + max 20 görsel / istek, base64 veya URL. Türkçe metin içeren görsellerde OCR kalitesi belirgin (kıyaslamalar 7.4'te).
2. PDF native input — platform.claude.com/docs/en/build-with-claude/pdf-support. 2025'te Claude tüm 4.x modelleri için PDF desteği eklendi: Messages API'sinde dosya başına 32 MB / 100 sayfa, Files API'sinde 500 MB. Metin + grafik + tabloyu tek seferde işler.
3. Ses — Anthropic'in duruşu. Claude ses dinlemiyor (2026 itibarıyla). "Ses için Whisper + metin olarak Claude'a ver" Anthropic'in önerdiği desen. Bu bölümün 7.2 yaklaşımı resmi öneriyle birebir uyumlu.
4. Cookbook — vision örnekleri. claude-cookbooks/multimodal notebook'ları — fatura okuma, grafik yorumlama, sahne tanıma. 7.1'de işlediğimiz örneklerin kaynağı.
5. Video hakkında Anthropic'in şu andaki sınırı. Claude doğrudan video input almıyor. "Kare çıkarma (frame extraction) + çoklu görsel" tek yol. Google Gemini 2.5 Pro video native kabul ediyor; Claude ile yapacaksan bu bölümün 7.3 desenine ihtiyacın var.
Kaynak: platform.claude.com — Vision (İngilizce, ~10 dk). 7.1'den önce aç — görsel kabiliyetinin sınırları ve kalıpları buradan net oturur.
Bir sonraki adım → 7.1 Görüntü Modelleri (30 dk, Claude vision + ilk görsel analiz)