Bölüm 7 — Multimodal¶

👤 Kim için: Bölüm 6'da ajan ve MCP'yi oturttun; metin dünyasından çıkıp görüntü/ses dünyasına bakmak istiyorsun

⏱️ Süre: ~3 saat (4 sayfa)

📋 Önkoşul: Bölüm 2 (Claude API), bir örnek görsel ve bir ses dosyası

🎯 Çıktı: Claude vision ile görsel analiz yapan örnek + sesli transkripsiyon iskeleti

Neden bu bölüm?¶

Multimodal 2025-2026'da yerleşti. Claude artık sadece metin okumuyor — PDF'teki grafikleri yorumluyor (PDF native input desteği 2025'te eklendi: Messages API'sinde 32 MB / 100 sayfa, Files API'sinde 500 MB), fotoğrafları anlatıyor, diyagram çiziminden kod üretiyor. Projen "e-ticaret ürün resmi otomatik başlık" veya "öğrenci tahta fotoğrafından ders özeti" gibi somut yerlerde bu kabiliyeti kullanacak.

Niye 4 sayfa, daha az? Çünkü multimodal API seviyesinde kolaydır — image ya da document bloğunu JSON'a eklersin biter. Derinlik modelin sınırlarını anlamakta: ne görür, ne kaçırır, hangi çözünürlükte iyi çalışır, ses için hangi servise yönelmeli.

Üçüncüsü: Ses tarafında Anthropic doğrudan dinlemiyor; üçüncü parti çözüm gerek. Claude (2026 Nisan itibarıyla) ses input'u kabul etmiyor — STT (Whisper, Deepgram) ile yazıya dök, sonra Claude'a ver. Bu bölüm o akışı kurar.

Bölüm 7 kısaca¶

7.1 — Görüntü Modelleri. Claude Sonnet 4.6 / Opus 4.7 / Haiku 4.5 görüntü desteği. JPG/PNG/GIF/WEBP biçimleri, 5 MB / görsel + en çok 20 görsel / istek, 8000 piksel uzun kenar üst sınır (içeride 1568 piksele yeniden boyutlanır; bu yeniden boyutlama 1.15 token / piksel maliyetini etkiler). Base64 veya URL referansı. PDF doğal girdi (32 MB / 100 sayfa Messages API; 500 MB / 1000 sayfa Files API). 2025'te eklenen Citations API — Claude görsel veya PDF içinden okuduğu kaynağı sayfa numarasıyla geri verebilir.

7.2 — Ses ve TTS/STT. Whisper Large v3 (açık kaynak, kendi sunucunda veya OpenAI API üzerinden — whisper-1 artık ucuzlatılmış nesil), Deepgram Nova-3 (yönetilen, Türkçe destekli, ~$0.0043/dakika), ElevenLabs Turbo v3 (TTS kalite zirvesi), Replicate XTTS-v2 veya Cartesia Sonic (düşük gecikmeli TTS, Türkçe), GPT-5.5 Realtime API (canlı sesli sohbet). Seçim matrisi.

7.3 — Video İşleme. "Video → kare (frame) dizisi → Claude çözümlemesi" örüntüsü. Ücretsiz kare çıkarma (ffmpeg). Videonun 5-10 anahtar karesi üstünde çalışmak. Alternatif: Gemini 2.5 Pro doğal video girdisi (1M bağlamla 60 dakikaya kadar video) kabul ediyor — Claude için ise kare tabanlı (frame-based) örüntü kalıcı. 2025'te eklenen Twelve Labs — video için özel temel model (anlamsal arama + sahne sınıflandırma).

7.4 — Görsel-Dil Modelleri (Vision-Language Models). Claude (Opus 4.7 + Sonnet 4.6) vs GPT-5.5 vision vs Gemini 2.5 Pro vs Qwen3-VL-235B vs Llama 4 Maverick (vision) karşılaştırma. OCR, diyagram okuma, sahne anlama kıyaslamaları (güncel kıyaslamalar: MMMU, ChartQA, DocVQA).

Bu bölümün yol haritası¶

flowchart LR
  S["👤 Sen\n(Bölüm 6 bitti)"]
  P71["📄 7.1\nClaude\nvision"]
  P72["📄 7.2\nSes &\nTTS/STT"]
  P73["📄 7.3\nVideo"]
  P74["🏁 7.4\nModel\nkarşılaştırma"]
  THIRD[("🎤 3. parti\nWhisper +\nDeepgram +\nElevenLabs")]
  OUT{{"✅ Görsel\nanalizi +\nsesli asistan\nörneği"}}

  S --> P71 --> P72 --> P73 --> P74 --> OUT
  P72 -.kullanır.-> THIRD

  classDef user fill:#ddd6fe,stroke:#7c3aed,color:#111
  classDef page fill:#dbeafe,stroke:#2563eb,color:#111
  classDef pilot fill:#fef3c7,stroke:#ca8a04,color:#111
  classDef infra fill:#fed7aa,stroke:#ea580c,color:#111
  classDef goal fill:#fef3c7,stroke:#ca8a04,color:#111
  class S user
  class P71,P72,P73 page
  class P74 pilot
  class THIRD infra
  class OUT goal

Aktör tablosu¶

Düğüm	Nerede	Ne iş yapıyor
👤 Sen	Python + bir örnek görsel + bir ses dosyası	Vision çağrısı at, Whisper ile yazıya dök, Claude'a ver
📄 7.1 Vision	Platform + Python	3-4 görsel örnek: faturaya bak, diyagram oku, grafik yorumla
📄 7.2 Ses	Platform + 3. parti API	Whisper ile STT, ElevenLabs ile TTS — karar matrisi
📄 7.3 Video	Python + ffmpeg	30 saniyelik video → 5 kare → Claude analiz
🏁 7.4 Karşılaştırma	Platform (karar)	Claude vs GPT-5.5 vision vs Gemini 2.5 Pro — benchmark tablosu
🎤 3. parti servisler	OpenAI API / Deepgram / ElevenLabs	Ses tarafı — Anthropic kapsamında değil
✅ Çıktı	Repo `7-multimodal/`	2 mini örnek: görsel analizi + sesli asistan

Bu bölüm bittiğinde elinde ne olacak¶

Claude görüntü refleksi: Bir görsel veya PDF geldiğinde Claude'a verip çözümletme, sınırlarını bilme; Citations API ile sayfa numarası alıntısı
STT + Claude boru hattı: Ses dosyası → Whisper Large v3 → metin → Claude cevabı. Sesli asistan iskeleti elinde
Video çözümleme örüntüsü: Kare çıkarma + Claude tek adımlı çözümleme; alternatif olarak Twelve Labs anlamsal arama
Model karşılaştırması: Proje görüntü gerektirdiğinde Claude vs Gemini 2.5 vs GPT-5.5 vs Qwen3-VL seçimi gerekçeli yapılıyor
Üçüncü taraf ses ekosistemi: Whisper Large v3 / Deepgram Nova-3 / ElevenLabs Turbo v3 / Cartesia Sonic seçim ölçütü (maliyet + Türkçe kalitesi + ilk-token gecikmesi)
Düşük gecikmeli sesli ajan örüntüsü: Pipecat + LiveKit + Deepgram + Claude + ElevenLabs zinciri — son kullanıcıda 1-1.5 sn ilk yanıt

📖 Anthropic bu bölümde ne der — öz

Multimodal'da Anthropic kısmi güçlü: vision'da iyi (Claude 4.x Sonnet), ses doğrudan yok. Dürüst pozisyon:

1. Vision — platform.claude.com/docs/en/build-with-claude/vision. Claude'un desteklediği formatlar, boyut limitleri, pratik en iyi uygulamalar. 7.1'deki kodlar bu sayfaya birebir uyar. JPG/PNG/GIF/WEBP, en çok 5 MB / görsel + max 20 görsel / istek, base64 veya URL. Türkçe metin içeren görsellerde OCR kalitesi belirgin (kıyaslamalar 7.4'te).

2. PDF native input — platform.claude.com/docs/en/build-with-claude/pdf-support. 2025'te Claude tüm 4.x modelleri için PDF desteği eklendi: Messages API'sinde dosya başına 32 MB / 100 sayfa, Files API'sinde 500 MB. Metin + grafik + tabloyu tek seferde işler.

3. Ses — Anthropic'in duruşu. Claude ses dinlemiyor (2026 itibarıyla). "Ses için Whisper + metin olarak Claude'a ver" Anthropic'in önerdiği desen. Bu bölümün 7.2 yaklaşımı resmi öneriyle birebir uyumlu.

4. Cookbook — vision örnekleri. claude-cookbooks/multimodal notebook'ları — fatura okuma, grafik yorumlama, sahne tanıma. 7.1'de işlediğimiz örneklerin kaynağı.

5. Video hakkında Anthropic'in şu andaki sınırı. Claude doğrudan video input almıyor. "Kare çıkarma (frame extraction) + çoklu görsel" tek yol. Google Gemini 2.5 Pro video native kabul ediyor; Claude ile yapacaksan bu bölümün 7.3 desenine ihtiyacın var.

Kaynak: platform.claude.com — Vision (İngilizce, ~10 dk). 7.1'den önce aç — görsel kabiliyetinin sınırları ve kalıpları buradan net oturur.

Bir sonraki adım → 7.1 Görüntü Modelleri (30 dk, Claude vision + ilk görsel analiz)

← Bölüm 6 — Agents ve MCP | Ana Sayfa

MühendisAl Platform — Sözlük (Glossary)¶

¶

Bu dosya pre_build.py hook'u tarafından her sayfaya otomatik eklenir.¶

Markdown `abbr` extension bu tanımları alıp terimin her geçtiği yerde¶

HTML `<abbr title="...">` sarımı yapar → MkDocs Material tooltip gösterir.¶

¶

DİKKAT: abbr case-sensitive. "Agent" tanımı "agent" kelimesini sarmaz.¶

Bu yüzden hem büyük hem küçük harf varyantları ayrı tanımlanır.¶

¶

Yeni terim eklerken: *[TERIM]: Açıklama — tek satır, 160 karakterden kısa¶

Terimler alfabetik (büyük harf), hemen altında küçük harf varyantı.¶