Ana içeriğe geç

7.2 Ses ve TTS/STT — Whisper, ElevenLabs, Fish Audio

Kim için: 🟢 başlangıç 🔵 iş 🟣 kişisel

⏱️ Süre: ~30 dakika
📋 Önkoşul: Bölüm 2 (Claude API) + 7.1 (vision). Test için 30 sn-2 dk Türkçe ses kaydı (kendi telefonunla record et).
🎯 Çıktı: **Ses pipeline'ı üç aşama** kuruldu — (1) STT: Whisper ile Türkçe ses → metin, (2) LLM: Claude ile anlam/aksiyon, (3) TTS: ElevenLabs/Fish ile metin → ses. Maliyet tahmini her aşama için net. Self-host (faster-whisper) vs managed (OpenAI Whisper API) karar refleksi. Türkçe ses kalite gerçekliği: orta-iyi, bazı istisnalar. **Voice agent** (10.4 Trend 3) için temel.

Yabancı kelime mi gördün?

STT (Speech-to-Text — sesten metne) = ses → metin; Whisper, Deepgram en yaygın. TTS (Text-to-Speech — metinden sese) = metin → ses; ElevenLabs, Cartesia Sonic, OpenAI. Sesli ajan (voice agent) = kullanıcı konuşur → sistem dinler + LLM düşünür + cevap seslendirir. Akış (streaming) (sesli) = ses parça parça akarken işlemek; tüm kaydı beklemek yerine. Ses kopyalama (voice cloning) = bir kişinin sesini 30-60 saniyelik örnekle kopyalama. Gecikme (latency) = kullanıcı konuşmayı bitirdikten sistem cevaba başlayana kadarki süre; sesli ajanda 500 ms - 2 sn kritik. WER (Word Error Rate — kelime hata oranı) = STT modelinin doğruluğunu ölçer; Whisper Large v3 Türkçe için temiz kayıtta %5-8. VAD (Voice Activity Detection — ses etkinliği algılama) = konuşmanın başladığını/bittiğini saptar; sesli ajanın "kullanıcı sustu mu?" karar verme katmanı. Pipecat = Daily.co'nun açık kaynak Python sesli ajan çatısı; STTLLMTTS akışını yönetir.

Neden bu sayfa?

7.1'de Claude vision ile görsel boru hattını kurdun. Bu sayfa ses tarafı — Claude doğrudan ses dinlemiyor (2026 Nisan itibarıyla); üçüncü parti STT ile metne çevir, sonra Claude'a ver. Çıktı metnini TTS ile tekrar sese çevir → sesli ajan mimarisi.

Sesli ajan 10.4'te Trend 3'tü: "Sesli ajan pazarı 1 yıl içinde %30+ büyüyecek" tahmininin arka planı. 2026 e-ticaret + müşteri destek + telefon görüşmesi otomasyonu hızla büyüyor. Bu pazara teknik zemini bu sayfada kuruyorsun.

İkincisi: Türkçe ses pazarı özel — İngilizceden sonra büyük modellerin destek verdiği üst dillerden biri. ElevenLabs Türkçe TTS doğal; Fish Audio Türkçe özellikle iyi; Whisper large v3 Türkçe STT doğruluğu temiz kayıtlarda %90'ın üstüne çıkıyor. Pratik projeler yapılabilir.

Üçüncüsü: Bu sayfa Anthropic dışı — Claude ses için kullanmıyor. Tarafsız sağlayıcı analizi. Platformun Anthropic öncelikli disiplininin sınırı: araç seçiminde doğru aracı seç, dogmatik kalma.

Ses pipeline mimari

🗺️ Voice agent: 3 aşama, 3 vendor
flowchart LR
    USER[🎤 Kullanıcı konuşur]
    MIC[Ses kaydı\nWAV/MP3]

    subgraph STAGE1["1️⃣ STT (Speech-to-Text)"]
        WHISPER[Whisper large v3\nveya Deepgram\nveya OpenAI Whisper API]
    end

    TEXT_IN[Transkript metni]

    subgraph STAGE2["2️⃣ LLM (anlam + aksiyon)"]
        CLAUDE[Claude Sonnet 4.6]
    end

    TEXT_OUT[Cevap metni]

    subgraph STAGE3["3️⃣ TTS (Text-to-Speech)"]
        TTS[ElevenLabs veya\nFish Audio veya\nOpenAI TTS]
    end

    AUDIO_OUT[Ses dosyası\nMP3]
    SPEAKER[🔊 Kullanıcı dinler]

    USER --> MIC --> WHISPER
    WHISPER --> TEXT_IN --> CLAUDE
    CLAUDE --> TEXT_OUT --> TTS
    TTS --> AUDIO_OUT --> SPEAKER

    classDef user fill:#ddd6fe,stroke:#7c3aed,color:#111
    classDef stt fill:#fef3c7,stroke:#ca8a04,color:#111
    classDef llm fill:#dbeafe,stroke:#2563eb,color:#111
    classDef tts fill:#fef3c7,stroke:#ca8a04,color:#111
    class USER,MIC,SPEAKER user
    class WHISPER,TEXT_IN stt
    class CLAUDE,TEXT_OUT llm
    class TTS,AUDIO_OUT tts

3 kritik ölçüm:

  • STT gecikmesi: Whisper API ~500ms-2sn; Deepgram Nova-3 streaming ~200-400ms
  • LLM gecikmesi: Claude Haiku 4.5 streaming ilk token ~250-400ms; Sonnet 4.6 ~500-1000ms; Opus 4.7 ~800-1500ms
  • TTS gecikmesi: ElevenLabs Turbo v3 streaming ~150-300ms; Cartesia Sonic ~75-150ms (en hızlısı, 2025'te öne çıktı)
  • Toplam: 2026 hedef: kullanıcı bitirdikten sonra 800ms-1.5sn ilk yanıt (Pipecat + LiveKit + Deepgram + Haiku 4.5 + Cartesia karması)

Eniyilemek için akış (streaming) + paralelleştirme gerek: Claude cevap verirken TTS koşut başlar; cümle tamamlandıkça parça parça seslendirilir. Pipecat çatısı bu akışı kutudan çıkar — kendi başına yazmak 2-3 hafta iş, Pipecat'le 1-2 gün.

STT — Whisper ve alternatifleri

1. OpenAI Whisper API (managed, en basit)

from openai import OpenAI

client = OpenAI()

with open("ses.mp3", "rb") as f:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=f,
        language="tr",                    # Türkçe açıkça belirt
        response_format="text",           # veya "json", "verbose_json"
    )

print(transcript)
  • Fiyat: $0.006/dakika ses
  • Kalite: OpenAI Whisper API (model adı whisper-1); arkada Whisper large sürümü kullanılır. Türkçe için tatmin edici.
  • Limit: 25 MB dosya (~10-20 dk ses)
  • Artı: Kurulum yok, API çağrısı, hepsi bu
  • Eksi: 25 MB sınırı uzun kayıtlar için yetersiz (parçalamak gerek); seçili dil parametresi (language="tr") belirtilmezse otomatik tespit kullanılır

2. Self-host Whisper (faster-whisper kütüphanesi)

# pip install faster-whisper
from faster_whisper import WhisperModel

# Model boyutu: tiny / base / small / medium / large-v3
# Türkçe için minimum "medium" öneri, ideal "large-v3"
model = WhisperModel("large-v3", device="cuda", compute_type="float16")

segments, info = model.transcribe(
    "ses.mp3",
    language="tr",
    beam_size=5,
    vad_filter=True,                      # Sessiz yerleri atla
)

for segment in segments:
    print(f"[{segment.start:.2f}s - {segment.end:.2f}s] {segment.text}")
  • Fiyat: GPU (RTX 3060+ ideal) + elektrik ≈ $0-0.001/dakika
  • Kalite: faster-whisper large-v3 OpenAI API ile eş, bazen daha iyi (beam_size 5). Whisper Large v3-turbo (Eylül 2024) varyantı 8 kat hızlı, kalite kaybı minimum — uygunsa onu seç.
  • Limit: Yok; 10 saatlik kayıt da işler
  • Artı: Hacimli kullanım için 10-100 kat ucuz; gizlilik (veri yerel)
  • Eksi: Donanım + kurulum; GPU yoksa CPU yavaş (10 dk ses = 30-60 dk CPU işlem)

3. Deepgram (managed, gerçek zamanlı WebSocket)

# pip install deepgram-sdk
from deepgram import DeepgramClient, PrerecordedOptions

client = DeepgramClient()

with open("ses.mp3", "rb") as f:
    audio = {"buffer": f.read(), "mimetype": "audio/mp3"}

options = PrerecordedOptions(
    model="nova-3",
    language="tr",
    punctuate=True,
    diarize=True,                        # Konuşmacı ayırt et
)

response = client.listen.rest.v("1").transcribe_file(audio, options)
print(response.results.channels[0].alternatives[0].transcript)
  • Fiyat: $0.0043/dakika (nova-3); $0.0058 gerçek zamanlı akış (2026 Nisan)
  • Kalite: Türkçe nova-3 Whisper large-v3'e yakın
  • Limit: Büyük hacim yerleşik destek
  • Artı: Gerçek zamanlı WebSocket akış ile canlı transkripsiyon; diarization (konuşmacı ayrımı) yerleşik
  • Eksi: Bazı az konuşulan dillerde destek sınırlı; bu durumlarda Whisper'a düş

Seçim matrisi

Senaryo Tercih Neden
Basit kayıt dosya transkripsiyon OpenAI Whisper API Kurulum yok, $0.006/dk makul
Hacimli batch (1000+ kayıt) faster-whisper self-host 100× ucuz, $5-10/gün GPU
Gerçek zamanlı voice agent Deepgram nova-3 streaming WebSocket + low latency
Gizlilik kritik (sağlık, hukuk) faster-whisper on-prem Veri dışarı çıkmaz
Hobi proje OpenAI Whisper API $0.18/saat, basit

Türkçe STT kalite gerçeği (WER — kelime hata oranı)

  • Temiz Türkçe kayıt (stüdyo, net konuşma): %95-98 doğruluk (WER %2-5)
  • Telefon kaydı (8 kHz ses kalitesi): %85-92 doğruluk (WER %8-15)
  • Gürültülü ortam (kafe, araç içi): %75-85 doğruluk (WER %15-25)
  • Aksan/lehçe (Karadeniz, Doğu Anadolu): %70-80 doğruluk
  • Teknik jargon (tıbbi, hukuki): %80-90 — son işleme (LLM düzeltmesi) gerekli
  • Çoklu konuşmacı (multi-speaker) — diarization (konuşmacı ayrımı) ile %85+ doğruluk; Deepgram Nova-3 ve Whisper Large v3 + pyannote.audio karması iyi sonuç verir

Post-processing pattern:

# Whisper transkript → Claude ile düzelt
prompt = f"""Aşağıdaki Türkçe ses transkriptini kontrol et.
Tıbbi terminoloji varsa düzelt, yazım hatalarını gider, 
noktalama ekle. Sadece düzeltilmiş metni döndür.

Transkript:
{whisper_output}"""

response = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=len(whisper_output) * 2,
    messages=[{"role": "user", "content": prompt}],
)

temiz_metin = response.content[0].text

Whisper + Claude kombine pattern Türkçe için %5-10 kalite sıçraması.

TTS — ElevenLabs, Fish Audio, OpenAI

1. ElevenLabs (premium kalite)

# pip install elevenlabs
from elevenlabs.client import ElevenLabs
from elevenlabs import play

client = ElevenLabs(api_key="...")

audio = client.text_to_speech.convert(
    voice_id="XB0fDUnXU5powFXDhCwa",   # Türkçe uyumlu ses (Charlotte, Adam, vb)
    model_id="eleven_multilingual_v2",
    text="Merhaba, bugün size nasıl yardımcı olabilirim?",
)

# Ses dosyasını kaydet
with open("cevap.mp3", "wb") as f:
    for chunk in audio:
        f.write(chunk)
  • Fiyat: ~$0.15-0.30 / 1000 karakter (yaklaşık $0.50-1.00 / dk ses; 2026 Nisan plan değişimleri için ElevenLabs pricing'i kontrol et)
  • Kalite: Endüstri zirvesi — doğal, insan kulağı ayırt etmek zor
  • Türkçe: eleven_multilingual_v2 veya yeni eleven_v3 modeli (2025) iyi; bazı ses kimlikleri (voice ID) daha doğal
  • Ses kopyalama: 1 dakikalık örnek ile özel ses (Creator + planında)
  • Artı: Doğal dinleme kalitesi, akış desteği, 30+ dil
  • Eksi: Hacimde pahalı; açık kaynak değil

2. Fish Audio (Türkçe specialist)

# pip install ormsgpack httpx
import httpx

response = httpx.post(
    "https://api.fish.audio/v1/tts",
    headers={"Authorization": f"Bearer {os.environ['FISH_API_KEY']}"},
    json={
        "text": "Merhaba, bugün size nasıl yardımcı olabilirim?",
        "reference_id": "tr-voice-id",     # Türkçe ses
        "format": "mp3",
    },
)

with open("cevap.mp3", "wb") as f:
    f.write(response.content)
  • Fiyat: ~$0.015 / 1000 karakter (yaklaşık $0.05-0.10 / dk ses) — ElevenLabs'tan ~10 kat ucuz
  • Kalite: ElevenLabs'a yakın (~%90 doğallık), Türkçe iyi
  • Ses kopyalama: ~30 sn örnek, "Plus" planı (~$15/ay)
  • Artı: Türkçe için en iyi fiyat-kalite oranı; düşük bütçeli sesli ajan için ideal
  • Eksi: Görece az bilinen; Anthropic resmi listesinde yok; doküman bazı yerlerde Çince ağırlıklı

3. OpenAI TTS (orta seçim)

from openai import OpenAI

client = OpenAI()
response = client.audio.speech.create(
    model="tts-1-hd",                    # veya "tts-1" standard
    voice="nova",                         # alloy, echo, fable, onyx, nova, shimmer
    input="Merhaba, bugün size nasıl yardımcı olabilirim?",
)

response.stream_to_file("cevap.mp3")
  • Fiyat: \(15 / 1M karakter (\)0.015 / 1000 char, Fish Audio ile eş seviyede)
  • Kalite: İyi, doğal; Türkçe kabul edilebilir ama aksanlı (İngilizce ağırlıklı eğitim)
  • Ses kopyalama: Yok
  • Artı: OpenAI ekosistemine entegrasyon (zaten OpenAI kullanıyorsan)
  • Eksi: Türkçede aksan sezilebilir; ses kopyalama desteği yok

Seçim matrisi

Senaryo Tercih Aylık maliyet tahmin
Prototip / demo Fish Audio $5-20
Türkçe kaliteli voice agent Fish Audio $10-50 (1K dk/ay)
Premium müşteri deneyimi ElevenLabs $50-500
Ses klonu gerek (kendi markan) Fish Plus veya ElevenLabs $15-200
İngilizce odaklı OpenAI TTS Eş fiyat

Türkçe TTS kalite gerçeği

  • ElevenLabs eleven_multilingual_v2: Türk anadili "insan mı AI mı?" ayırt etmek zor
  • Fish Audio Türkçe: %95 kadar iyi; bazı uzun kelimelerde (mesela "gülümsüyorum") ufak tökezleme
  • OpenAI nova/shimmer: %70-80; İngilizce aksan sezilir
  • Google Cloud TTS Türkçe: %80; robotik tonlama
  • Azure Speech Türkçe: %85; doğal ama sınırlı duygu

Test refleksi: Her sistem için aynı 3-5 cümle oluştur, kendin dinle. A/B kuryeti arkadaşlara sor.

Voice agent — minimal örnek

3 aşamayı birleştir:

import anthropic
from openai import OpenAI
from elevenlabs.client import ElevenLabs

claude = anthropic.Anthropic()
openai = OpenAI()
eleven = ElevenLabs()

SYSTEM = """Sen Türkçe müşteri destek asistanısın. Cevap 3 cümleyi geçmesin."""


def voice_agent(ses_dosyasi: str) -> str:
    """Ses dosyası → cevap ses dosyası."""

    # 1. STT
    with open(ses_dosyasi, "rb") as f:
        transcript = openai.audio.transcriptions.create(
            model="whisper-1", file=f, language="tr", response_format="text"
        )
    print(f"Kullanıcı: {transcript}")

    # 2. LLM
    response = claude.messages.create(
        model="claude-sonnet-4-6",
        max_tokens=256,
        system=SYSTEM,
        messages=[{"role": "user", "content": transcript}],
    )
    cevap = response.content[0].text
    print(f"Asistan: {cevap}")

    # 3. TTS
    audio = eleven.text_to_speech.convert(
        voice_id="XB0fDUnXU5powFXDhCwa",
        model_id="eleven_multilingual_v2",
        text=cevap,
    )
    cikti_yolu = "cevap.mp3"
    with open(cikti_yolu, "wb") as f:
        for chunk in audio:
            f.write(chunk)
    return cikti_yolu


voice_agent("soru.mp3")

Latency: ~4-6 saniye toplam (test kullanıcısında kabul edilebilir; üretim için streaming + paralelizasyon şart).

Streaming + paralelleme (ileri)

Gerçek voice agent'ta 3 aşama paralel çalışır:

  1. Whisper streaming (ses aktığı anda transcribe)
  2. Claude streaming (ilk token'da TTS başlat)
  3. TTS streaming (chunk chunk oynat)

LiveKit + Pipecat framework'leri bu orkestrasyoni yönetir. Karmaşık, 9.6 İMZA sayfasında ele alınabilir.

Maliyet — gerçek örnekler

Senaryo 1: Günlük 100 kayıt transkribe (1 dk ortalama)

  • Whisper API: 100 × \(0.006 = **\)0.60/gün**, ~$18/ay
  • faster-whisper self-host (T4 Colab \(10/ay Pro): **\)10/ay** flat
  • Aylık hacim <3000 kayıt → API; >3000 → self-host

Senaryo 2: Voice agent (1000 konuşma/gün, ort 2 dk)

  • STT (Whisper API): 1000 × 2 dk × $0.006 = $12/gün
  • LLM (Claude Sonnet): 1000 × ~500 token × $3/M + ~200 × $15/M = $4.5/gün
  • TTS (Fish Audio): 1000 × 300 kelime × $0.015/1K char = $4.5/gün (Türkçe 1 kelime ~5 char)
  • Günlük toplam: \(21** → aylık **\)630
  • ElevenLabs ile TTS 10× → aylık $1,100+

Optimize: - STT self-host (faster-whisper) → -\(300/ay - TTS Fish > ElevenLabs → -\)500/ay - Prompt caching Claude → -$40/ay

Optimize toplam: ~$200/ay (sadece LLM + infra).

Senaryo 3: Meeting recorder (günlük 2 saat)

  • STT: 2 saat × 60 dk × 20 iş günü × \(0.006 = **\)14.40/ay** API
  • Alternatif faster-whisper: ~$10/ay flat
  • Claude summary: az; $5-10/ay

Toplam $25-30/ay — makul.

Türkçe özelgeler

İpucu 1: Whisper transcribe'da language="tr" açıkça belirt. Model Türkçeyi İngilizceye çevirebilir (nadir ama olur); language zorunlu.

İpucu 2: Fish Audio Türkçe ses örneği için reference_id tescilli tutulur. Kendi custom voice oluşturmak için 30 sn ses kaydı yükle (Plus plan).

İpucu 3: ElevenLabs voice ID seçimi kritik; "Charlotte", "Sarah" Türkçe multilingual v2'de doğal. English-only voice'lar (Rachel, Adam v1) Türkçe kötü sonuç verir.

İpucu 4: Telefon sesi (8kHz mono) önce 16kHz'e upsample + gürültü filtresi (ffmpeg'de highpass, lowpass) — STT kalitesi %5-10 artar.

# Telefon ses temizleme
ffmpeg -i telefon.mp3 -ar 16000 -ac 1 -af "highpass=f=200,lowpass=f=3000" temiz.wav

CTO tuzakları — 8 ses sistemi hatası

# Tuzak Sonuç Doğru
1 Whisper'da language belirtilmemiş Türkçe → otomatik tespit ile İngilizceye çeviri olabilir language="tr" açık ver
2 25 MB üstü dosya API'ye gönderme Hata ffmpeg ile parçala (örn 10 dk segmentler)
3 Sesli ajanda akış (streaming) yok 5-6 sn gecikme Paralel akış; Pipecat çerçevesi
4 ElevenLabs İngilizce-only ses kimliği seçmek Türkçede robotik Multilingual v2 Türkçe ses kimliği
5 TTS uzun metin (1000+ karakter) Cümle ortasında kesme 200-300 karakter parçalar
6 STT sonucunu Claude'a ham vermek Transkripte gürültü kalır Post-process Claude ile düzelt
7 Fatura alarmı yok 2 saatlik demo $50 Üst sınır + izleme
8 Gizlilik (KVKK) düşünülmemiş Kullanıcı ses kaydı onaysız Açık rıza + ses silme politikası
Tipik ses boru hattı hataları — şu durum şu çözüm
Hata Sebep Çözüm
Whisper Türkçeyi İngilizceye çeviriyor language belirtilmemiş language="tr" zorunlu
25 MB üstü dosya hatası OpenAI Whisper API limiti ffmpeg -t 600 -i in.mp3 part_%03d.mp3 ile parçala
ElevenLabs ses Türkçe kötü Voice ID İngilizce-only eleven_multilingual_v2 + Türkçe destekli voice ID seç
Fish Audio sertifika hatası Eski httpx + güncel SSL pip install -U httpx
Whisper transkripti çok yavaş (CPU) GPU kullanılmıyor faster-whisper + device="cuda" veya OpenAI Whisper API
Voice agent gecikmesi >5 sn Sıralı boru hattı Pipecat / LiveKit ile akış paralelleme
📖 Anthropic bu konuyu nasıl anlatıyor — öz

Anthropic Claude API referans dokümanı ve Model Overview sayfası Claude'un ses modalitesini şöyle konumlandırır:

1. Native ses desteği yok, niyetli sıralama. Claude Messages API sadece text + image kabul eder. Ses için STT (speech-to-text) ile metne dönüştürüp Claude'a göndermek, Claude'un cevabını TTS (text-to-speech) ile seslendirmek resmi desen. Anthropic bu sıralamayı kolay entegre edilsin diye açık bırakmış; her müşteri kendi STT/TTS sağlayıcısını seçer.

2. OpenAI Whisper birinci tercih kullanımda. Anthropic cookbook'undaki multimodal örneklerde pipeline genellikle Whisper + Claude + ElevenLabs/OpenAI TTS birleşimi. Açık kaynak Whisper (local çalıştırılabilir, Türkçe %95+ WER) + Claude (düşünme) + herhangi bir TTS (ses üretimi) — 3 parçalı modüler.

3. Voice agent için Pipecat + LiveKit ekosistem önerisi. Anthropic developer advocacy ekibi Pipecat (Python voice framework) ve LiveKit (WebRTC altyapı) gibi 3. parti orkestrasyon araçlarını öneriyor. Kendi voice agent framework'leri yok; olgun ekosistemin üstünde Claude "beyin" olarak kullanılıyor.

4. Sessizliğin stratejik anlamı. Ses modalitesinin yokluğu eksiklik değil tercih — Claude'un diferansiyel değeri reasoning + tool use + vision üçgeninde. Ses olgun bir problem (Whisper + ElevenLabs çözdü), Anthropic bunu tekrar çözmek yerine audio reasoning (duygu, niyet, konuşmacı) gibi farklılaşmaya doğru gidebilir.

Kaynak: platform.claude.com — Messages API (EN, ~10 dk) + platform.claude.com — Models Overview (EN, ~8 dk). Claude'un kabul ettiği içerik bloklarının tam listesi + multimodal yol haritası.

Anthropic ekosistemi — Claude + ses geleceği

Anthropic Claude 2026 Nisan itibarıyla native voice desteği sunmuyor. 3. parti STT/TTS gerekli. Bu bilinçli sıralama:

Mevcut durum

  • Claude API: sadece metin (ve görsel 7.1'de gördük)
  • Voice için 3. parti pipeline (Whisper + Claude + TTS)

Gelecek 1-2 yıl

Anthropic News ve Research kanallarında voice modelleri araştırma yayınlandı 2025'te (multimodal audio). Ticari ürüne geçme takvimi resmen açıklanmadı ama 2026-2027 arası Claude vision → Claude audio geçişi bekleniyor.

Öngörüm (kendi bahsim): 2027'de Claude voice endpoint'i ticari kullanıma açılacak; %60 olur tahminim. Açık kaynak Whisper + ElevenLabs zaten çok güçlü; Anthropic değer üretmek için audio reasoning (duygusal ton, konuşmacı niyeti) gibi farklılaşmaya gidecek — sadece STT değil.

Computer use + voice birleşimi

10.4'te değindik: Claude computer use (ekran görür, fare/klavye simüle) 2024-2025'te çıktı. Voice eklenirse tam multimodal agent: görür + duyar + konuşur + işler.

Senaryonuz: "Telefonla bir operatöre bağlan, ürün iadesi için sipariş numarasını söyle, durumu bildir." Claude voice + computer use bunu tek agent'ta yapabilir — voice agent'ın ötesi.

Pratik: Şu an 3. parti pipeline ile voice agent kurdun. Anthropic native voice çıkınca adaptasyon kolay: STT/TTS kaldırıp Claude voice endpoint'ine bağla, kod 10-20 satır değişir.

Pipecat + LiveKit ekosistem

Voice agent orchestration için açık kaynak framework'ler:

  • Pipecat — Python, modular, STT+LLM+TTS birleştirir
  • LiveKit Agents — Go + Python, WebRTC tabanlı, enterprise
  • Vapi — managed voice agent, dakikalar içinde canlı (daha önce test edildi)

Bu framework'ler Anthropic Claude'u LLM olarak native destekler. Senin stack'in hazır entegre.

Anthropic ses ekosistem takip

6 ay sonra voice durum: kontrol et. Büyük değişim olabilir.

Çıktı kanıtları — 3 kanıt

📏 Çıktı — 3 kanıt

1. Kendi sesin transkribe:

Telefonla 30-60 sn Türkçe kayıt yap (proje fikrini anlat). Whisper API veya faster-whisper ile transcribe. muhendisal-notlarim/bolum-7/02-ses/transcript.txt kaydet + kalite notu.

2. TTS kıyas:

Aynı 3 cümlelik Türkçe metni 3 servis ile seslendir (ElevenLabs, Fish, OpenAI). MP3 dosyalarını sakla + hangisini tercih ettiğini yaz (hangisi "en doğal"?).

3. Voice agent prototip:

Yukarıdaki minimal kod örneğini çalıştır — telefon kaydını input olarak ver, MP3 cevabı al. İlk voice agent'ın!

Görev — 45 dk pipeline pratik

🎯 Görev — 3 aşama ses pipeline
  1. Telefonla 30-60 sn Türkçe ses kaydı (kendi fikrini anlatmak).
  2. OpenAI Whisper API veya faster-whisper (Colab) → transcribe.
  3. Transcript'i Claude'a ver, 3 cümle cevap al.
  4. Cevabı Fish Audio veya ElevenLabs ile seslendir.
  5. voice-pipeline.py script commit — script uçtan uca çalışır.
  6. Latency ölç: toplam süre kaç saniye? (streaming yok, sınır durum).

Başarı kriteri: 45 dk sonunda kendi sesin → Claude cevabı (Türkçe) → ses çıktısı. Ses pipeline refleksi kuruldu.

🔗 Birlikte okuma — neden ne oldu
  1. **A → B:** Voice agent 3 aşama: STT + LLM + TTS; her biri farklı vendor. Bu yüzden **parça parça optimize edilir.**
  2. **B → C:** STT seçenekleri: OpenAI Whisper API (basit), faster-whisper self-host (ucuz), Deepgram (gerçek zamanlı). Bu yüzden **ihtiyaç vendor seçimini belirler.**
  3. **C → D:** TTS seçenekleri: ElevenLabs (premium), Fish Audio (Türkçe fiyat-kalite), OpenAI TTS (orta). Bu yüzden **Türkçe için Fish değerlendir.**
  4. **D → E:** Türkçe STT kalite: temiz %95, gürültülü %75-85; post-process Claude ile düzelt. Bu yüzden **post-processing kalite artırır.**
  5. **E → F:** Türkçe TTS: ElevenLabs ile Fish eş, ElevenLabs premium maliyet. Bu yüzden **bütçe kısıtı Fish'e işaret eder.**
  6. **F → G:** Voice agent latency: basit 4-6 sn, streaming ile 1-2 sn. Bu yüzden **streaming kullanıcı deneyimini kurtarır.**
  7. **G → H:** Maliyet örnekleri: 1000 konuşma/gün self-host pipeline ~$200/ay. Bu yüzden **ölçek maliyet planlaması gerektirir.**
  8. **H → I:** Claude ses: 2026'da 3. parti; 2027'de Anthropic native bekleniyor. Bu yüzden **mevcut provider kilidi uzun vadeli değil.**
  9. **I → J:** Pipecat + LiveKit framework'leri voice orchestration için hazır. Bu yüzden **tekerlek yeniden icat etme.**

Sonuç: Ses pipeline refleksi elinde — STT + LLM + TTS vendor seçimi, Türkçe realite, maliyet tahmini, minimal voice agent kod. Sonraki (7.3): video — frame extraction + Claude vision + batch analiz. Platform'un son teknik bölümü kapanışa yakın.

➡️ Sonraki adım

7.3 Video İşleme → — ffmpeg frame extraction + Claude vision batch + video özet pipeline.

7.1 Görüntü Modelleri  |  Bölüm 7 girişi  |  Ana sayfa

Pekiştirme: faster-whisper GitHub + ElevenLabs docs + Fish Audio docs. Üçünü 2 saatte tara; voice agent projesi için hazır olursun.

MühendisAl Platform — Sözlük (Glossary)

Bu dosya pre_build.py hook'u tarafından her sayfaya otomatik eklenir.

Markdown abbr extension bu tanımları alıp terimin her geçtiği yerde

HTML <abbr title="..."> sarımı yapar → MkDocs Material tooltip gösterir.

DİKKAT: abbr case-sensitive. "Agent" tanımı "agent" kelimesini sarmaz.

Bu yüzden hem büyük hem küçük harf varyantları ayrı tanımlanır.

Yeni terim eklerken: *[TERIM]: Açıklama — tek satır, 160 karakterden kısa

Terimler alfabetik (büyük harf), hemen altında küçük harf varyantı.