7.2 Ses ve TTS/STT — Whisper, ElevenLabs, Fish Audio¶
Yabancı kelime mi gördün?
STT (Speech-to-Text — sesten metne) = ses → metin; Whisper, Deepgram en yaygın. TTS (Text-to-Speech — metinden sese) = metin → ses; ElevenLabs, Cartesia Sonic, OpenAI. Sesli ajan (voice agent) = kullanıcı konuşur → sistem dinler + LLM düşünür + cevap seslendirir. Akış (streaming) (sesli) = ses parça parça akarken işlemek; tüm kaydı beklemek yerine. Ses kopyalama (voice cloning) = bir kişinin sesini 30-60 saniyelik örnekle kopyalama. Gecikme (latency) = kullanıcı konuşmayı bitirdikten sistem cevaba başlayana kadarki süre; sesli ajanda 500 ms - 2 sn kritik. WER (Word Error Rate — kelime hata oranı) = STT modelinin doğruluğunu ölçer; Whisper Large v3 Türkçe için temiz kayıtta %5-8. VAD (Voice Activity Detection — ses etkinliği algılama) = konuşmanın başladığını/bittiğini saptar; sesli ajanın "kullanıcı sustu mu?" karar verme katmanı. Pipecat = Daily.co'nun açık kaynak Python sesli ajan çatısı; STT → LLM → TTS akışını yönetir.
Neden bu sayfa?¶
7.1'de Claude vision ile görsel boru hattını kurdun. Bu sayfa ses tarafı — Claude doğrudan ses dinlemiyor (2026 Nisan itibarıyla); üçüncü parti STT ile metne çevir, sonra Claude'a ver. Çıktı metnini TTS ile tekrar sese çevir → sesli ajan mimarisi.
Sesli ajan 10.4'te Trend 3'tü: "Sesli ajan pazarı 1 yıl içinde %30+ büyüyecek" tahmininin arka planı. 2026 e-ticaret + müşteri destek + telefon görüşmesi otomasyonu hızla büyüyor. Bu pazara teknik zemini bu sayfada kuruyorsun.
İkincisi: Türkçe ses pazarı özel — İngilizceden sonra büyük modellerin destek verdiği üst dillerden biri. ElevenLabs Türkçe TTS doğal; Fish Audio Türkçe özellikle iyi; Whisper large v3 Türkçe STT doğruluğu temiz kayıtlarda %90'ın üstüne çıkıyor. Pratik projeler yapılabilir.
Üçüncüsü: Bu sayfa Anthropic dışı — Claude ses için kullanmıyor. Tarafsız sağlayıcı analizi. Platformun Anthropic öncelikli disiplininin sınırı: araç seçiminde doğru aracı seç, dogmatik kalma.
Ses pipeline mimari¶
flowchart LR
USER[🎤 Kullanıcı konuşur]
MIC[Ses kaydı\nWAV/MP3]
subgraph STAGE1["1️⃣ STT (Speech-to-Text)"]
WHISPER[Whisper large v3\nveya Deepgram\nveya OpenAI Whisper API]
end
TEXT_IN[Transkript metni]
subgraph STAGE2["2️⃣ LLM (anlam + aksiyon)"]
CLAUDE[Claude Sonnet 4.6]
end
TEXT_OUT[Cevap metni]
subgraph STAGE3["3️⃣ TTS (Text-to-Speech)"]
TTS[ElevenLabs veya\nFish Audio veya\nOpenAI TTS]
end
AUDIO_OUT[Ses dosyası\nMP3]
SPEAKER[🔊 Kullanıcı dinler]
USER --> MIC --> WHISPER
WHISPER --> TEXT_IN --> CLAUDE
CLAUDE --> TEXT_OUT --> TTS
TTS --> AUDIO_OUT --> SPEAKER
classDef user fill:#ddd6fe,stroke:#7c3aed,color:#111
classDef stt fill:#fef3c7,stroke:#ca8a04,color:#111
classDef llm fill:#dbeafe,stroke:#2563eb,color:#111
classDef tts fill:#fef3c7,stroke:#ca8a04,color:#111
class USER,MIC,SPEAKER user
class WHISPER,TEXT_IN stt
class CLAUDE,TEXT_OUT llm
class TTS,AUDIO_OUT tts
3 kritik ölçüm:
- STT gecikmesi: Whisper API ~500ms-2sn; Deepgram Nova-3 streaming ~200-400ms
- LLM gecikmesi: Claude Haiku 4.5 streaming ilk token ~250-400ms; Sonnet 4.6 ~500-1000ms; Opus 4.7 ~800-1500ms
- TTS gecikmesi: ElevenLabs Turbo v3 streaming ~150-300ms; Cartesia Sonic ~75-150ms (en hızlısı, 2025'te öne çıktı)
- Toplam: 2026 hedef: kullanıcı bitirdikten sonra 800ms-1.5sn ilk yanıt (Pipecat + LiveKit + Deepgram + Haiku 4.5 + Cartesia karması)
Eniyilemek için akış (streaming) + paralelleştirme gerek: Claude cevap verirken TTS koşut başlar; cümle tamamlandıkça parça parça seslendirilir. Pipecat çatısı bu akışı kutudan çıkar — kendi başına yazmak 2-3 hafta iş, Pipecat'le 1-2 gün.
STT — Whisper ve alternatifleri¶
1. OpenAI Whisper API (managed, en basit)¶
from openai import OpenAI
client = OpenAI()
with open("ses.mp3", "rb") as f:
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=f,
language="tr", # Türkçe açıkça belirt
response_format="text", # veya "json", "verbose_json"
)
print(transcript)
- Fiyat: $0.006/dakika ses
- Kalite: OpenAI Whisper API (model adı
whisper-1); arkada Whisper large sürümü kullanılır. Türkçe için tatmin edici. - Limit: 25 MB dosya (~10-20 dk ses)
- Artı: Kurulum yok, API çağrısı, hepsi bu
- Eksi: 25 MB sınırı uzun kayıtlar için yetersiz (parçalamak gerek); seçili dil parametresi (
language="tr") belirtilmezse otomatik tespit kullanılır
2. Self-host Whisper (faster-whisper kütüphanesi)¶
# pip install faster-whisper
from faster_whisper import WhisperModel
# Model boyutu: tiny / base / small / medium / large-v3
# Türkçe için minimum "medium" öneri, ideal "large-v3"
model = WhisperModel("large-v3", device="cuda", compute_type="float16")
segments, info = model.transcribe(
"ses.mp3",
language="tr",
beam_size=5,
vad_filter=True, # Sessiz yerleri atla
)
for segment in segments:
print(f"[{segment.start:.2f}s - {segment.end:.2f}s] {segment.text}")
- Fiyat: GPU (RTX 3060+ ideal) + elektrik ≈ $0-0.001/dakika
- Kalite: faster-whisper large-v3 OpenAI API ile eş, bazen daha iyi (beam_size 5). Whisper Large v3-turbo (Eylül 2024) varyantı 8 kat hızlı, kalite kaybı minimum — uygunsa onu seç.
- Limit: Yok; 10 saatlik kayıt da işler
- Artı: Hacimli kullanım için 10-100 kat ucuz; gizlilik (veri yerel)
- Eksi: Donanım + kurulum; GPU yoksa CPU yavaş (10 dk ses = 30-60 dk CPU işlem)
3. Deepgram (managed, gerçek zamanlı WebSocket)¶
# pip install deepgram-sdk
from deepgram import DeepgramClient, PrerecordedOptions
client = DeepgramClient()
with open("ses.mp3", "rb") as f:
audio = {"buffer": f.read(), "mimetype": "audio/mp3"}
options = PrerecordedOptions(
model="nova-3",
language="tr",
punctuate=True,
diarize=True, # Konuşmacı ayırt et
)
response = client.listen.rest.v("1").transcribe_file(audio, options)
print(response.results.channels[0].alternatives[0].transcript)
- Fiyat: $0.0043/dakika (nova-3); $0.0058 gerçek zamanlı akış (2026 Nisan)
- Kalite: Türkçe nova-3 Whisper large-v3'e yakın
- Limit: Büyük hacim yerleşik destek
- Artı: Gerçek zamanlı WebSocket akış ile canlı transkripsiyon; diarization (konuşmacı ayrımı) yerleşik
- Eksi: Bazı az konuşulan dillerde destek sınırlı; bu durumlarda Whisper'a düş
Seçim matrisi¶
| Senaryo | Tercih | Neden |
|---|---|---|
| Basit kayıt dosya transkripsiyon | OpenAI Whisper API | Kurulum yok, $0.006/dk makul |
| Hacimli batch (1000+ kayıt) | faster-whisper self-host | 100× ucuz, $5-10/gün GPU |
| Gerçek zamanlı voice agent | Deepgram nova-3 streaming | WebSocket + low latency |
| Gizlilik kritik (sağlık, hukuk) | faster-whisper on-prem | Veri dışarı çıkmaz |
| Hobi proje | OpenAI Whisper API | $0.18/saat, basit |
Türkçe STT kalite gerçeği (WER — kelime hata oranı)¶
- Temiz Türkçe kayıt (stüdyo, net konuşma): %95-98 doğruluk (WER %2-5)
- Telefon kaydı (8 kHz ses kalitesi): %85-92 doğruluk (WER %8-15)
- Gürültülü ortam (kafe, araç içi): %75-85 doğruluk (WER %15-25)
- Aksan/lehçe (Karadeniz, Doğu Anadolu): %70-80 doğruluk
- Teknik jargon (tıbbi, hukuki): %80-90 — son işleme (LLM düzeltmesi) gerekli
- Çoklu konuşmacı (multi-speaker) — diarization (konuşmacı ayrımı) ile %85+ doğruluk; Deepgram Nova-3 ve Whisper Large v3 + pyannote.audio karması iyi sonuç verir
Post-processing pattern:
# Whisper transkript → Claude ile düzelt
prompt = f"""Aşağıdaki Türkçe ses transkriptini kontrol et.
Tıbbi terminoloji varsa düzelt, yazım hatalarını gider,
noktalama ekle. Sadece düzeltilmiş metni döndür.
Transkript:
{whisper_output}"""
response = client.messages.create(
model="claude-haiku-4-5",
max_tokens=len(whisper_output) * 2,
messages=[{"role": "user", "content": prompt}],
)
temiz_metin = response.content[0].text
Whisper + Claude kombine pattern Türkçe için %5-10 kalite sıçraması.
TTS — ElevenLabs, Fish Audio, OpenAI¶
1. ElevenLabs (premium kalite)¶
# pip install elevenlabs
from elevenlabs.client import ElevenLabs
from elevenlabs import play
client = ElevenLabs(api_key="...")
audio = client.text_to_speech.convert(
voice_id="XB0fDUnXU5powFXDhCwa", # Türkçe uyumlu ses (Charlotte, Adam, vb)
model_id="eleven_multilingual_v2",
text="Merhaba, bugün size nasıl yardımcı olabilirim?",
)
# Ses dosyasını kaydet
with open("cevap.mp3", "wb") as f:
for chunk in audio:
f.write(chunk)
- Fiyat: ~$0.15-0.30 / 1000 karakter (yaklaşık $0.50-1.00 / dk ses; 2026 Nisan plan değişimleri için ElevenLabs pricing'i kontrol et)
- Kalite: Endüstri zirvesi — doğal, insan kulağı ayırt etmek zor
- Türkçe:
eleven_multilingual_v2veya yenieleven_v3modeli (2025) iyi; bazı ses kimlikleri (voice ID) daha doğal - Ses kopyalama: 1 dakikalık örnek ile özel ses (Creator + planında)
- Artı: Doğal dinleme kalitesi, akış desteği, 30+ dil
- Eksi: Hacimde pahalı; açık kaynak değil
2. Fish Audio (Türkçe specialist)¶
# pip install ormsgpack httpx
import httpx
response = httpx.post(
"https://api.fish.audio/v1/tts",
headers={"Authorization": f"Bearer {os.environ['FISH_API_KEY']}"},
json={
"text": "Merhaba, bugün size nasıl yardımcı olabilirim?",
"reference_id": "tr-voice-id", # Türkçe ses
"format": "mp3",
},
)
with open("cevap.mp3", "wb") as f:
f.write(response.content)
- Fiyat: ~$0.015 / 1000 karakter (yaklaşık $0.05-0.10 / dk ses) — ElevenLabs'tan ~10 kat ucuz
- Kalite: ElevenLabs'a yakın (~%90 doğallık), Türkçe iyi
- Ses kopyalama: ~30 sn örnek, "Plus" planı (~$15/ay)
- Artı: Türkçe için en iyi fiyat-kalite oranı; düşük bütçeli sesli ajan için ideal
- Eksi: Görece az bilinen; Anthropic resmi listesinde yok; doküman bazı yerlerde Çince ağırlıklı
3. OpenAI TTS (orta seçim)¶
from openai import OpenAI
client = OpenAI()
response = client.audio.speech.create(
model="tts-1-hd", # veya "tts-1" standard
voice="nova", # alloy, echo, fable, onyx, nova, shimmer
input="Merhaba, bugün size nasıl yardımcı olabilirim?",
)
response.stream_to_file("cevap.mp3")
- Fiyat: \(15 / 1M karakter (\)0.015 / 1000 char, Fish Audio ile eş seviyede)
- Kalite: İyi, doğal; Türkçe kabul edilebilir ama aksanlı (İngilizce ağırlıklı eğitim)
- Ses kopyalama: Yok
- Artı: OpenAI ekosistemine entegrasyon (zaten OpenAI kullanıyorsan)
- Eksi: Türkçede aksan sezilebilir; ses kopyalama desteği yok
Seçim matrisi¶
| Senaryo | Tercih | Aylık maliyet tahmin |
|---|---|---|
| Prototip / demo | Fish Audio | $5-20 |
| Türkçe kaliteli voice agent | Fish Audio | $10-50 (1K dk/ay) |
| Premium müşteri deneyimi | ElevenLabs | $50-500 |
| Ses klonu gerek (kendi markan) | Fish Plus veya ElevenLabs | $15-200 |
| İngilizce odaklı | OpenAI TTS | Eş fiyat |
Türkçe TTS kalite gerçeği¶
- ElevenLabs
eleven_multilingual_v2: Türk anadili "insan mı AI mı?" ayırt etmek zor - Fish Audio Türkçe: %95 kadar iyi; bazı uzun kelimelerde (mesela "gülümsüyorum") ufak tökezleme
- OpenAI nova/shimmer: %70-80; İngilizce aksan sezilir
- Google Cloud TTS Türkçe: %80; robotik tonlama
- Azure Speech Türkçe: %85; doğal ama sınırlı duygu
Test refleksi: Her sistem için aynı 3-5 cümle oluştur, kendin dinle. A/B kuryeti arkadaşlara sor.
Voice agent — minimal örnek¶
3 aşamayı birleştir:
import anthropic
from openai import OpenAI
from elevenlabs.client import ElevenLabs
claude = anthropic.Anthropic()
openai = OpenAI()
eleven = ElevenLabs()
SYSTEM = """Sen Türkçe müşteri destek asistanısın. Cevap 3 cümleyi geçmesin."""
def voice_agent(ses_dosyasi: str) -> str:
"""Ses dosyası → cevap ses dosyası."""
# 1. STT
with open(ses_dosyasi, "rb") as f:
transcript = openai.audio.transcriptions.create(
model="whisper-1", file=f, language="tr", response_format="text"
)
print(f"Kullanıcı: {transcript}")
# 2. LLM
response = claude.messages.create(
model="claude-sonnet-4-6",
max_tokens=256,
system=SYSTEM,
messages=[{"role": "user", "content": transcript}],
)
cevap = response.content[0].text
print(f"Asistan: {cevap}")
# 3. TTS
audio = eleven.text_to_speech.convert(
voice_id="XB0fDUnXU5powFXDhCwa",
model_id="eleven_multilingual_v2",
text=cevap,
)
cikti_yolu = "cevap.mp3"
with open(cikti_yolu, "wb") as f:
for chunk in audio:
f.write(chunk)
return cikti_yolu
voice_agent("soru.mp3")
Latency: ~4-6 saniye toplam (test kullanıcısında kabul edilebilir; üretim için streaming + paralelizasyon şart).
Streaming + paralelleme (ileri)¶
Gerçek voice agent'ta 3 aşama paralel çalışır:
- Whisper streaming (ses aktığı anda transcribe)
- Claude streaming (ilk token'da TTS başlat)
- TTS streaming (chunk chunk oynat)
LiveKit + Pipecat framework'leri bu orkestrasyoni yönetir. Karmaşık, 9.6 İMZA sayfasında ele alınabilir.
Maliyet — gerçek örnekler¶
Senaryo 1: Günlük 100 kayıt transkribe (1 dk ortalama)¶
- Whisper API: 100 × \(0.006 = **\)0.60/gün**, ~$18/ay
- faster-whisper self-host (T4 Colab \(10/ay Pro): **\)10/ay** flat
- Aylık hacim <3000 kayıt → API; >3000 → self-host
Senaryo 2: Voice agent (1000 konuşma/gün, ort 2 dk)¶
- STT (Whisper API): 1000 × 2 dk × $0.006 = $12/gün
- LLM (Claude Sonnet): 1000 × ~500 token × $3/M + ~200 × $15/M = $4.5/gün
- TTS (Fish Audio): 1000 × 300 kelime × $0.015/1K char = $4.5/gün (Türkçe 1 kelime ~5 char)
- Günlük toplam: \(21** → aylık **\)630
- ElevenLabs ile TTS 10× → aylık $1,100+
Optimize: - STT self-host (faster-whisper) → -\(300/ay - TTS Fish > ElevenLabs → -\)500/ay - Prompt caching Claude → -$40/ay
Optimize toplam: ~$200/ay (sadece LLM + infra).
Senaryo 3: Meeting recorder (günlük 2 saat)¶
- STT: 2 saat × 60 dk × 20 iş günü × \(0.006 = **\)14.40/ay** API
- Alternatif faster-whisper: ~$10/ay flat
- Claude summary: az; $5-10/ay
Toplam $25-30/ay — makul.
Türkçe özelgeler¶
İpucu 1: Whisper transcribe'da language="tr" açıkça belirt. Model Türkçeyi İngilizceye çevirebilir (nadir ama olur); language zorunlu.
İpucu 2: Fish Audio Türkçe ses örneği için reference_id tescilli tutulur. Kendi custom voice oluşturmak için 30 sn ses kaydı yükle (Plus plan).
İpucu 3: ElevenLabs voice ID seçimi kritik; "Charlotte", "Sarah" Türkçe multilingual v2'de doğal. English-only voice'lar (Rachel, Adam v1) Türkçe kötü sonuç verir.
İpucu 4: Telefon sesi (8kHz mono) önce 16kHz'e upsample + gürültü filtresi (ffmpeg'de highpass, lowpass) — STT kalitesi %5-10 artar.
# Telefon ses temizleme
ffmpeg -i telefon.mp3 -ar 16000 -ac 1 -af "highpass=f=200,lowpass=f=3000" temiz.wav
CTO tuzakları — 8 ses sistemi hatası¶
| # | Tuzak | Sonuç | Doğru |
|---|---|---|---|
| 1 | Whisper'da language belirtilmemiş |
Türkçe → otomatik tespit ile İngilizceye çeviri olabilir | language="tr" açık ver |
| 2 | 25 MB üstü dosya API'ye gönderme | Hata | ffmpeg ile parçala (örn 10 dk segmentler) |
| 3 | Sesli ajanda akış (streaming) yok | 5-6 sn gecikme | Paralel akış; Pipecat çerçevesi |
| 4 | ElevenLabs İngilizce-only ses kimliği seçmek | Türkçede robotik | Multilingual v2 Türkçe ses kimliği |
| 5 | TTS uzun metin (1000+ karakter) | Cümle ortasında kesme | 200-300 karakter parçalar |
| 6 | STT sonucunu Claude'a ham vermek | Transkripte gürültü kalır | Post-process Claude ile düzelt |
| 7 | Fatura alarmı yok | 2 saatlik demo $50 | Üst sınır + izleme |
| 8 | Gizlilik (KVKK) düşünülmemiş | Kullanıcı ses kaydı onaysız | Açık rıza + ses silme politikası |
Tipik ses boru hattı hataları — şu durum şu çözüm
| Hata | Sebep | Çözüm |
|---|---|---|
| Whisper Türkçeyi İngilizceye çeviriyor | language belirtilmemiş |
language="tr" zorunlu |
| 25 MB üstü dosya hatası | OpenAI Whisper API limiti | ffmpeg -t 600 -i in.mp3 part_%03d.mp3 ile parçala |
| ElevenLabs ses Türkçe kötü | Voice ID İngilizce-only | eleven_multilingual_v2 + Türkçe destekli voice ID seç |
| Fish Audio sertifika hatası | Eski httpx + güncel SSL | pip install -U httpx |
| Whisper transkripti çok yavaş (CPU) | GPU kullanılmıyor | faster-whisper + device="cuda" veya OpenAI Whisper API |
| Voice agent gecikmesi >5 sn | Sıralı boru hattı | Pipecat / LiveKit ile akış paralelleme |
Anthropic Claude API referans dokümanı ve Model Overview sayfası Claude'un ses modalitesini şöyle konumlandırır:
1. Native ses desteği yok, niyetli sıralama. Claude Messages API sadece text + image kabul eder. Ses için STT (speech-to-text) ile metne dönüştürüp Claude'a göndermek, Claude'un cevabını TTS (text-to-speech) ile seslendirmek resmi desen. Anthropic bu sıralamayı kolay entegre edilsin diye açık bırakmış; her müşteri kendi STT/TTS sağlayıcısını seçer.
2. OpenAI Whisper birinci tercih kullanımda. Anthropic cookbook'undaki multimodal örneklerde pipeline genellikle Whisper + Claude + ElevenLabs/OpenAI TTS birleşimi. Açık kaynak Whisper (local çalıştırılabilir, Türkçe %95+ WER) + Claude (düşünme) + herhangi bir TTS (ses üretimi) — 3 parçalı modüler.
3. Voice agent için Pipecat + LiveKit ekosistem önerisi. Anthropic developer advocacy ekibi Pipecat (Python voice framework) ve LiveKit (WebRTC altyapı) gibi 3. parti orkestrasyon araçlarını öneriyor. Kendi voice agent framework'leri yok; olgun ekosistemin üstünde Claude "beyin" olarak kullanılıyor.
4. Sessizliğin stratejik anlamı. Ses modalitesinin yokluğu eksiklik değil tercih — Claude'un diferansiyel değeri reasoning + tool use + vision üçgeninde. Ses olgun bir problem (Whisper + ElevenLabs çözdü), Anthropic bunu tekrar çözmek yerine audio reasoning (duygu, niyet, konuşmacı) gibi farklılaşmaya doğru gidebilir.
Kaynak: platform.claude.com — Messages API (EN, ~10 dk) + platform.claude.com — Models Overview (EN, ~8 dk). Claude'un kabul ettiği içerik bloklarının tam listesi + multimodal yol haritası.
Anthropic ekosistemi — Claude + ses geleceği¶
Anthropic Claude 2026 Nisan itibarıyla native voice desteği sunmuyor. 3. parti STT/TTS gerekli. Bu bilinçli sıralama:
Mevcut durum¶
- Claude API: sadece metin (ve görsel 7.1'de gördük)
- Voice için 3. parti pipeline (Whisper + Claude + TTS)
Gelecek 1-2 yıl¶
Anthropic News ve Research kanallarında voice modelleri araştırma yayınlandı 2025'te (multimodal audio). Ticari ürüne geçme takvimi resmen açıklanmadı ama 2026-2027 arası Claude vision → Claude audio geçişi bekleniyor.
Öngörüm (kendi bahsim): 2027'de Claude voice endpoint'i ticari kullanıma açılacak; %60 olur tahminim. Açık kaynak Whisper + ElevenLabs zaten çok güçlü; Anthropic değer üretmek için audio reasoning (duygusal ton, konuşmacı niyeti) gibi farklılaşmaya gidecek — sadece STT değil.
Computer use + voice birleşimi¶
10.4'te değindik: Claude computer use (ekran görür, fare/klavye simüle) 2024-2025'te çıktı. Voice eklenirse tam multimodal agent: görür + duyar + konuşur + işler.
Senaryonuz: "Telefonla bir operatöre bağlan, ürün iadesi için sipariş numarasını söyle, durumu bildir." Claude voice + computer use bunu tek agent'ta yapabilir — voice agent'ın ötesi.
Pratik: Şu an 3. parti pipeline ile voice agent kurdun. Anthropic native voice çıkınca adaptasyon kolay: STT/TTS kaldırıp Claude voice endpoint'ine bağla, kod 10-20 satır değişir.
Pipecat + LiveKit ekosistem¶
Voice agent orchestration için açık kaynak framework'ler:
- Pipecat — Python, modular, STT+LLM+TTS birleştirir
- LiveKit Agents — Go + Python, WebRTC tabanlı, enterprise
- Vapi — managed voice agent, dakikalar içinde canlı (daha önce test edildi)
Bu framework'ler Anthropic Claude'u LLM olarak native destekler. Senin stack'in hazır entegre.
Anthropic ses ekosistem takip¶
- Anthropic News — ayda 1-2 kez bakış
- Anthropic Research audio papers — varsa
- Pipecat / LiveKit changelog — Claude entegrasyon yeni sürümü
6 ay sonra voice durum: kontrol et. Büyük değişim olabilir.
Çıktı kanıtları — 3 kanıt¶
1. Kendi sesin transkribe:
Telefonla 30-60 sn Türkçe kayıt yap (proje fikrini anlat). Whisper API veya faster-whisper ile transcribe. muhendisal-notlarim/bolum-7/02-ses/transcript.txt kaydet + kalite notu.
2. TTS kıyas:
Aynı 3 cümlelik Türkçe metni 3 servis ile seslendir (ElevenLabs, Fish, OpenAI). MP3 dosyalarını sakla + hangisini tercih ettiğini yaz (hangisi "en doğal"?).
3. Voice agent prototip:
Yukarıdaki minimal kod örneğini çalıştır — telefon kaydını input olarak ver, MP3 cevabı al. İlk voice agent'ın!
Görev — 45 dk pipeline pratik¶
- Telefonla 30-60 sn Türkçe ses kaydı (kendi fikrini anlatmak).
- OpenAI Whisper API veya faster-whisper (Colab) → transcribe.
- Transcript'i Claude'a ver, 3 cümle cevap al.
- Cevabı Fish Audio veya ElevenLabs ile seslendir.
voice-pipeline.pyscript commit — script uçtan uca çalışır.- Latency ölç: toplam süre kaç saniye? (streaming yok, sınır durum).
Başarı kriteri: 45 dk sonunda kendi sesin → Claude cevabı (Türkçe) → ses çıktısı. Ses pipeline refleksi kuruldu.
- **A → B:** Voice agent 3 aşama: STT + LLM + TTS; her biri farklı vendor. Bu yüzden **parça parça optimize edilir.**
- **B → C:** STT seçenekleri: OpenAI Whisper API (basit), faster-whisper self-host (ucuz), Deepgram (gerçek zamanlı). Bu yüzden **ihtiyaç vendor seçimini belirler.**
- **C → D:** TTS seçenekleri: ElevenLabs (premium), Fish Audio (Türkçe fiyat-kalite), OpenAI TTS (orta). Bu yüzden **Türkçe için Fish değerlendir.**
- **D → E:** Türkçe STT kalite: temiz %95, gürültülü %75-85; post-process Claude ile düzelt. Bu yüzden **post-processing kalite artırır.**
- **E → F:** Türkçe TTS: ElevenLabs ile Fish eş, ElevenLabs premium maliyet. Bu yüzden **bütçe kısıtı Fish'e işaret eder.**
- **F → G:** Voice agent latency: basit 4-6 sn, streaming ile 1-2 sn. Bu yüzden **streaming kullanıcı deneyimini kurtarır.**
- **G → H:** Maliyet örnekleri: 1000 konuşma/gün self-host pipeline ~$200/ay. Bu yüzden **ölçek maliyet planlaması gerektirir.**
- **H → I:** Claude ses: 2026'da 3. parti; 2027'de Anthropic native bekleniyor. Bu yüzden **mevcut provider kilidi uzun vadeli değil.**
- **I → J:** Pipecat + LiveKit framework'leri voice orchestration için hazır. Bu yüzden **tekerlek yeniden icat etme.**
Sonuç: Ses pipeline refleksi elinde — STT + LLM + TTS vendor seçimi, Türkçe realite, maliyet tahmini, minimal voice agent kod. Sonraki (7.3): video — frame extraction + Claude vision + batch analiz. Platform'un son teknik bölümü kapanışa yakın.
7.3 Video İşleme → — ffmpeg frame extraction + Claude vision batch + video özet pipeline.
← 7.1 Görüntü Modelleri | Bölüm 7 girişi | Ana sayfa
Pekiştirme: faster-whisper GitHub + ElevenLabs docs + Fish Audio docs. Üçünü 2 saatte tara; voice agent projesi için hazır olursun.