Ana içeriğe geç

5.1 İnce Ayar (Fine-tuning) Nedir — Tam FT, LoRA, QLoRA

Kim için: 🟢 başlangıç 🔵 iş 🟣 kişisel

⏱️ Süre: ~35 dakika
📋 Önkoşul: Bölüm 2 (prompt engineering) + Bölüm 4 (RAG) bitti. Çalışan bir RAG sistemin var.
🎯 Çıktı: İnce ayarın 3 biçimini (tam FT, LoRA, QLoRA) biliyorsun; **prompt mühendisliği ↔ RAG ↔ ince ayar** üçgeninde her köşenin ne zaman seçildiğini anlıyorsun; maliyet + süre + donanım gerçekçi tahminleri elinde. Sayfadaki tek iddia: "Çoğu proje ince ayar **gerektirmez**" — bu iddianın arkasındaki gerekçeyi görebiliyorsun.

Yabancı kelime mi gördün?

İnce ayar (fine-tuning) = önceden eğitilmiş modelin ağırlıklarını kendi verinle güncelleme. Tam ince ayar (full FT) = tüm ağırlıklar değişir; pahalı. LoRA (Low-Rank Adaptation — düşük dereceli uyarlama) = sadece küçük adaptör katmanlar eğitilir; orijinal model donuk kalır. QLoRA = LoRA + 4-bit küçültme (quantization); tüketici GPU'da bile çalışır. PEFT (Parameter-Efficient Fine-Tuning — verimli parametreli ince ayar) = LoRA/QLoRA/Prefix tuning gibi tekniklerin şemsiye adı. Instruction tuning (yönerge ayarı) = "Kullanıcı sorar, model cevap verir" biçimine modeli öğretmek. RLHF (Reinforcement Learning from Human Feedback) = insan geri bildirimiyle hizalama. DPO (Direct Preference Optimization — Doğrudan Tercih Eniyilemesi, 2023 Stanford) = RLHF'nin kolay kuzeni; ödül modeli + RL döngüsü olmadan tercihli çiftlerle hizalama; 2025'te endüstri standardı oldu. NF4 (NormalFloat 4-bit) = QLoRA'nın 2023'te tanıttığı 4-bit niceleme biçimi; INT4'ten 1-2 puan daha iyi kalite. Catastrophic forgetting (yıkıcı unutma) = ince ayar sonrası modelin önceki yetkinliklerini kaybetmesi. Overfitting (aşırı uyum) = modelin eğitim verisine çok yapışıp genelleyememesi.

Neden bu bölüm?

Bölüm 4'te RAG kurdun. Projede bir sınır gördün: "Bu model Türkçe'de bazı kültürel ayrıntıları tam yakalamıyor" ya da "Bizim şirket dilinde 'müşteri' yerine 'ürün sahibi' diyoruz, model bu dili benimseyemiyor". Çözüm olarak "modeli kendi verimle eğitsem?" sorusu aklına geldi.

Bu bölümün ana tezi: ince ayar pahalı bir yol, RAG ucuz bir yoldur. "Kendi modelimi eğittim" hikâyesi mülakatta ya da LinkedIn'de cazip görünür. Ama çoğu projede maliyet + zaman + bakım üçlüsü RAG'e göre 10-100 katı çıkar. Bu bölümün 4 sayfası, sen bu karar noktasında doğru tarafa düşesin diye yazıldı.

İkincisi: İnce ayar 2026'da daha ucuz — 2024-2025'te LoRA + QLoRA teknikleriyle tüketici GPU'da (RTX 4090, RTX 5090, Colab T4/L4) bile büyük modeller eğitilebiliyor. Maliyet eşiği düştü. Ama düşen eşik "her projeye uyar" demek değil. 5.2 karar matrisi bu sınırı çizer.

Üçüncüsü: Bu bölüm platformun kavramsal son bölümü (teknik temel anlamında). Sonraki bölümler (Bölüm 7 Multimodal, Bölüm 9.6 imza projesi, Bölüm 10 kariyer) uygulama-odaklı. 5.4 HF pratik sayfasında küçük bir LoRA deneyimi yapacaksın — deneyim için, üretim için değil.

3 köşeli üçgen — PromptRAG ↔ Fine-tune

AI Engineer'ın "modele yeni şey öğretme" araç kutusu 3 parça:

🗺️ 3 teknik, 3 farklı problem
flowchart TB
    PROBLEM[❓ "Model istediğim gibi davranmıyor"]

    subgraph PROMPT["1️⃣ Prompt Engineering"]
        P1[System prompt + few-shot]
        P2[Dakikalar, 0 maliyet]
        P3[Örnek az, etki sınırlı]
    end

    subgraph RAG["2️⃣ RAG"]
        R1[Vector DB + retrieval]
        R2[Saatler, düşük maliyet]
        R3[Bilgi ekler, davranış değişmez]
    end

    subgraph FT["3️⃣ Fine-tuning"]
        F1[Model ağırlıkları günceller]
        F2[Günler, yüksek maliyet]
        F3[Davranış değişir, bakım sürekli]
    end

    PROBLEM --> PROMPT
    PROBLEM --> RAG
    PROBLEM --> FT

    classDef prompt fill:#fef3c7,stroke:#ca8a04,color:#111
    classDef rag fill:#dbeafe,stroke:#2563eb,color:#111
    classDef ft fill:#fed7aa,stroke:#ea580c,color:#111
    class P1,P2,P3 prompt
    class R1,R2,R3 rag
    class F1,F2,F3 ft

Üçü aynı probleme farklı cevap verir. Doğru eşleşme:

Sorun tipi Çözüm
"Model cevap biçimini bilmiyor" Yönerge mühendisliği (few-shot örnek)
"Model benim şirket verimi bilmiyor" RAG
"Model benim ürün jargonumu bilmiyor (1000 kez öğretmek zor)" İnce ayar
"Model Türkçe üretim yapıyor ama TDK ölçütü yerine argo kullanıyor" İnce ayar (biçem)
"Model sağlık kaynaklarını tıp doktoru tonunda söylesin" İnce ayar (ton) + RAG (kaynak) = hibrit
"Hassas görevde modelin daha az halüsinasyon yapması gerek" DPO ile tercih ayarı (kötü cevaplar elenir)
"Model hâlâ yeni bilgiyi RAG'den almakta zorlanıyor" Continued pre-training + RAG (nadiren)

Fine-tuning nedir — 3 biçim

1. Tam ince ayar (full fine-tuning)

Modelin tüm ağırlıkları güncellenir. (Claude'un parametre sayısı resmi olarak açıklanmaz; sızıntı/spekülasyon değerleri kullanılmaz.) Tam ince ayar için:

  • Donanım: 8+ H100 GPU kümesi (tek başına $200K satın alma; bulutta saatlik $40-60/H100)
  • Veri: 10K+ kaliteli örnek (az ise modelin ezberlemesi — overfitting)
  • Süre: Saatler-günler
  • Maliyet: Compute + veri + tekrar eğitim ≈ $5K-1M arası proje
  • Kim yapar: Anthropic, OpenAI, Google, Meta, büyük kurumsal ekipler

Çoğu geliştiricinin asla dokunmayacağı yöntem. Sadece model üreticileri.

2. LoRA — Düşük Dereceli Uyarlama (2021)

Temel fikir: Model ağırlıklarını dondur, küçük adaptör katmanlar ekle, sadece onları eğit.

Matematik sezgisi (formül yok):

Bir ağırlık matrisini iki küçük matrisin çarpımı olarak yaklaş — "rank" denen düşük bir boyutta. Orijinal 1000×1000 matrisin yerine 1000×8 + 8×1000 = iki küçük matris tutarsın. Eğitilebilir parametre sayısı orijinalin %1-2'sine düşer (rank 8 için).

Pratikte:

  • Donanım: Tek A100 veya RTX 4090/5090 (24-32 GB VRAM)
  • Veri: 500-5000 örnek yeter
  • Süre: 1-4 saat
  • Maliyet: Colab Pro A100 (~\(1.20/saat) ya da RunPod A100 (~\)1.50-2/saat) ile $5-30/deney (2026 fiyatları)
  • Dosya: Adaptör ağırlıkları ~10-50 MB (orijinal model 16 GB Llama 3.1 8B / 140 GB Llama 3.1 70B)

Büyük fayda: Farklı görevler için ayrı adaptör tut, aynı temel modeli paylaş. 10 farklı tonun varsa 10 adaptör + 1 temel model = 16-140 GB + 500 MB.

3. QLoRA — Küçültülmüş LoRA (2023)

LoRA + 4-bit küçültme (quantization). Model ağırlıkları 4-bit'e sıkıştırılır (normal FP16/BF16 yerine) — bellek 4 kat azalır, kalite kaybı çok az (tipik %1-3 benchmark farkı).

Pratikte:

  • Donanım: RTX 3090 / 4090 / 5090 (24-32 GB), Colab L4 ücretsiz katmanı (22 GB), Colab T4 ücretsiz katmanı (16 GB; sadece 7B veya altı küçültülmüş)
  • Veri: LoRA ile aynı (500-5000 örnek)
  • Süre: LoRA'dan ~2 kat yavaş ama tek GPU'da çalışır
  • Maliyet: $0-10 Colab ücretsiz katmanında 7B model eğitimi (ücretsiz katman 2024 sonu kısıtlandı; günlük kota var)
  • Kalite: Tam FT ile karşılaştırılabilir (bazı benchmarklarda farkı %3-5 arası)

5.4 sayfasında QLoRA ile Colab T4/L4 üstünde Qwen3-1.7B veya Llama 3.2 1B Instruct modeli eğiteceksin — 50 örnek, ~20-30 dakika; Unsloth kullanırsan ~10-15 dakikaya iner.

Unsloth — 2025'in QLoRA hızlandırıcısı

Unsloth Daniel Han + Michael Han'ın açık kaynak projesi. Llama, Qwen, Gemma ve Mistral aileleri için 2-5× eğitim hızlandırması + %50 VRAM düşüşü sağlar. Custom Triton çekirdekleri yazıldığı için CPU/GPU bekleme süresi azalır. Colab T4'te 7B model QLoRA eğitimi normalde sığmazken Unsloth ile sığabiliyor. 5.4 not defteri Unsloth seçeneğini içerir.

Instruction tuning vs continued pre-training

Fine-tune iki alt tür:

Tür Ne yapar Örnek
Instruction tuning Model "komut → cevap" formatına geçer "Özet yap: [metin]" → "Özet şu:"
Continued pre-training Modele yeni dil/domain metin "okut" Tıp literatürü yüz milyon token

%95 geliştirici sadece instruction tuning yapar. Continued pre-training ciddi compute + veri ister.

Veri hazırlama — formatlar

Instruction format (en yaygın)

{
  "instruction": "Aşağıdaki müşteri yorumunu pozitif/negatif olarak kategorize et.",
  "input": "Ürün kaliteli ama kargo çok yavaş geldi.",
  "output": "Karışık (pozitif: kalite, negatif: kargo hızı)"
}

Chat format (modern)

{
  "messages": [
    {"role": "system", "content": "Sen bir Türkçe müşteri destek asistanısın."},
    {"role": "user", "content": "Siparişim gelmedi."},
    {"role": "assistant", "content": "Üzgünüm, sipariş numaranızı paylaşır mısınız?"}
  ]
}

Claude + Llama 3 + Gemma son sürümler bu format. Hugging Face datasets kütüphanesi ikisini de okur.

Kaç örnek gerek?

Örnek sayısı Sonuç
<100 Overfitting; ezberler, genelleyemez
100-500 Basit stil değişimi (ton, format) işe yarar
500-2000 Çoğu domain-specific FT için yeterli
2000-10K Ciddi davranış değişikliği; production kalite
10K+ Continued pre-training seviyesi; mükemmel ama sınırlı getiri

"Fazla veri = daha iyi model" yanılgı. 200 yüksek kalite > 5000 gürültülü. Veri temizliği + çeşitlilik miktardan önemli.

Maliyet — gerçekçi tahmin

QLoRA 7B model (Colab)

  • GPU: Colab T4 ücretsiz veya Colab Pro A100 $10/ay
  • Veri hazırlama: 20-40 saat insan iş gücü
  • Eğitim süresi: 500 örnek × 3 epoch = 1-3 saat
  • Toplam: $0-10 (Colab) + insan emeği
  • Kullanılabilirlik: Deneme, ufak ticari iş

LoRA 13B model (RunPod veya Lambda Labs)

  • GPU: A100 80GB kiralık $1.5-2/saat
  • Veri hazırlama: 40-80 saat
  • Eğitim: 2-8 saat × $2 = $4-16
  • Toplam: ~$50-100 + insan emeği
  • Kullanılabilirlik: Orta ticari projeler

Tam FT 70B model (enterprise)

  • GPU: 8×H100 saatlik $40-60
  • Veri: 10K+ örnek, haftalarca hazırlık
  • Eğitim: 12-48 saat × $50 = $600-2400
  • Toplam: $5K-50K (veri + compute + iteration)
  • Kullanılabilirlik: Büyük enterprise

Kıyas — RAG'in maliyeti

Aynı problem için RAG yaklaşımı:

  • Qdrant VPS: Hetzner CX22 ile €3.79/ay (2026 Nisan)
  • Embedding: Voyage 4 ailesi kullandıkça öde, 1M token ~$0.06; ayda ilk 200M token ücretsiz
  • LLM: Claude Sonnet 4.6 $3/M giriş, $15/M çıkış (Opus 4.7: \(5/\)25; Haiku 4.5: \(1/\)5)
  • Yönerge önbelleği: Aynı sistem yönergesi 5 dakikalık (varsayılan) veya 1 saatlik (genişletilmiş) cache'te %90 indirimli okunur
  • Aylık 6000 sorgu: ~$5-10 (caching + Haiku karması ile $2-3)

RAG ince ayardan 100-1000 kat ucuzdur + hafta yerine saatte canlıdır + güncellenmesi kolaydır. Bilgi tabanına yeni PDF eklemek 5 dakika; ince ayar modeli yeni bilgiyle yeniden eğitmek 1 hafta.

Araçlar — açık kaynak

Araç Ne için Not
Hugging Face Transformers Standart eğitim + çıkarım transformers 4.x serisi (Nisan 2026 itibarıyla 4.46+); ekosistemin kalbi
PEFT (HF) LoRA/QLoRA yapılandırma peft 0.13+ (2026 Nisan); resmi Hugging Face
TRL (HF) SFT, DPO, RLHF eğiticileri Adım adım eğitim + notebook
Unsloth Hızlı LoRA/QLoRA, 2-5 kat hızlanma Niş ama Colab için ideal
Axolotl YAML yapılandırma + üretim hattı Daha karmaşık projeler
bitsandbytes Küçültme (4-bit, 8-bit) QLoRA'nın temel taşı
Accelerate (HF) Çoklu-GPU eğitim soyutlama Ölçek büyüdükçe

5.4 sayfasında: Colab + Hugging Face Transformers + PEFT + TRL + bitsandbytes birleşimi — tek notebook.

Managed platformlar

Kendin kod yazmadan:

Platform Destek Fiyat
OpenAI Fine-tuning GPT-5, GPT-5-mini, GPT-5.2, o3 Eğitim ~$25/M token + çağrı sırasında base fiyatın yaklaşık 8 katı (2026 Nisan)
Google Vertex AI Gemini 2.5 ailesi Değişken, Google Cloud fiyatı
AWS Bedrock — Custom Model Import Llama, Mistral, DeepSeek (Claude dahil değil) Saatlik ayrılmış (provisioned throughput) gerek
Azure OpenAI GPT-5 ailesi ince ayarı Azure kurumsal fiyatı
Anthropic Genel kullanıma açık değil (2026 Nisan); seçili kurumsal müşterilere selective access -

Uyarı — Anthropic ince ayarı 2026 itibarıyla: Claude için ince ayar Anthropic tarafından sadece seçili erişim (selective access) ile büyük kurumsal müşterilere sunuluyor; herkese açık değil. AWS Bedrock'taki "Custom Model Import" özelliği Llama / Mistral / DeepSeek gibi açık ağırlıklı modeller içindir; Claude buna dahil değildir. Bu tasarım tercih, eksik değil — Constitutional AI + Model Spec ile Claude'un davranışı tanımlıdır; müşteri ince ayarla bu tanımı bozmasın.

Pratik: Claude kullanıyorsan prompt mühendisliği + RAG + tool calling üçlüsüyle çoğu problemi çöz. İnce ayar için başka modele (Llama 4, Qwen 3.5/3.6, Gemma 3 — açık kaynak) geç.

RLHF, DPO ve hizalama

İleri konu — platformun bu kısmında geçici olarak duracağız. RLHF = Reinforcement Learning from Human Feedback (insan geri bildirimiyle pekiştirmeli öğrenme). İnsan puanlamalarıyla modeli eğitme. Claude'un "zararlı isteği reddetme" refleksi büyük ölçüde bunun sonucudur.

  • PPO (Proximal Policy Optimization) — klasik RLHF algoritması; ayrı bir ödül modeli + pekiştirmeli öğrenme döngüsü; karmaşık + pahalı.
  • DPO (Direct Preference Optimization, 2023) — Stanford grubunun önerisi; PPO'dan kolay, aynı veya daha iyi kalite; ödül modeli + RL döngüsü yerine "iyi cevap / kötü cevap" çiftleriyle doğrudan tercih ayarı. 2025 itibarıyla endüstri standardı — Hugging Face TRL kütüphanesinde DPOTrainer doğrudan kullanılır.
  • KTO (Kahneman-Tversky Optimization, 2024) — DPO'nun bir adım sonrası; çiftler yerine tek tek "iyi/kötü" etiketi yeter; gerçek dünya verisinde DPO'dan daha pratik.
  • ORPO (Odds Ratio Preference Optimization, 2024) — SFT + tercih ayarını tek aşamada birleştirir; pratikte ek aşama gerektirmediği için iş akışı sade.
  • Constitutional AI (Anthropic) — model kendi kendini anayasa metnine göre düzeltir; insan puanlayıcı yanlılığı azalır.
  • RLAIF (RL from AI Feedback) — insan yerine başka bir LLM puanlama; Constitutional AI'in bir alt şekli sayılabilir.

Sen yapmayacaksın büyük olasılıkla. Ama bilmek önemli — mülakatta "RLHF ne?" sorusuna cevap: "İnsan geri bildirimiyle model hizalama; PPO klasik, DPO/KTO/ORPO pratik halefler; Anthropic Constitutional AI bir varyant."

"FT gerektirmez" — %90 iddiasının arkası

Bu platform tekrar tekrar FT'yi erteler. Neden?

  1. Maliyet\(500-\)5000 vs RAG $5-50.
  2. Zaman — hafta vs saat.
  3. Bakım — modelin "çürümesi" (concept drift); 3 ayda yeni data ile yeniden eğit.
  4. Versioning — v1.0, v1.1, v1.2 adapter'ları; hangi müşteri hangi versiyonu kullanıyor.
  5. Infrastructure — GPU inference; CPU yetmez; saat başı maliyet.
  6. İade edilemez — fark ettiğin bug modelin içinde; sistem prompt'ta bug fix kolay, FT modelde yeniden eğitim gerek.
  7. Claude spec — Anthropic'in Model Spec + Constitutional AI disiplini; FT ile bu disiplini bozarsın.

FT doğru seçim olduğunda bile, prompt + RAG denenmiş + yetmediği kanıtlanmış olmalı. 5.2 karar ağacı bu sırayı uygular.

CTO tuzakları — 8 yaygın ince ayar hatası

# Tuzak Sonuç Doğru
1 İlk projede doğrudan ince ayara dalmak $200-500 maliyet, RAG'le aynı sonuç PromptRAG → ince ayar sırası
2 50 örnekle ince ayar Modelin ezberlemesi (overfitting) Minimum 200-500 örnek
3 Kalitesiz veri ile çok örnek Gürültülü model 200 temiz > 5000 kirli
4 Tam ince ayar "kulağa hoş" diye dene $5K-10K donanım LoRA/QLoRA yeter
5 İnce ayar sonrası değerlendirme yok "Daha iyi mi?" bilinmez Ayrı test seti + benchmark
6 Üretime ince ayar modelini doğrudan koymak Bakım cehennemi A/B test + kademeli yayılım
7 Claude'u ince ayar etmek için yol aramak Resmi yol yok (genel kullanım için) Prompt + RAG + tool = eşdeğer
8 "Her alan için ayrı ince ayar" 50 adaptör, hangi müşteri hangisinde? Tek genel ince ayar + RAG ile niş
Tipik ince ayar hataları — şu durum şu çözüm
Hata Sebep Çözüm
CUDA out of memory (eğitim sırasında) VRAM yetmiyor Batch size düşür (1-2), gradient accumulation kullan; QLoRA'ya geç
Eğitim loss düşmüyor (sabit kalıyor) Learning rate çok düşük veya veri çok az LR'yi 10 kat artır; 200+ örnekli veriyle dene
Eğitim loss düşüyor ama val loss artıyor Modelin ezberlemesi (overfitting) Epoch sayısını azalt; veri ekle; LoRA rank'i düşür
İnce ayar sonrası model "saçmalıyor" Yıkıcı unutma (catastrophic forgetting) Tam ince ayar yerine LoRA; öğrenme oranını düşür
bitsandbytes import hatası CUDA / sürücü uyumsuz pip install bitsandbytes --upgrade; CUDA 12.x sürücü kontrol et

Anthropic ekosistemi — neden Claude FT zor?

🤖 Anthropic-öz: Claude FT filozofisi

Anthropic'in Claude modelleri için public fine-tuning'i 2026 itibarıyla sınırlıdır. Bu eksik değil tasarım tercihi:

1. Constitutional AI tutarlılığı

Claude'un Model Spec tanımlı davranış listesi içerir (zararlı isteği reddetme, dürüstlük, kullanıcı güvenliği). FT bu tanımı bozabilir. Müşteri "benim için FT edin" derse, Anthropic şöyle sorar: "Hangi Model Spec maddesi sana çelişki yaratıyor? Belki yanlış yoldasın."

2. Alternatifler yeterli

Sistem promptu + few-shot + tool calling + prompt caching dörtlüsü, 200K-1M token bağlam alanı (Sonnet 4.6 / Opus 4.7 = 1M; Haiku 4.5 = 200K) ve yapılandırılmış çıktı (structured output) disiplini ile çoğu ince ayar senaryosunu karşılar. 1M bağlam + cache okuma yaklaşık base × 0.1 (yaklaşık %90 ucuz) = büyük örnek seti prompt'a sığar.

3. Model güvenlik sorumluluğu

Anthropic RSP (Responsible Scaling Policy) modeli davranış garantisi verir. FT sonrası bu garanti bozulabilir — müşteri bug'ı Anthropic'e değil müşterinin kendisine ait olur. Tarafsız hiyerarşi.

4. Claude için gerçekçi alternatifler

Claude FT gerekiyor mu diyorsun? Dene:

  1. Structured output + tool calling — davranış şemasını sen kontrol et, model değil.
  2. System prompt "Model Spec override""Sen [müşteri] stilinde yaz: tonça [özellik], asla [yasaklı]."
  3. Few-shot caching — 20-50 örnek system'de, cache_control ile %90 indirim.
  4. RAG + instruction — müşteri data'sı RAG'e, davranış kuralları prompt'a.

Bu dört teknik bir araya gelince FT'nin %80-95'ini karşılar.

5. Alternatif model yolları

İnce ayar kesinlikle gerekliyse:

  • Llama 3.1 / 3.2 (Meta) — 1B, 3B, 8B, 70B, 405B; açık ağırlık (yoğun mimari, ince ayar için en yaygın)
  • Llama 4 (Meta, 2026) — Scout (17B aktif / 109B toplam), Maverick (17B / 400B), Behemoth (288B / 2T); MoE mimarisi (uzman ekonomisi farklı)
  • Qwen 3.5 / Qwen 3.6 (Alibaba) — Çince + İngilizce + Türkçe güçlü; Qwen 3.5 açık ağırlık, 3.6-Plus kapalı
  • Gemma 3 (Google) — 2B, 9B, 27B
  • Mistral 7B / Mixtral 8x7B / Codestral 25.08 — yoğun + MoE karması
  • DeepSeek V3.2 — 671B parametre (37B aktif MoE), kod + akıl yürütme güçlü, açık ağırlık

Bu modelleri kendi sunucunda barındır + ince ayar et. Claude'la hibrit: hassas/karmaşık sorgu → Claude API; niş/ince-ayar gerektiren → kendi model.

Sonuç: Claude'u ince ayar edememek eksik değil; sistemi doğru tasarlama teşviki.

Çıktı kanıtları — 3 kanıt

📏 Çıktı — 3 kanıt

1. Üç tekniği karşılaştırma özetin:

muhendisal-notlarim/bolum-5/01-finetune-nedir/3-teknik-karsilastirma.mdPrompt + RAG + FT tablosu. Her teknik için: ne zaman, ne kadar, hangi araç, hangi maliyet.

2. Kendi projenden karar:

9.4 RAG Chatbot veya 9.5 Agent için — "FT gerekli mi? Neden gerekli / gereksiz?" 1 paragraf analiz.

3. Maliyet simülasyonu:

Kendi düşünceli bir proje (imkanlı — müşteri destek FT) için QLoRA + 1000 örnek senaryosu maliyet çıkar. Veri hazırlama saati × $30/saat + GPU saati × $2. Toplam gerçekçi rakam.

Görev — 30 dk karar refleksi

🎯 Görev — FT gereksizliğini kanıtla (kendi projende)
  1. 9.4 RAG Chatbot için 3 teknikten hangisi uygundu — prompt, RAG, FT?
  2. FT gerekli olsaydı maliyet + süre + bakım yükü ne olurdu?
  3. Aynı davranışı prompt + RAG ile çözdüğün için neler kazandın?
  4. muhendisal-notlarim/bolum-5/01-finetune-nedir/analiz.md dosyasına yaz.

Başarı kriteri: 30 dakika sonra kendi projenden somut örnekle "FT %90 projede gereksiz" tezini kendi sesinle savunabiliyorsun. Mülakatta bu soru gelince hazırsın.

🔗 Birlikte okuma — neden ne oldu
  1. **A → B:** AI Engineer'ın model öğretme araç kutusu 3 parça: prompt + RAG + FT; her biri farklı problem için. Bu yüzden **araç seçimi önce.**
  2. **B → C:** Fine-tune 3 biçim: tam FT (enterprise-only), LoRA (adapter, tek GPU), QLoRA (4-bit + tüketici GPU). Bu yüzden **kaynak kısıtı belirleyici.**
  3. **C → D:** Instruction tuning %95 geliştiricinin yaptığı FT; chat format modern standart. Bu yüzden **büyük olasılıkla instruction FT yapacaksın.**
  4. **D → E:** Veri 200-2000 örnek optimum; miktar yerine kalite + çeşitlilik. Bu yüzden **veri kalitesi hiperparametreden önemli.**
  5. **E → F:** QLoRA $0-10 (Colab) vs tam FT $5K-50K — 1000× fark. Bu yüzden **çoğu proje QLoRA ile başlamalı.**
  6. **F → G:** Araçlar: HF Transformers + PEFT + TRL + Unsloth + Axolotl ekosistemi. Bu yüzden **ekosistemi tanımak zaman kazandırır.**
  7. **G → H:** Managed: OpenAI/Vertex/Bedrock var; Anthropic public FT sınırlı — Constitutional AI tutarlılığı için. Bu yüzden **Claude FT yerine RAG tercih et.**
  8. **H → I:** 'FT gerektirmez' %90 iddiası 7 nedenle: maliyet, zaman, bakım, version, infra, geri alınamaz, Claude Model Spec. Bu yüzden **FT kararını ertelemek çoğu zaman doğru.**

Sonuç: Fine-tuning kavramı netti — 3 biçim + maliyet + araç + "%90 gerektirmez" gerekçe. Sonraki (5.2): karar ağacı — 10 kriter + 5 senaryo üzerinde "hangisini seçerim?" refleksi.

➡️ Sonraki adım

5.2 Karar Ağacı — Hangisini Seçmeli → — 10 kriter + 5 somut senaryo + hybrid yaklaşım.

Bölüm 5 girişi  |  Ana sayfa  |  Bölüm 4 — RAG

Pekiştirme: Hugging Face PEFT docs + LoRA paper (2021) + QLoRA paper (2023). Üçünü 2-3 saatte tara; FT kavramı kemikleşir.

MühendisAl Platform — Sözlük (Glossary)

Bu dosya pre_build.py hook'u tarafından her sayfaya otomatik eklenir.

Markdown abbr extension bu tanımları alıp terimin her geçtiği yerde

HTML <abbr title="..."> sarımı yapar → MkDocs Material tooltip gösterir.

DİKKAT: abbr case-sensitive. "Agent" tanımı "agent" kelimesini sarmaz.

Bu yüzden hem büyük hem küçük harf varyantları ayrı tanımlanır.

Yeni terim eklerken: *[TERIM]: Açıklama — tek satır, 160 karakterden kısa

Terimler alfabetik (büyük harf), hemen altında küçük harf varyantı.