# Görüntü Anlama (Image Understanding)

## 🎯 TL;DR
Çok modlu yapay zeka, görsel verileri metin veya ses gibi diğer bilgi türleriyle birleştirerek görüntü anlama yeteneğini geliştirir. Bu sayede yapay zeka modelleri, görüntüleri daha kapsamlı bir şekilde yorumlayabilir, nesneleri ve eylemleri tanırken bağlamı da anlayabilir.

## 📚 Anahtar Kavramlar
-   **Multimodal AI** → Çok Modlu Yapay Zeka (Farklı veri türlerini (metin, görüntü, ses) birleştiren yapay zeka.)
-   **Image Understanding** → Görüntü Anlama (Yapay zekanın bir görüntünün içeriğini yorumlama ve anlamlandırma yeteneği.)
-   **Visual data** → Görsel Veri (Görüntülerden veya videolardan elde edilen bilgi.)
-   **Context** → Bağlam (Bir bilginin veya olayın anlamını belirleyen çevreleyici koşullar.)
-   **Descriptive captions** → Açıklayıcı Altyazılar (Bir görüntüyü veya videoyu tanımlayan metinler.)

## 🔍 Detay (Orijinal İngilizce)
Multimodal AI enhances image understanding by integrating visual data with other types of information, such as text or audio. By combining these inputs, AI models can interpret images more comprehensively, recognizing objects, scenes, and actions, while also understanding context and related concepts. For example, an AI system could analyze an image and generate descriptive captions, or provide explanations based on both visual content and accompanying text.

Visit the following resources to learn more:

- [@article@Low or High Fidelity Image Understanding - OpenAI](https://platform.openai.com/docs/guides/images)

## 🔗 Daha Detay İstersen
roadmap.sh ekibinin seçtiği kaynaklar:
- 📖 [Low or High Fidelity Image Understanding - OpenAI](https://platform.openai.com/docs/guides/images) — OpenAI'dan görüntü anlama yeteneklerini açıklayan bir makale.