Yeni özellik, Gemini API üzerinden geliştiricilerin kullanımına açık. Herhangi bir özel model eğitimi gerektirmeden doğrudan Gemini 2.5 tarafından işleniyor. Yanıtlar JSON formatında sağlanıyor ve aşağıdaki üç bilgiyi içeriyor:
Ümit Solmaz
Google, yapay zekâ alanında çığır açan bir özellikle karşımızda: Gemini 2.5 modeline entegre edilen sohbet tabanlı görüntü bölütleme (chat-based image segmentation) yeteneği, kullanıcıların görsel içerikleri artık doğal dil kullanarak analiz etmesine ve işaretlemesine olanak tanıyor. Bu yenilik, klasik görüntü bölütlemenin "köpek", "araba" veya "ağaç" gibi önceden tanımlı kategorilerine bağımlılığı ortadan kaldırıyor. Yeni Gemini özelliği:
- "Şemsiyeli kişi" gibi ilişkisel sorguları,
- "Oturmayan tüm insanlar" gibi mantık temelli komutları,
- "Dağınıklık" ya da "hasar" gibi soyut kavramları tanıyabiliyor.
Ayrıca, model görüntü içindeki yazıları okuyabiliyor. Örneğin bir vitrin fotoğrafında yer alan "fıstıklı baklava" etiketini doğrudan algılayarak etiketleyebiliyor. Üstelik çok dilli destek sayesinde etiketler Fransızca gibi farklı dillerde de üretilebiliyor.
Pratik Uygulamalar: Görsel Düzenlemeden İş Güvenliğine
Google, bu teknolojinin birçok sektörde kullanım potansiyeli taşıdığına dikkat çekiyor:
Görüntü düzenleme: Tasarımcılar artık fare kullanmadan, sadece "binanın gölgesini seç" gibi komutlarla nesne seçimi yapabilecek.
İş güvenliği: "Şantiyede kask takmayan tüm kişiler" gibi sorgularla, potansiyel ihlaller görselden otomatik tespit edilebilecek.
Sigortacılık: Hasar uzmanları, "fırtına hasarı olan tüm evleri vurgula" gibi komutlarla, uydu görüntülerinden etkilenen binaları hızla tespit edebilecek.
Geliştiricilere Açık ve Ekstra Model Gerektirmiyor
Yeni özellik, Gemini API üzerinden geliştiricilerin kullanımına açık. Herhangi bir özel model eğitimi gerektirmeden doğrudan Gemini 2.5 tarafından işleniyor. Yanıtlar JSON formatında sağlanıyor ve aşağıdaki üç bilgiyi içeriyor:
- box_2d: Seçilen alanın koordinatları
- mask: Piksel seviyesinde bölütleme maskesi
- label: Tanımlayıcı etiket
Google, en verimli sonuçlar için gemini-2.5-flash modelinin kullanılmasını ve thinkingBudget=0 parametresinin ayarlanmasını öneriyor. Google Gemini 2.5, görsel anlama konusunda insan benzeri doğal dil algısını yapay zekâya taşıyor. Artık sadece bir görsele bakmakla kalmıyor, ona konuşarak ne yapması gerektiğini de söyleyebiliyoruz.
İlk Testler Nereden Yapılabilir?
İlk denemeler için iki önerilen adres:
- AI Studio'da Görsel Bölütleme Uygulaması
https://aistudio.google.com/app/apps/bundled/spatial-understanding?showPreview=true&appParams=task%3Dsegmentation-masks&pli=1 - Google Colab Hızlı Başlangıç Notebook’u
https://colab.research.google.com/github/google-gemini/cookbook/blob/main/quickstarts/Spatial_understanding.ipynb#scrollTo=HxHD1miyLWhK