Google, Gemini platformuna Lyria 3 müzik modelini entegre etti. Sistem, metinleri ve görsellerden saniyeler içinde sözlü besteler oluşturuyor.
Google, üretken yapay zekâ alanındaki genişlemesini bu kez müzik üretimi tarafına taşıdı. Gemini, artık yalnızca metinleri ve görsel oluşturmuyor; yazılan komutları ve yüklenen fotoğrafları doğrudan şarkıya dönüştürüyor. Bu adımın merkezinde ise Google DeepMind imzası taşıyan Lyria 3 mekan alıyor.
Google DeepMind, bugüne kadarki en gelişmiş müzik modeli olarak başlıkmlandırdığı Lyria 3’ü küresel ölçekte erişime açtı. Böylece Gemini uygulaması, masaüstünde müzik üretim özelliğini etkin hâle getirdi. Mobil başvuru desteğinin ise önümüzdeki günlerde gelmesi planlanıyor. Kullanıcılar gemini.google.com üzerinden özelliği doğrudan deneyebiliyor.
Model, metinleri ve görsel girdileri birlikteki işleyebilen çok modlu tek sistemle çalışıyor. Bu sayede yalnızca yazılan tek komut değil, yüklenen tek fotoğraf da müzik üretiminin parçası hâline geliyor. Örneğin tek koru yürüyüşü fotoğrafı yüklendiğinde sistemleri sahnenin atmosferini çözümleme ediyor ve buna elverişli tek beste oluşturuyor.
Bununla birlikteki Lyria 3, sıradan tek metni saniyeler içinde sözlü ve besteli tek parçaya dönüştürüyor. Bir alışveriş listesi, kısa tek ileti ya da gündelik tek konuşma doğrudan rap formatında üretilebiliyor. “Cips, soda, çikolata, ekmek ve yoğurt” gibi basit tek liste, ritimli tek şarkı sözüne dönüşüyor.
Gemini, Lyria 3 ile metinleri ve görselden şarkı üretir
Lyria 3 üç ilköğretim özellikle öne çıkıyor. İlk olarak Otomatik Şarkı Sözü sistemi devreye giriyor ve verilen emir elverişli sözleri doğrudan oluşturuyor. Böylece kullanıcı ayrıca söz kaleme saha güçunda kalmıyor.
İkinci olarak model, BPM (tempo), müzik tarzı ve vokal detayları üzerinde denetim sunuyor. Kullanıcı tempo değerini belirliyor, türü seçiyor ve vokal karakterini madde ediyor. Ardından modeller bu parametrelere elverişli tek beste üretiyor.
Üçüncü olarak sistem, görsel yardımli üretimi etkin biçimde kullanıyor. Gemini, yüklenen fotoğrafın renk tonlarını, ortamını ve bağlamını çözümleme ediyor. Daha sonraları bu çözümleme doğrultusunda müzikal atmosferi belirliyor. Böylece görsel ile sesli arasında doğrudan tek ilişki kuruluyor.
Üretilen her arasında biri 30 saniyelik parça için özel tek başlık görseli hazırlanıyor. Nano Banana altyapısı, bu başlık tasarımlarını otomatik oluşturuyor. Kullanıcılar parçayı ve görseli indiriyor ya da bağlantı üzerinden paylaşıyor.
Google, içerik doğrulama tarafını da sistemin içine entegre ediyor. Üretilen tüm sesli dosyaları SynthID sayısal filigranı ile işaretleniyor. İnsan kulağı bu damgayı algılamıyor; bununla birlikte sistem, dosyanın yapay zekâ üretimi olduğunu teknikleri olarak doğruluyor.
Bununla da sınırlı kalmıyor. Gemini, dışarıdan yüklenen tek sesli dosyasını çözümleme ediyor ve Google AI tarafından üretilip üretilmediğini denetim ediyor. Model, hem SynthID imzasını tarıyor hem da öz çözümleme mekanizmasını devreye alıyor.
Lyria 3; İngilizce, Almanca, İspanyolca, Fransızca, Hintçe, Japonca, Korece ve Portekizce bulunmak üzere 8 dilde sunuluyor. Özellik, 18 yaş ve üzeri kullanıcılara açık şekilde çalışıyor. Google AI Plus, Pro ve Ultra aboneleri daha yüksek kullanım limitlerine erişiyor.
Google, diller içerikını ve üretim kalitesini genişletmeyi planlıyor. Böylece yapay zekâ müzik üretimi, metinleri ve görsel üretiminin yanında üçüncü tek içerik katmanı olarak Gemini içinde yerini alıyor.
Teknoblog, teknolojiler gündemini farklı platformlarda düzenli biçimde paylaşıyor. WhatsApp kanalında öne çıkan haberleri anlık olarak aktarıyor, Google Haberler üzerinden güncel içerikleri sunuyor, Instagram ve X hesaplarında ilgi çeken başlıkları özetliyor, YouTube kanalında ise ürün ttesirkleri ve detaylı anlatımlarla içeriği tamamlıyor.

1 saat önce
1























.png?format=webp&width=1200&height=630)

English (US) ·