Lumiere beş saniyeye kadar oldukça gerçekçi ya da yüksek kaliteli video klipler oluşturabiliyor. Model, ne görmek istediğinize ilişkin doğal dil metin istemlerine yanıt olarak hareketsiz görüntüleri veya bunların yalnızca bazı bölümlerini canlandırabiliyor. Google Research tarafından geliştirilen proje, tek bir model geçişinde bir videonun tüm zamansal süresini oluşturmak için tasarlanmış çığır açan bir Uzay-Zaman U-Net mimarisi sunuyor.
Video üretiminde çağ atlandı
Uzak ana kareler oluşturan ve ardından zamansal süper çözünürlük sağlayan mevcut video modellerinin aksine Lumiere, küresel zamansal tutarlılığı daha ulaşılabilir kılan benzersiz bir yaklaşım benimsiyor. Mimari, önceden eğitilmiş bir metinden görüntüye difüzyon modeli ile birlikte uzamsal ve zamansal aşağı/yukarı örnekleme içeriyor.
Bu, Lumiere’in birden fazla uzay-zaman ölçeğinde işleyerek doğrudan tam kare hızında, düşük çözünürlüklü bir video üretmesine olanak tanıyor. Türkçesi ise şu: Önceki modeller genellikle bir başlangıç ve bir bitiş karesi oluşturan ve ardından arada ne olacağını tahmin etmeye çalışıyordu. Lumiere ise bunu tek seferde oluşturuyor.
Lumiere ile herhangi bir görüntünün stilini klonlamak ve daha sonra bu stili kullanarak başka konularda bir marka ajansından çıkmış olabilecek kadar benzer görünen ve hissettiren bir dizi video oluşturmak mümkün.
Ek olarak kaynak materyaldeki her şeyi Lego’ya, origamiye veya çiçeklere dönüştürmek gibi sınırları zorlayan görevleri de yapmak mümkün. Aslında en etkileyici kısım ise materyalin istediğiniz bir kısmını doldurabilmeniz. Lumiere o alanı o kadar güzel bir şekilde otomatik olarak doldurur ki, bakmasanız muhtemelen farkına bile varmazsınız.
Şimdilik sadece bir araştırma projesi
Öte yandan Google, Lumiere’in çoklu çekimler veya geçişler içeren sahneler içeren videolar oluşturmak için tasarlanmadığını belirterek aracın sınırlamalarına da ışık tutuyor. Google ekibine göre, bu husus gelecekteki araştırmalar için açık bir zorluk olmaya devam ediyor. Ayrıca, model piksel uzayında çalışan bir metinden görüntüye (T2I) modeli üzerine inşa edildiğinden, yüksek çözünürlüklü görüntü üretimi için uzamsal bir süper çözünürlük modülü gerektiriyor.
Şimdilik Lumiere, Google’ı telif hakkı, yanlış bilgilendirme, güvenlik, nefret söylemi, çıplaklık, mahremiyet ve diğer her türlü politikaya hizmet etmek için sistemi agresif bir şekilde kısırlaştırmak zorunda kalmaktan kurtaran bir araştırma projesi konumunda. Ancak özetle, Google’ın Lumiere projesi, videolarda gerçekçi ve tutarlı hareket sentezlemeye yönelik yeni bir yaklaşım sunarak metinden videoya yapay zeka üretiminde bir devrim anlamını taşıyor.