Videolarınıza Yapay Zeka İle Altyazı Ekleyin (%91.7 Doğruluk Payı İle)

Esenlikler üzerinize olsun dostlar, videonuza altyazı koymak istiyorsunuz ama siz de benim gibi üşengeç birisi misiniz? O zaman Yapay Zeka kullanarak işleri hızlandırmaya ne dersiniz?

GPT-3 ve GPT-4’ün de yaratıcısı olan OpenAI şirketi yaklaşık 1 sene önce Whisper isimli Sesten yazıya Dönüştürme (Speech-to-Text) yapabilen tamamen açık kaynak bir Yapay Zeka modelini yayınladı.

Kullanımı biraz meşakkatli olsa da Türkçe dili için yaklaşık %91.7 oranında doğruluk payıyla transkript yapabilme kapasitesine sahip (Kıasacı Google ve diğer rakiplerinden çok daha iyi). Diğer diller için hata payını merak ediyorsanız altta vereceğim grafiğe bakabilirsiniz;

Elimde sadece CPU (İşlemci) olduğu için için CPU ile çalışan bir yöntem göstereceğim ancak elinizde CUDA destekleyen GTX 970 ve üzeri bir Nvidia ekran kartı varsa GPU seçeneğini de aktif edebilirsiniz. Zaten program Python’da ki C parametrelerine port edildiğinden hızlı çalışıyor bu yüzden endişeniz olmasın.

Önemli Not: Bu kurulum yollarını Ubuntu tabanlı Zorin OS’te ve sanal makinede ki bir Windows’ta test ettim. Aşağı yukarı diğer Linux dağıtımlarında da mevzu aynıdır zaten, bir eksik ya da hata görürüseniz eklemekten çekinmeyin. Wiki gönderisi olarak yayınlayacağım.

Hazırsanız başlayalım;

Faster-Whisper ile Whisper’ı Kullanmak

OpenAI bu modeli ilk yayınladığı zaman Python dili ile PyTorch kullanarak yazılmıştı, sadece Nvidia Ekran Kartı olan insanlar daha iyi performans alıyorlardı. Bazı kişiler bu Yapay Zeka modelini C dilinde ki parametreler ile çalışabilecek şekilde Python kodunu optimize ettiler (binding). Böylece Ekran Kartı olmayan insanlar (benim gibi) yüksek bir performansla kullanabilir hale geldi. Bu Yapay Zeka’yı Linux ve Windows için nasıl kullanacağınızı göstereceğim, Yapay Zeka’da normalde arayüz bulunmamakta ancak biz 3. parti bir web arayüzü kullanacağız (Whishper). İşlemlerin daha sağlıklı ve kullanıcı dostu olması için.

Bu arayüzün bazı özellikleri şu şekilde;

  • YouTube’dan veya desteklenen (yt-dlp tarafından desteklenen) başka türlü herhangi bir siteden video indirme desteği.
  • Birden fazla formatla transkriptin çıktısını alma olanağı (SRT, VTT, TXT, JSON)
  • Web Arayüzünden tüm altyazıda ki hataları düzeltme olanağı. (Uzun olan yerleri ikiye ayırma ya da kısa olanları alttakiyle birleştirme)
  • CPS (Character Per Second) yani saniye başı kaç harf var bilgisi.
  • Nvidia GPU (Ekran Kartı) sahipleri için GPU ile çalıştırma olanağı
  • Sadece CPU (İşlemci) sahipleri için CPU ile çalıştırma olanağı
  • Tüm Yapay Zeka model dosyaları önceden yüklü geliyor

Dikkat: Makinenizde Docker kurulu olmalı. Linux kullananlar kendi dağıtımlarına göre Docker’ı kursunlar (docker-compose eklentisini kurmayı unutmayın yoksa script hata verecektir), Windows kullananlar için kurulum aşamalarını ben kendim göstereceğim.

İşletim sisteminize göre adımları takip edebilirsiniz.

Linux Kurulumu ve Kullanımı

Eğer ki Docker kuruluysa ve çalışıyorsa işleme başlayabilirsiniz. Kontrol etmek için şu komutu yazabilirsiniz;

docker --version

Terminaliniz de şu şekil bir çıktı varsa Docker sıkıntısız kurulu demektir;

Linux-Script-1

Hazırsanız kurulum scriptini indirelim, bunun için kurulum dosyalarının kurulacağı dizine gidin ve terminale şu komutu yazın;

curl -fsSL -o get-whishper.sh https://raw.githubusercontent.com/pluja/whishper/main/get-whishper.sh

Bu gerekli kurulum scriptini indirecektir. Daha sonra inen scripti şu komutla çalıştıracaksınız;

bash get-whishper.sh

Script size kurulum esnasında bazı sorular soracak, genelde “y” diye diye gitmeniz gerekiyor ancak bilgisayarınızın durumuna göre bazı soruları farklı şekilde yanıtlayabilirsiniz.

Script ilk olarak bulunduğumuz dizine kurmak isteyip istemediğimizi soruyor, direkt olarak “y” diyebilirsiniz script kendisi halleder.

Eğer ki “n” derseniz sizden dosya yolunu belirtmenizi isteyecek. Daha önce oluşturulmamış bir dosya ismiyle kurmak istediğiniz dizinin yolunu yazın. Aynen örnekte ki gibi şu şekilde;

/home/user/whisper

Daha sonrasında size GPU versiyonunu kullanmak istiyor musunuz diye soracak. Eğer ki GTX 970 sonrası bir Nvidia Ekran kartınız varsa muhtemelen sıkıntısız çalışacaktır “y” diyebilirsiniz. Eğer ki ekran kartınız AMD ise ya da herhangi bir ekran kartınız yoksa CPU versiyonunu kullanmanız gerek (benim gibi) “n” demeniz gerekecektir.

Daha sonra size herhangi bir sudo şifresi sorarsa girin sormazsa script size docker imajını şimdi çekip çekmemesi gerektiğini soracak, “y” diyin buna. Ayrıca gerekli komponentleri indirene kadar da bekleyin.

İndirdikten sonra son olarak script size konteynırları şimdi başlatmak isteyip istemediğinizi soruyor buna da “y” diyin ve başlatmasını bekleyin.

Bu işlemler benim yaklaşık 3 Dakika 47 saniyemi aldı. Bu aşamadan sonra script sonlanacak. Ve aktif olmuş olacak program. Programa tarayıcınıza “localhost:8082” yazarak erişmeniz mümkün. Adrese girdiğiniz de bir arayüz çıkacak, nasıl bir kullanımı olduğunu öğrenmek istiyorsanız “Arayüz ve Kullanımı” bölümüne atlayıp bakabilirsiniz.

Windows Kurulumu

Dipnot: Programın henüz GPU özelliği Windows için açık değil. İşlemci bazlı olarak kullanmak durumundasınız.

Windows’ta kurulum ekstra bir kaç adım istiyor, Docker denen bir konyetnır sistemini kurmanız gerek. Ve bu sistemi kurmak içinse WSL (Windows Subsystem for Linux) denen ayrı ve Linux çalıştırmaya yarayan ek bir sistemi bilgisayarınıza kurmanız gerekecek. Hazırsanız öncelikle WSL’in kurulumu ile başlayalım. Uygulamalarınızdan Powershell’i bulun ve yönetici olarak çalıştırın.

Daha sonra komut arayüzüne şunu yazın;

wsl --install

Çıkan uyarılara “Evet” demeyi unutmayın ve kurulumun bitmesini bekleyin. Yaklaşık 5-7 dakika arası sürecektir. Bittikten sonra Powershell’i kapatabilirsiniz sonradan ihtiyacımız olmayacak Şimdi Docker’ı kurma vakti.

Windows İçin Docker Kurulumu

Bu linkten gerekli program olan “Docker Desktop” programını indirin. Şu şekilde bir sayfası olmalı;

Buradan "Download for Windows"a tıklayarak indirin. İnen exe dosyasını yönetici olarak çalıştırın. Daha sonra kurulum ekranında “Ok” tuşuna basın.

Kurulum işlemi başlayacaktır, ortalama 5-10 dakika arası sürebilir. Kurulum bittikten sonra program sizden Windows oturumundan çıkıp tekrar girmenizi isteyecektir. Ortada ki mavi butona tıklayarak bu işlemi gerçekleştirin.

Oturum kapandıktan ve siz tekrardan şifrenizi girip giriş yaptıktan sonra bir tane CMD menüsü açılıp WSL’in kurulduğuna dair bilgi verip sonunda “ENTER” demenizi isteyecek. Kapatabilir ya da Enter diyebilirsiniz. Docker porgramı otomatik olarak açılışta başlayacaktır. Lisans sözleşmesini kabul etmenizi isteyecektir bu noktada. “Accept” diyip programa giriş yapabilirsiniz. Eğer ki bir hata verirse bilgisayarı yeniden başlatmayı deneyin. “Docker Desktop” açıldıktan sonra “Starting Docker Engine” diye bir yazı belirecektir o gidene kadar bekleyin.

Bu işlem bittikten sonra (uzun sürebilir) şöyle bir ekranla karşılaşacaksınız;

Windows İçin Whishper Kurulumu

Buraya Github linkini atacağım dosyayı indirin. Dosyayı sağ tıklayıp yönetici olarak çalıştırın (önemli). Docker programının açık olmasına dikkat edin. Program size kurulum için bir takım sorular soracak. Bunları genelde “y” diyerek geçeceğiz ancak bazı yerlerde kendi bilgisayarınıza göre “n” demeniz gerekebilir.

Dosyanın Github Linki

Yukarıda da gösterildiği üzere dosyayı Github sayfasından indirin ve yukarıda belirtildiği üzere sağ tıklayıp yönetici olarak çalıştırın.

İlk olarak program size gerekli dosyaları çalıştırdığın dizine mi koyayım diye soracak. Direkt olarak “y” deyin.

Program gerekli dosyaları indirmeye başlayacak yeni soru sorana kadar kapatmayın ya da başka bir şekilde girdi girmeyi denemeyin. Eğer ki gerekenden fazla bir süre boyunca takılı kaldıysa “Enter” tuşuna bir kez basabilirsiniz. Ama dikkat edin fazladan basmayın.

İkinci olarak program size gerekli imajları indireyim mi diye soracak “y” deyin buna da. Sakın “n” demeyin.

Programın indirmesini bekleyin, eğer ki başlamakta sıkıntı çıkarırsa Docker Desktop uygulaması “Resource Saving” moduna geçmiş mi diye bakın, eğer ki bu duruma geçmişse “Devam Ettir” ikonuna tıklayın.

Windows-10

Daha sonra şöyle bir ekran olmalı CMD uygulamasında;

Bunu gördüyseniz program sıkıntısız çalışıyor demektir. İndirmeler bitip program yeni soru sorana kadar bekleyin. İnternet hızınıza göre süre değişebilir ama yaklaşık 5-10 dakika sürer. İşlem bittikten sonra şu şekilde altta bir soru daha çıkacaktır;

Buna da direkt olarak “y” deyin ve işlemin bitmesini bekleyin. Eğer ki her şey doğru gittiyse gerekli konteynırlar oluşmuştur ve “Docker Desktop” uygulamasına “system32” isminde bir şey gelmiştir. İçinde 6 adet farklı konteynır olmalı. Hepsi çalışır vaziyetteyse tarayıcınıza “localhost:8082” adresini yazıp arayüze giriş sağlayabilirsiniz. Eğer ki sağlayamıyorsanız ya gerekli docker konteynırı açık değil ya da bilgisayarınız çok güçsüz demektir.

Eğer ki konteynır başlamadıysa yukarıda ki şekilde başlatabilirsiniz.

Arayüz ve Kullanımı

Artık her şey hazır, bundan sonra “New Transcription” diyerek yeni proje oluşturabilirsiniz. Butona bastığınızda sizi şöyle bir popup karşılayacak;

Whishper-Arayüz-2

Gördüğünüz üzere bir sürü seçenek var, “Pick a File” ayarından direkt kendi bilgisayarınızda ki video ya da ses dosyasını seçebilrsiniz. Ya da “URL” kısmından herhangi bir YouTube videosunu ya da yt-dlp’nin desteklediği başka sitelerden video da indirtebilirsiniz programa. Dosyanızı seçtikten sonra Whisper modelini ve Video Dil’ini seçmeniz gerek. Şahsen ben “Large-V2” kullanıyorum kaliteden ferâgat etmek istemediğim için. 12 dakikalık bir video için 40 dakika beklemem gerekiyor bu seçenekte, ancak siz medium ya da daha küçük çapta modelleri çalıştırarak zamandan tasarruf edebilrisiniz. Elbette güçlü bir Nvidia Ekran kartınız da varsa çok daha hızlı bir şekilde sonuç alabilirsiniz. Kendiniz modelleri test ede ede kendiniz için uygun ayarı bulursunuz. Bulunan model seçenekleri şu şekilde;

  • tiny
  • tiny.en
  • base
  • base.en
  • small
  • small.en
  • medium
  • medium.en
  • large-v2

Eğer ki Türkçe dili için iyi ve yüksek kalite bir doğruluk istiyorsanız medium ve large-v2 dışı bir şey kullanmanızı tavsiye etmiyorum. Ayrıca “.en” modelleri isminden de anlaşıldığı üzere sadece İngilizce dilini destekliyorlar. Dili otomatik algılama ayarında bırakabilirsiniz yada menüden “tr” seçeneğini seçerek kullanabilirsiniz. Ayrıca “Device” ayarında ise Nvidia ekran kartınız varsa “GPU” yoksa “CPU” seçeneğini seçerek kullanın. Son olarak “Start” derseniz işlem başlayacaktır.

Gördüğünüz üzere işlem başladı, makinenizin durumuna göre süresi değişebilir ancak benim gibi güçsüz bir makineniz varsa gidip işlerinizi falan halledin. Çünkü güçsüzse makineniz hele sadece İşlemciniz varsa oldukça uzun sürüyor. İşlem bitince bar yeşile dönecek ve 4 farklı seçenek olduğunu göreceksiniz;

Whishper-Arayüz-4

İlki edit seçeneği, buradan videoyu izleyebilir ve hataları kontrol edip altyazıyı düzenleyebilirsiniz. Çok uzunsa bir yer ikiye bölebilirsiniz. Ya da bir yer çok kısaysa alttakiyle birleştirebilirsiniz vs. gibisinden. Oldukça güzel bir arayüzü var, eğer ki hata yaparsanız “Ctrl + Z” diyerekten geri de alabilirsiniz. Otomatik kaydetmeyi geri döndürülemez hata yapma ihtimaline karşı kapalı tutmanızı öneriyorum.

Oldukça anlaşılır ve kullanıcı dostu bir arayüzü var. İkinci seçenek altyazıyı indirme seçeneği, şu şekilde bir popup çıkar tıklarsanız;

Whishper-Arayüz-6

Dosya formatını (SRT, VTT, TXT, JSON) seçtikten sonra yeşil butona tıklarsanız bu altyazı dosyasını indirir. Eğer ki videoyu programın URL kısmına link vererek bir yerden indirdiyseniz kırmızı buton ile videonun kopyasını inridebilirsiniz. Çünkü orjinaline erişme imkanınız yok eğer ki kendi bilgisayarınıza indirip programa atmadıysanız. Son olarak bir de Çeviri butonu var ancak o çalışmıyor, en azından ben beceremedim. Diğer buton da silme butonu zaten.

Program böyle bir şey, çok küçük düzenlemeler yaparak siz de oldukça kaliteli bir altyazı elde edebilrisiniz. Eğer ki hala problemli buluyorsanız bazı noktaları edit programınızda ya da Aegisubs ve Subtitle Edit gibi altyazı düzenleme programlarında kendiniz senkronuyla oynayabilirsiniz. Minimum efor ile oldukça kaliteli altyazılar elde etmeniz mümkün.

Performans ve Yapay Zeka Testi

Eğer ki Yapay Zeka’nın nasıl bir performans verdiğini gerçek hayat verileriyle görmek istiyorsanız kendi çabalarımla yaptığım test denemelerine bakabilirsiniz.

Videolardan birisi Argo kelimeler içeriyor, Yapay Zeka’nın anlama kapasitesini zorlamak için yaptığım bir şey. Bu konuda hassassanız “İlk Test” kısmını atlayıp alttaki dieğr iki test videosunu izlemenizi öneriyorum. Argo içeriği olanın hangisi olduğunu aşağıda belirteceğim.

İlk Test

İlk video için aklıma gelip gelebilecek en saçma metni yazıp bunu kendim seslendirdim. Yapay Zeka bu kadar saçma metnine rağmen oldukça iyi bir iş başarabildi. (Metin ve Video argo Kelimeler İçermektedir Hassassanız Lütfen Tıklamayın)

Videoda Okunan Orjinal Metin (Argo İçerir Hassassanız Tıklamayınız)

Naçizane Whisper’ın sınırlarını zorlayan ses kaydı.

Taşikardi hastası Tarkan Seke Seke Revir’e iltica etti,

Orada Gözlerinin Kasnakları yerle yeksan oldu,

Güzeller güzeli, abideler abidesi Akşemsettin efendiyi görmüştü

Tırnaklarından akan topuk kanıyla takırdatanlar kulübüne gitti,

Tarkan artık takırdatanların en takırdatanıydı

Tapar olduğu El artık ona yüz vermez oldu

Sıvaları vurdun mu usta?

Taşikardi’den ödüm kopar benim

Kısık ateş üzeri Genshin Impact yerim.

Dimbılla dımbılla sindirella

sinsirella oldu kül kedisi ya

Ah Tarkan Vah Tarkan

Sen ne ettin de sikilenlerden oldun?

Kasıklarına tekme atarım tarkan

Ah Tarkan Vah Tarkan

Okul Turşu kokuyor,

Turşu Bidonunun icabına bakılsın

Yapay Zeka’nın Çıkardığı Altyazı Videosu (Argo İçerir Hassasssanız İzlemeyiniz):

Videoda ki çıktıyı görmek ve hata payına bakmak istiyorsanız aşağıdan bakabilirsiniz;

Yapay Zeka'nın Transkrip Çıktısı (Argo İçerir)

1
00:00:00,000 → 00:00:05,800

Naçizane, whisperın sınırlarını zorlayan ses kaydı.

2
00:00:05,800 → 00:00:10,800

Taşı kardiyastası Tarkan seke seke revire iltica etti.

3
00:00:10,800 → 00:00:14,800

Orada gözlerinin kasnakları yerle yeksan oldu.

4
00:00:14,800 → 00:00:19,800

Güzeller güzeli, abideler abidesi Akşemseddin Efendi’yi görmüştü.

5
00:00:19,800 → 00:00:24,800

Tırnaklarından akan topuk kanıyla takırdatanlar kulübüne gitti.

6
00:00:24,800 → 00:00:28,800

Tarkan artık takırdatanların en takırdatanıydı.

7
00:00:28,800 → 00:00:31,800

Tapar olduğu el artık ona yüz vermez oldu.

8
00:00:31,800 → 00:00:35,800

Sıvaları vurdun mu usta, taşı kardiden ödüm kopar benim.

9
00:00:35,800 → 00:00:38,800

Kısık ateş üzeri gençin impek diyelim.

10
00:00:38,800 → 00:00:42,800

Dımbılla dımbıll, sindirella, sinsirella oldu kül kedisi ya.

11
00:00:42,800 → 00:00:47,800

Ah Tarkan, vah Tarkan, sen ne ettin de sikilenlerden oldun.

12
00:00:47,800 → 00:00:51,800

Kasıklarına tekme atarım Tarkan, ah Tarkan, vah Tarkan.

13
00:00:51,800 → 00:00:55,800

Okul turşu kokuyor, turşu bidonun icabına bakılsın.

İkinci Test

Bu videoda ise daha normal bir metinle deneme yaptım, doğal olarak çok daha iyi bir performans verdi. Aynı şekilde aşağıdan bakabilirsiniz videoya ve çıktısına.

Videoda Seslendirilen Asıl Metin

Hayretler içindeyiz, uzun süre bekledik
Kırılası dizinizin karşımızda bükülmesini Zira kendimizi sizin kanuni Kralınız saymaktayız. Ve biz öyleysek,nasıl olur da sizin eklemleriniz
Karşımızda gereken saygıyı göstermekten kaçınır?
Öyle değilsek, gösterebilir misiniz bize
Bizi yönetmenliğinden affetmiş olan Tanrının Elini.
Çünkü bilmekteyiz ki, etten ve kemikten yapılmış
Hiçbir el, kutsal asâmıza uzanamaz, meğer ki
Gaspa, hırsızlığa ve inkara yeltenir olsun.
Sizin şimdi yaptığınız gibi hepiniz de sanıyorsunuz ki
Bize sırtınızı çevirmekle ruhlarınızı dışlamaktasınız
Ve bizim sahipsiz ve dostlardan uzak kaldığımızı sanırsınız
Ama unutmayınız ki benim sahibim, her şeye kadir Tanrı
Göklerde özel taun bulutları hazırlamaktadır.
Ve bunların üzerine yağarak daha doğmamış çocuklarınızı
Ve onların da çocuklarını mahvedecektir,
Bizim başımıza karşı yükselen köle ellerinizi
Ve kutsal tacımızın şanına karşı gelen sizleri

Yapay Zekanın Çıkardığı Altyazı Videosu:

Videodaki çıktıyı görmek isterseniz:

Çıktı

1
00:00:00,000 → 00:00:16,000
Hayretler içindeyiz. Uzun süre bekledik. Kralası dizinizin karşımızda bükülmesini. Zira kendimizi sizin kanuni kralınız saymaktayız.

2
00:00:16,000 → 00:00:24,000
Ve biz öyleysek nasıl olur da sizin eklemleriniz karşımızda gereken saygıyı göstermekten kaçınır?

3
00:00:24,000 → 00:00:31,000
Öyle değilsek gösterebilir misiniz bize bizi yönetmeliğinden affetmiş olan Tanrı’nın elini?

4
00:00:31,000 → 00:00:39,000
Çünkü bilmeliyiz ki etten ve kemikten yapılmış hiçbir el kutsal asamıza uzanamaz.

5
00:00:39,000 → 00:00:45,000
Meğer ki gaspa, hırsızlığa ve inkara yeltenir olsun.

6
00:00:45,000 → 00:00:54,000
Sizin şimdi yaptığınız gibi hepiniz de sanıyorsunuz ki bize sırtınızı çevirmekle ruhlarınızı dışlamaktasınız.

7
00:00:54,000 → 00:00:59,000
Ve bizim sahipsiz ve dostlardan uzak kaldığımızı sanırsınız.

8
00:00:59,000 → 00:01:05,000
Ama unutmayınız ki benim sahibim her şeye kadir Tanrı.

9
00:01:05,000 → 00:01:08,000
Göklerde özel taun bulutları hazırlamaktadır.

10
00:01:08,000 → 00:01:15,000
Ve bunların üzerine yağarak daha doğmamış çocuklarınızı ve onların da çocuklarını mahvedecektir.

11
00:01:15,000 → 00:01:23,000
Bizim başımıza karşı yükselen köle ellerinizi ve kutsal tacımızın şanına karşı gelen sizleri.

Üçüncü Test

Son test olarak ise Mennah Şahin’in tekerleme söylediği oldukça da hızlı metin okunan bir videoda nasıl performans gösterdiğini görmek istedim. Oldukça iyi performans verdi. Çok fazla kelimeyi kaçırmış ve yanlış yapmış olsa dahi şahsen ben etkilendim. Arkada müzik vs. çalmasına rağmen bir şeyler çıkarabildi.

Asıl Tekerleme Metni

Örtülü ödenek ödemelerinin örgütlenmesini özürsüzce örseleyen Önder’in öz güvenini öyküleştiren öykücünün ömür törpüsü öyküsüne öylece, öz denetimsiz, özdenlikle öykünüp, önderinin öğretilerini önemsemeyen öksüz Özer’den öldüresiye Öç alan öğütçülerin ölçüsüz öfkesinden, ögrenciler ölüp ölüp dirildi.

Karşılaştırma için Yapay Zeka’nın çıktı metni:

Çıktı

1
00:00:00,000 → 00:00:03,680
Herkese merhaba, daha iyi bir diksiyon için tekerleme okumalarına kaldığımız yerden devam ediyoruz.

2
00:00:03,680 → 00:00:07,840
Sıradaki tekerleme olabildiğince uzun, zor ve içinde bol bol ö harfi olan karmaşık bir tekerleme.

3
00:00:07,840 → 00:00:09,840
Hazır mıyız? O halde derin bir nefes alalım.

4
00:00:09,840 → 00:00:24,280
Örtülü ödemek ödemelerinin örgütlenmesini özürsüzce örseleyen önderin özgüverini öyküleştiren öykücünün ömür törpüsü öyküsüne öylece özdenetimsiz özdenlikle öykülüp önderimin öğretilerini önemsemeyen öksüz özerden öldürülesiye uçalan öykücülerin ölçülsüz öfkesinden öğrenciler ölüp ölüp dirildi.

5
00:00:25,040 → 00:00:31,760
Epey zor bir tekerlemeydi ama elimizden geldiğince hızlı bir şekilde okumaya çalıştık. Sıra sizde efendim. Deneyin, daha fazlası gelecek. Takip edin.

Evet konu bu kadardı. Umarım faydalı bir şeyler yazabilmişimdir. Buraya kadar okuyan herkese teşekkürler. Aşağıdan kullandığım kaynaklara bakabilirsiniz.

Kullandığım kaynaklar ve arayüzün Github sayfası;

Arayüz (Whishper)

Arayüzün Dökümantasyonu

Arayüzün Github Sayfası

Altyapısının (Faster Whisper) Github Sayfası

14 Likes

Şahane rehber eline sağlık. :slight_smile: Ben de KDEnlive üzerinden Whisper’ı kullanıyorum özellike shorts videolarım için. Google Translate ile toplu fotoğraf çevirmek - yusufipek tarafından #5

İstediğim şeylerden birisi Whisper bir cümleyi tamamen uzun bir şekilde yapıyor ve bu da .srt dosyasına hemen yansıyor. Onun yerine .srt içerisinde kısaltabilmek istiyorum mesela her üç kelimede bir ekrana yazı çıksın istiyorum ama onu henüz KDEnlive üzerinden veya senin paylaştığın web arayüzünden de yapamıyoruz galiba.

3 Likes

Ben de Kdenlive’In özelliğini kullanmayı denedim de malesef onlar daha hızlı versiyonları yerine ham olan Whisper’ı kullanıyorlardı. Ekran Kartım olmadığı için sonradan Whisper.cpp’ye geçtim ama onu da full komut arayüzünden kullanmak gerekiyordu en son bu arayüzü buldum. Özellikleri çok iyi, başka bir fork olan Faster Whisper kullanıyor.

Paylaştığım arayüz de splitting özelliği var, ama spesifik olarak her 3 kelime de bir yapamıyor. Ama elle biraz uğraşarak istediğin şekle getirebilirsin sanırsam. Tabi çok fazla test etmedim. Ama uzun olan segmentleri ikiye bölmek Kdenlive’dan daha kolay ondan eminim. Ama senkron için tekrardan bir Kdenlive ile üzerinden geçmek iyi oluyor.

2 Likes

Eline sağlık gayet güzel ve ayrıntılı bir rehber olmuş. Ben bir iki kere ihtiyaç duymuştum, bazen de ihtiyacım olmaya devam ediyor. Bu repo üzerinden hızlıca kullanıp geçiyordum. Tanıttığın projeler daha çok amacına uygun bir şekilde ve iyi hazırlanmış.

Ek olarak docker ile kurulum yaptığında daha fazla kaynak tüketecektir. Eğer cihazdaki kaynak kısıtlı ise docker yerine yerel işletim sisteminiz üzerinde kurulum yapman daha iyi olacaktır.

3 Likes

Çok teşekkür ederim, cihazımda 16GG RAM olduğu için sıkıntısız çalışıyor. Docker’ı daha kolay olduğu için kullanıyorum script onu baz aldığı için, manuel kurulumda elbette mümkün dediğiniz senaryolar için. Windows kullananlar içinse Docker tek seçenek gibi.

Bu projeyi asıl sevme sebebim 16Khz “Wav” sese dönüştürme gerekliliğini otomatik kendi halletmesi. Elbette ffmpeg ile 2 dakikalık bir iş bunu yapmak ama zahmetten kurtarıyor.

Dosya verilmemiş. Ya da ben mi göremiyorum?..

Whisper github sayfasında var. Fakat burada paylaşıldıktan sonra bir güncelleme yapılmış tekrar kurduğumda çalışmıyor.

Harbiden onu unutmuşum, .bat scriptiydi. Github’larında var link olarak ekleyeyim.

Problemi biraz daha açarak anlatabilir misin? Hangi işletim sisteminde denediğin ile birlikte.

Ellerinize sağlık, keşke whisper.cppden de bahsetseydiniz. En üstteki image whisper.cpp çünkü.