Watson Konuşma-Metin incelemesi: En iyi yüksek hacimli transkripsiyon hizmeti? gözden geçirmek

Watson, IBM’in doğal dilini işleyen bilgisayar sistemidir. Ünlü soruya cevap veren süper bilgisayara ve Watson Speech to Text dahil bir dizi AI tabanlı kurumsal ürüne güç veriyor. Watson Speech to Text incelememizde sesi ölçekte metne dönüştürmek isteyen herkes için ideal olan, çevredeki en iyi konuşma-metin uygulamalarından birine göz atacağız.

Watson konuşma işleme platformu IBM Cloud’da mevcuttur. Çok yönlü bir araçtır ve dikte ve konferans araması transkripsiyonu da dahil olmak üzere birçok bağlamda kullanılabilir. Dahası, diğer konuşma-metin uygulamalarının aksine, API olarak kullanılabilir ve geliştiricilerin bunu sesli kontrol sistemlerine dahil etmelerine izin verir..

Watson Metinden Konuşmaya: Planlar ve fiyatlandırma

Ayda 500 dakikaya kadar ses işlemek için Watson Speech to Text uygulamasını kullanabilirsiniz. Bundan daha fazlasını dönüştürmek istiyorsanız, her bir sesli dakika için ödeme yapmanız gerekir ve ücret, işlenen sesin süresine göre değişir. Maliyetler dakikada 0,01 ile 0,02 dolar arasında değişir ve IBM’in Özel Dil Modeline ihtiyacınız varsa dakikada 0,03 dolar ek ücret alınır. Premium yalnızca teklif veren Watson planları da mevcuttur ve bunlar gelişmiş veri gizliliği özelliklerine ve çalışma süresi garantilerine erişim sağlar.

Watson’ın konuşmadan metne hizmeti, kopyalamanız gereken içerik hacmine göre fiyatlandırılır. (Resim kredisi: IBM)

Watson Speech to Text sistemine genel amaçlı bir IBM Cloud aboneliği aracılığıyla da erişebilirsiniz. Doğal dil işleme, IBM Cloud aracılığıyla alabileceğiniz çok çeşitli AI hizmetlerinde yalnızca bir uygulamadır, bu nedenle bu, yüksek hızlı veri aktarımlarına, sohbet botlarına veya metinden konuşmaya araçlarına erişmesi gereken herhangi bir kuruluş için iyi bir seçenektir.

Watson Metinden Konuşmaya: Özellikler

Esnek API entegrasyonu ve diğer önceden oluşturulmuş IBM araçları sayesinde, Watson konuşma tanıma hizmeti temel transkripsiyonun çok ötesine geçer. Örneğin, bir müşteri hizmetleri bağlamında kullanmak istiyorsanız, Watson Assistant doğal dil sorularını doğrudan işleyecek veya telefondaki soruları cevaplayacak şekilde ayarlanabilir.

Watson’da IBM, zengin özelliklere sahip doğal dil işleme platformunu bir araya getirdi. (Resim kredisi: IBM)

Watson 11 dilde canlı sesle çalışır ve sesleri önceden kaydedilmiş çeşitli formatlarda içe aktarabilir. Gerçek zamanlı tanılama desteği akış sırasında Watson’ın kullanıcılardan mikrofonlarına yaklaşmalarını veya ortamlarını değiştirmelerini isteyebileceği anlamına gelir. Yine etkileyici olan şey, hala beta testine tabi tutulan bir özellik olan Hoparlör Diarization sayesinde, paylaşılan bir konuşmada Watson’ın farklı konuşmacılar arasında ayrım yapabilmesidir..

Watson Metinden Konuşmaya: Kurulum

Watson’ı kullanmak için yapmanız gereken ilk şey bir IBM Bluemix hesabı oluşturmaktır. Kayıt olmak ücretsiz ve ağrısızdır, sadece bir e-posta adresi ve şifre gerektirir. Giriş yaptıktan sonra, Metinden Konuşmaya hizmeti için hesabınıza bir hüküm eklemeniz gerekir. Bu aşamada, kendi kayıtlarınıza kaydetmeniz gereken birkaç kimlik bilgisi verilecek.

Watson’ın tüm özellik kümesine erişmek için bir IBM Bluemix hesabına kaydolmanız gerekir. (Resim kredisi: IBM)

Bunu yaptıktan sonra, işler önemli ölçüde daha karmaşık hale gelir. Watson’a erişmek için, bu kimlik bilgilerini bir grup istemci tekdüzen kaynak bulucu (cURL) koduna eklemeniz ve ardından makinenizde çalıştırmanız gerekir. Tam olarak hangi komutu arayacağınızı öğrenmek için bu kullanışlı kılavuza göz atın. Alternatif olarak, Watson sisteminin tüm bu çemberleri atlamak zorunda kalmadan ne kadar iyi çalıştığını görmek istiyorsanız, bunun yerine IBM’in demo sitesinde deneyebilirsiniz.

Watson Metinden Konuşmaya: Arayüz

Tüketiciye dönük ses-metin uygulamalarının aksine, Watson’ın hizmetlerine API’ler ve diğer sistemlere yerleştirilmiş kodlar aracılığıyla erişilecek şekilde tasarlanmıştır. Bu nedenle gerçek bir Watson yok “arayüz”. Bunun yerine Watson’a üç farklı internet protokolü üzerinden erişilebilir. Bunlar WebSockets, REST API ve Watson Developer Cloud’dur.

Watson Speech to Text, Watson Developer Cloud sistemi üzerinden yönetilebilir. (Resim kredisi: IBM)

Watson’ı kontrol etmek için, bu üç rotadan biri aracılığıyla IBM’in bulutuna bağlanan bir komut satırı aracı kullanmanız gerekir. Watson ile etkileşime giren son kullanıcının, geliştirme ekibinizdeki bir kişi tarafından ayrı ayrı oluşturulması gerekir..

Watson Metinden Konuşmaya: Performans

Genel olarak, bu doğal dil işleme platformunun gerçek konuşmayı işleme biçiminden etkilendik. Watson’ı, çeşitli zorlu ortamlarda kaydettiğimiz kliplerin yanı sıra Watson’ın 11 desteklenen dillerinden bazılarında verilen ünlü konuşmaların ses kayıtlarını yazmak için kullandık.

Watson’un önceden kaydedilmiş konuşmayla iyi performans gösterdiğini gördük. (Resim kredisi: IBM)

Çok fazla arka plan gürültüsü olan klipler için hatalar daha sık artmasına rağmen, genel olarak Watson inanılmaz derecede doğru sonuçlar verdi. Testlerimizden, beklenmedik hataların ortalama 150 kelimede bir gerçekleştiğini tahmin ediyoruz. Bununla birlikte, değerlendirmemiz sırasında birkaç kez ayrı bir ses ayrı konuşmacılar olarak yanlış etiketlendiği için Watson’ın Konuşmacı Diarizasyon özelliğinin neden BETA testinde kaldığı netleşti.

Watson Metinden Konuşmaya: Destek

IBM kaynak merkezi, Watson’ı kendi kullanım durumunuza nasıl uygulayacağınızı daha iyi anlamak için birçok belge sunar. Watson geliştirici topluluğu tarafından oluşturulan ve GitHub’a gönderilen API entegrasyonlarını ve SDK’ları da kullanmaya değer.

Watson API GitHub sayfası Watson Speech to Text hizmeti için iyi bir destek kaynağıdır. (Resim kredisi: IBM)

Sorununuzun çözümünü burada bulamazsanız, bir destek bileti açarak veya telefonla iletişim kurarak doğrudan IBM’e ulaşabilirsiniz. Premium Watson paketlerinden birini seçtiğiniz sürece, Watson kullanımınız Hizmet Düzeyi Çalışma Süresi sözleşmesi ile korunacaktır.

Watson Metinden Konuşmaya: Son Karar

Kuruluşunuzda IBM Watson Speech to Text platformunu sisteminize düzgün bir şekilde entegre etmek için bilgi ve kaynaklara sahipse, gerçek zamanlı ses ortamı tanılama ve ara aktarma sonuçları gibi gelişmiş işlevlerden yararlanacaksınız. Bununla birlikte, küçük işletmeler ve kuruluşlar Watson’ı düzgün bir şekilde kurmanın teknik zorluğu ile mücadele edecek.

Rekabet

IBM Watson Speech to Text hizmeti, toplu konuşma hizmetleri Google Cloud Speech to Text ve Amazon Transcribe için doğrudan bir rakiptir. Bunların her ikisi de Google Cloud transkripsiyonu ile, örneğin dakika başına 0,006 $ ‘dan başlayan Watson’dan çok daha ucuzdur. Her üç hizmet de özelleştirilmiş sözcük dağarcığı gibi benzer işlevleri paylaşır, ancak bir özellik IBM Watson’dan eksiktir, ancak her iki rakipte de kullanılabilen otomatik noktalama tanıma.

Başka bir metin okuma çözümü mü arıyorsunuz? En iyi konuşma metni yazılım kılavuzumuza göz atın.