मोबाइल टेक्स्ट-टू-स्पीच इंजन की समीक्षा

छवि यदि आपकी मूल भाषा अंग्रेजी नहीं है और आप केवल आईफोन के लिए एप्लिकेशन नहीं लिखते हैं, तो यह आपके लिए मुश्किल होगा, यदि आप तथाकथित विकास के लिए सही उपकरण ढूंढना चाहते हैं मोबाइल आवाज सक्षम अनुप्रयोगों।



यह समीक्षा एक वर्गीकरण प्रदान करती है और तरह के मोबाइल टीटीएस इंजन के सबसे योग्य का वर्णन करती है।



मैं दृश्य हानि वाले लोगों के लिए मोबाइल डिवाइस इंटरफेस के डिजाइन में अनुसंधान करता हूं। मेरी एक परियोजना को लागू करने के लिए, मुझे बहु-भाषा समर्थन (कम से कम दो भाषाओं - अंग्रेजी और रूसी) के साथ एक आवाज उत्पादन इंजन की आवश्यकता थी। यह एक भाषण सिंथेसाइज़र की खोज का कारण था।



सुविधा के लिए, हम टीटीएस इंजन को तीन वर्गों में विभाजित करते हैं:

वाणिज्यिक इंजन



SVOX मोबाइल टीटीएस
SVOX लोगो

कीमत: n / a

भाषाएँ: 26, रूसी सहित

ध्वनि की गुणवत्ता का विशेषण मूल्यांकन: उच्च

मोबाइल ओएस: एंड्रॉइड, सिम्बियन, विंडोज सीई / विंडोज मोबाइल, BREW

वाणिज्यिक उत्पादों को विकसित करने का अवसर: हाँ



SVOX कंपनी का सबसे "तकनीकी रूप से स्वादिष्ट" उत्पाद है - SVOX मोबाइल टीटीएस । हालांकि, चूंकि कंपनी मुख्य रूप से बी 2 बी सेगमेंट में काम करती है, उन्होंने कभी भी मेरे दो पत्रों का जवाब नहीं दिया।



एकपिला टीटीएस
एकपिला लोगो

मूल्य: 2800 € प्लस तथाकथित रन-टाइम लाइसेंस, जिसके लिए, सबसे अच्छी स्थिति में, आपको प्रत्येक सामान्य आवेदन के लिए 49 € का भुगतान करना होगा

भाषाएँ: 23, रूसी सहित

ध्वनि की गुणवत्ता का विशेषण मूल्यांकन: उच्च

मोबाइल ओएस: सिम्बियन, विंडोज सीई / विंडोज मोबाइल, एंबेडेड लिनक्स, आईओएस

वाणिज्यिक उत्पादों को विकसित करने का अवसर: हाँ



अकापेला समूह के कर्मचारी बहुत अधिक मिलनसार निकले और इस आवेदन को भरने के आधे घंटे के बाद जवाब दिया



हेडर में संकेतित मूल्य विंडोज मोबाइल और सिम्बियन जैसे ऑपरेटिंग सिस्टम को संदर्भित करता है, हालांकि, अकापेला बिजनेस मॉडल चुने गए ओएस के आधार पर भिन्न होता है। उदाहरण के लिए, वे आईओएस की दिशा का सबसे दृढ़ता से प्रचार करते हैं, जिसके लिए एक अलग साइट बनाई गई है। वहां आप रजिस्टर कर सकते हैं और मुफ्त में उनके इंजन का मूल्यांकन संस्करण प्राप्त कर सकते हैं। पूर्व iPhone ओएस के लिए नंगे एसडीके की कीमत 250 € है। इसके अलावा, ऐप स्टोर में आपके द्वारा बेची जाने वाली प्रत्येक एप्लिकेशन के लिए, काफी प्रतिशत निकाल दिया जाता है।



मैं ध्यान देता हूं कि एकैपेला "क्लाउड" भाषण संश्लेषण प्रदान करता है, साथ ही साथ एसडीके को किसी भी प्लेटफॉर्म पर पोर्ट करता है।



Loquendo एंबेडेड टीटीएस
Loquendo लोगो

मूल्य: € 3,000 से अधिक प्रत्येक मोबाइल एप्लिकेशन पर ब्याज जो आप बेचते हैं।

भाषाएँ: 26, रूसी सहित

ध्वनि की गुणवत्ता का विशेषण मूल्यांकन: उच्च

मोबाइल ओएस: एंड्रॉइड, सिम्बियन, विंडोज सीई / विंडोज मोबाइल, एंबेडेड लिनक्स, आईओएस, मैमो, मोबलिन, मीगो, पामओएस

वाणिज्यिक उत्पादों को विकसित करने का अवसर: हाँ



Loquendo इंजन में विशेष टैग होते हैं जो आपको भाषण को और अधिक स्वाभाविक बनाने की अनुमति देते हैं, जैसे कि कफिंग, हँसी और बहुत कुछ जैसे "भाषण" चिप्स में मिश्रण नहीं।



उनका इंजन W3C द्वारा अनुशंसित SSML 1.0 के विनिर्देशों को पूरा करता है



सक्रमस टेटस
सक्रमस लोगो

मूल्य: एक ओएस के लिए 1500 €, एक बार में दो भाषाओं के लिए पैकेज खरीदते समय, 25% की छूट प्रदान की जाती है, जो 2250 € है

भाषाएँ: अंग्रेजी, रूसी

ध्वनि की गुणवत्ता का विशेषण मूल्यांकन: औसत

मोबाइल ओएस: सिम्बियन, विंडोज मोबाइल

वाणिज्यिक उत्पादों को विकसित करने का अवसर: हाँ



Sakrament टीटीएस भाषण संश्लेषण की गुणवत्ता फोन नंबर या एप्लिकेशन नाम जैसे छोटे वाक्यांशों को आवाज देने के लिए काफी है। एसडीके के सभी संस्करणों का विवरण यहां पाया जा सकता है



नि: शुल्क इंजन



Flite
कीमत: नहीं

भाषाएँ: अंग्रेजी प्लस फेस्टवॉक्स भाषाओं को संकलित करने की क्षमता

ध्वनि की गुणवत्ता का विशेषण मूल्यांकन: कम

मोबाइल ओएस: एंड्रॉइड, विंडोज सीई / विंडोज मोबाइल, आईओएस, पामओएस

वाणिज्यिक उत्पाद विकसित करने की क्षमता: हाँ ( CMU लाइसेंस )



फेस्टिवल स्पीच सिंथेसाइज़र डेस्कटॉप दुनिया में अच्छी तरह से जाना जाता है। इसमें मोबाइल उपकरणों और एम्बेडेड सिस्टम के लिए फ़लाइट नामक एक पोर्ट है, जो अपने स्वयं के X11 जैसे लाइसेंस के तहत वितरित किया जाता है, जो आपको इस सॉफ़्टवेयर को किसी को भी स्वतंत्र रूप से वितरित करने की अनुमति देता है, साथ ही इसके आधार पर वाणिज्यिक और मुफ्त दोनों अनुप्रयोगों का निर्माण करता है। विंडोज सीई / विंडोज मोबाइल , पामओएस, एंड्रॉइड और आईओएस के लिए पोर्ट हैं।



eSpeak
eSpeak लोगो

कीमत: नहीं

भाषाएँ: 39, रूसी सहित

ध्वनि की गुणवत्ता का विशेषण मूल्यांकन: औसत

मोबाइल ओएस: एंड्रॉइड, विंडोज सीई / विंडोज मोबाइल

वाणिज्यिक उत्पाद विकास क्षमता: कोई नहीं ( GNU GPL )



WM के लिए इंजन को संकलित करने के निर्देश वितरण में शामिल हैं, लेकिन इस प्लेटफॉर्म पर eSpeak की एक महत्वपूर्ण सीमा है - वॉइस जेनरेशन केवल एक WAV फ़ाइल में संभव है। विंडोज मोबाइल के लिए संकलित टीटीएस इंजन यहां प्राप्त किया जा सकता है



eSpeak को Android पर पोर्ट किया गया है । कोशिश करने का सबसे आसान तरीका एंड्रॉइड मार्केट से टीटीएस सेवा विस्तारित एप्लिकेशन इंस्टॉल करना है, जो आपको अंतर्निहित इंजन और एप्सक के बीच स्विच करने की अनुमति देता है। यह टीटीएस इंजन जीएनयू जीपीएल की शर्तों के तहत वितरित किया गया है।



एंबेडेड समाधान



एंबेडेड समाधान केवल सिम्बियन और एंड्रॉइड में मौजूद हैं। किसी अज्ञात कारण से, Microsoft ने उपयुक्त सॉफ़्टवेयर इंटरफ़ेस (MS SAPI) के अपने मोबाइल OS को छीन लिया है।



सिम्बियन
सिम्बियन लोगो

कीमत: नहीं

भाषाएँ: अंग्रेजी

ध्वनि की गुणवत्ता का विशेषण मूल्यांकन: बेहद कम

वाणिज्यिक उत्पादों को विकसित करने का अवसर: हाँ



सिम्बियन फाउंडेशन का बिल्ट-इन TTS CMdaAudioPlayerUtility क्लास में छिपा है। हालाँकि उनका प्रलेखन इस बारे में कुछ नहीं कहता है, फिर भी यह आपको भाषण को संश्लेषित करने की अनुमति देता है । दुर्भाग्य से, रूसी भाषा समर्थित नहीं है। अंग्रेजी भाषण पीढ़ी की गुणवत्ता बहुत कम है। तैयारी के बिना, यह समझना काफी मुश्किल है कि उसने क्या कहा।



अतिरिक्त भाषा पैक यहां डाउनलोड किए जा सकते हैं , लेकिन समर्थित फोन की सूची बेहद छोटी है। Symbain OS S60 5th चलाने वाले डिवाइस पर रूसी भाषा के लिए पैकेज स्थापित करने से अपेक्षित परिणाम नहीं मिले, बिल्ट-इन TTS ने रूसी नहीं बोला।



मैं ध्यान देता हूं कि एनएसएस टीटीएस यूटिलिटी एपीआई नामक एपीआई का काफी सुविधाजनक विस्तार है, जिसका विवरण यहां पाया जा सकता है



एंड्रॉयड
Android रोबोट

कीमत: नहीं

भाषाएँ: अंग्रेजी, फ्रेंच, जर्मन, इतालवी, स्पेनिश

ध्वनि की गुणवत्ता का विशेषण मूल्यांकन: औसत

वाणिज्यिक उत्पादों को विकसित करने का अवसर: हाँ



एंड्रॉइड में अंतर्निहित भाषण संश्लेषण कार्यक्षमता 1.6 संस्करण से उपलब्ध है। डेवलपर ब्लॉग पर विषय का शानदार परिचय पाया जा सकता है। एंड्रॉइड टीटीएस एपीआई एसवीओएक्स पिको पर एक आवरण से अधिक कुछ नहीं है, एक रूसी भाषा जो दुर्भाग्य से, समर्थित नहीं है।



निष्कर्ष



विकसित किए जा रहे उत्पाद की आवश्यकताओं के आधार पर सभी को निष्कर्ष निकालना होगा। वाणिज्यिक समाधानों के लिए, भाषण संश्लेषण की गुणवत्ता अत्यंत महत्वपूर्ण है, इसलिए आपको दो इंजनों से चुनना चाहिए - एकपिला टीटीएस और लोक्वेडो एंबेडेड टीटीएस। ओपन सोर्स प्रोजेक्ट के लिए इंजन चुनते समय, लक्ष्य ओएस की सूची एक अत्यंत महत्वपूर्ण भूमिका निभाएगी।



व्यक्तिगत रूप से, मैंने eSpeak को चुना, क्योंकि मेरी परियोजना अकादमिक है और मैं GNU GPL के तहत लाइसेंस प्राप्त उत्पाद का उपयोग कर सकता हूं।



All Articles