អ្នកនិយាយខ្មែរចូលចិត្តសម្លេង។ ឥឡូវនេះ API អានឲ្យស្ដាប់វិញ។

កាលពីពីរឆ្នាំមុន យើងបានធ្វើការភ្នាល់មួយអំពីប្រទេសកម្ពុជា៖ ថាសម្រាប់ប្រទេសមួយដែលអក្ខរក្រមមានប្រវែង ៧៤ តួអក្សរ សម្លេងមិនមែនគ្រាន់តែជាមុខងារបន្ថែមទេ — វាគឺជាផ្ទៃប្រទាក់ដ៏ពិត។ មនុស្សមិនវាយអក្សរខ្មែរនៅលើទូរស័ព្ទទេ ព្រោះប្លង់ក្ដារចុចគឺដូចជាការធ្វើដំណើរទៅប្រទេសក្រៅរាល់ពេលដែលអ្នកឈោងទៅរកវា។ ពួកគេនិយាយ។ ដូច្នេះយើងបានបង្កើត API បំប្លែងសម្លេងទៅជាអក្សរ ដែលអាចស្ដាប់ភាសាខ្មែរបានយ៉ាងពិតប្រាកដ ដូចដែលម៉ូដែលភាសាអង់គ្លេសត្រូវបានស្ដាប់អស់រយៈពេលមួយទសវត្សរ៍មកហើយ ហើយយើងបានបើកឱ្យអ្នកគ្រប់គ្នាប្រើ។

ប៉ុន្តែការសន្ទនាដំណើរការទាំងសងខាង។ API ដែលគ្រាន់តែស្ដាប់ គឺជាកន្លះនៃរង្វិលមួយ។ វេជ្ជបណ្ឌិតដែលនិយាយកត់ត្រាការពិនិត្យជំងឺ ចង់ឱ្យវាអានឡើងវិញដើម្បីបញ្ជាក់។ កម្មវិធីដឹកជញ្ជូនដែលទទួលបញ្ជាតាមសម្លេង ចង់និយាយបញ្ជាបន្ទាប់ចេញជាសម្លេង។ វេទិកាសិក្សាតាមអនឡាញដែលបំប្លែងមេរៀនទៅជាអក្សរ ចង់អានចម្លើយឡើងវិញជាសម្លេង។ សម្រាប់ពួកគេទាំងអស់គ្នា កន្លះដែលបាត់គឺដូចគ្នា៖ គ្មានមធ្យោបាយបំប្លែងអក្សរខ្មែរត្រឡប់ទៅជាសម្លេងខ្មែរធម្មជាតិវិញទេ។ សម្លេងគឺជាក្ដារចុច ប៉ុន្តែក្ដារចុចនោះគ្មានចម្លើយ។

ឥឡូវនេះ វាមានចម្លើយហើយ។ ការបំប្លែងអក្សរខ្មែរទៅជាសម្លេង ឥឡូវនេះដំណើរការហើយ ហើយយើងកំពុងបើកឱ្យប្រើ។

អ្វីដែលយើងបានដាក់ឱ្យដំណើរការ

សម្លេងពីរ ចេញនៅថ្ងៃដំបូង។ Sovann និង Puthi គឺជាសម្លេងខ្មែរធម្មជាតិ ដូចមនុស្ស — មិនមែនជាការអានរាបស្មើដូចមនុស្សយន្ត ដែលធ្លាប់ត្រូវបានចាត់ទុកជាការសំយោគសម្លេងខ្មែរកន្លងមកនោះទេ ប៉ុន្តែជាសម្លេងដែលមានលំនាំ និងភាពកក់ក្ដៅដូចមនុស្សពិតកំពុងអានឱ្យអ្នកស្ដាប់។ Sovann ជាសម្លេងលំនាំដើម រីឯ Puthi នៅត្រឹមការចុចមួយ។ ទាំងពីរនិយាយបានទាំងភាសាខ្មែរ និងភាសាអង់គ្លេស ដូច្នេះប្រយោគលាយ — ឈ្មោះផលិតផលនៅទីនេះ លេខនៅទីនោះ — ចេញមកស្ដាប់ទៅដូចជាអ្នកនិយាយម្នាក់ មិនមែនប្រព័ន្ធពីរដែលដេរភ្ជាប់គ្នាទេ។

API គឺជាAPIដែលអ្នកចេះហៅរួចហើយ។ ការបំប្លែងអក្សរទៅជាសម្លេងស្ថិតនៅ POST /api/v1/tts ហើយវាមានរូបរាងដូចអ្វីៗផ្សេងទៀតដែលអ្នកធ្លាប់ប្រើពីអ្នកផ្ដល់ម៉ូដែលសម័យទំនើប។ ផ្ញើ JSON — { text, voice } — ជាមួយកូនសោ ds_sk_ ដដែលដែលអ្នកប្រើសម្រាប់ការបំប្លែងសម្លេងទៅជាអក្សររួចហើយ នោះអ្នកនឹងទទួលបានស្ទ្រីម audio/mpeg៖ ជា MP3 ធម្មតាដែលអ្នកអាចសរសេរទៅជាឯកសារ ដាក់ទៅ <audio> ឬដាក់ចូលក្នុងប្រព័ន្ធទូរស័ព្ទ។ ការឆ្លើយតបផ្ទុកបឋមកថា x-audio-duration-seconds ដូច្នេះអ្នកដឹងច្បាស់ថាឯកសារសម្លេងវែងប៉ុន្មាន មុនពេលអ្នកចាក់វាសូម្បីតែមួយបៃ។ ការបញ្ចូលត្រូវបានកំណត់ត្រឹម ១២០០ តួអក្សរក្នុងមួយសំណើ — វែងគ្រប់គ្រាន់សម្រាប់កថាខណ្ឌមួយ ខ្លីគ្រប់គ្រាន់ដើម្បីរក្សាភាពយឺតឱ្យស្មោះត្រង់ — ហើយស្រោមកំហុសដដែលដែលអ្នកស្គាល់ (text_too_long) ប្រាប់អ្នកនៅពេលអ្នកលើសកំណត់។

ការគិតថ្លៃនៅតែសាមញ្ញ ព្រោះវានៅតែរួបរួម។ ការបំប្លែងសម្លេងទៅជាអក្សរ និងការបំប្លែងអក្សរទៅជាសម្លេង ទាញចេញពីអាងនាទីសម្លេងតែមួយ។ នាទីដែលអ្នកចំណាយលើការបំប្លែងបទសម្ភាសន៍ និងនាទីដែលអ្នកចំណាយលើការបញ្ចេញសម្លេងចម្លើយ ចេញពីឧបករណ៍វាស់ដូចគ្នា លើគម្រោងដូចគ្នា ក្រោមកូនសោដូចគ្នា។ គ្មានផលិតផលទីពីរដែលត្រូវកំណត់ថ្លៃ គ្មានការជាវដាច់ដោយឡែក គ្មានផ្ទាំងគ្រប់គ្រងថ្មីដែលត្រូវរៀនទេ។ បើអ្នកវាស់ STT រួចហើយ អ្នកក៏វាស់ TTS រួចហើយដែរ។

អ្នកអាចសាកល្បងវាមុនពេលចុះឈ្មោះអ្វីទាំងអស់។ កន្លែងសាកល្បងផ្ដល់ឱ្យអ្នកនូវការសំយោគឥតគិតថ្លៃចំនួនបីលើក ដោយគ្មានគណនី — វាយអក្សរខ្មែរ ជ្រើសរើសសម្លេង ចុចចាក់ ស្ដាប់វា។ នៅពេលអ្នកត្រៀមរួច គណនីមួយបំប្លែងការសាកល្បងបីលើកនោះទៅជាគម្រោងឥតគិតថ្លៃពិតប្រាកដ ដែលមានកូតាប្រចាំខែ ហើយគម្រោងបង់ប្រាក់កើនឡើងពីនោះ លើកាបូបប្រាក់ដូចគ្នានឹងការប្រើប្រាស់បំប្លែងសម្លេងទៅជាអក្សររបស់អ្នក។

នេះមានសារៈសំខាន់ ព្រោះគ្មាននរណាម្នាក់ផ្សេងធ្វើវាទេ។ ElevenLabs មិនផ្ដល់សម្លេងខ្មែរកម្រិតផលិតកម្មទេ។ ការបំប្លែងអក្សរទៅជាសម្លេងរបស់ Google និង Azure មានចុះឈ្មោះភាសាខ្មែរ ប៉ុន្តែអ្នកណាដែលធ្លាប់បញ្ចូលអក្សរខ្មែរពិតប្រាកដ ដឹងច្បាស់ថាលទ្ធផលនៅឆ្ងាយប៉ុណ្ណាពីអ្វីដែលអ្នកនឹងហ៊ានដាក់នៅមុខអតិថិជន។ ស្ថានភាពពិតរបស់ទីផ្សារគឺថា គ្មានការបំប្លែងអក្សរខ្មែរទៅជាសម្លេងកម្រិតផលិតកម្មទេ — រហូតមកដល់ពេលនេះ។ យើងមិនព្យាយាមយកឈ្នះក្រុមហ៊ុនយក្សលើការសំយោគពហុភាសាទូទៅទេ យើងព្យាយាមធ្វើជា API តែមួយ ដែលចាត់ទុកភាសាខ្មែរជាភាសាថ្នាក់ទីមួយ ជំនួសឱ្យគ្រាន់តែជាប្រអប់ធីកមួយ។

ហើយវាបើកនូវអ្វីៗដែលសម្លេងពិតជាមានប្រយោជន៍។ ប្រព័ន្ធឆ្លើយតបសម្លេងស្វ័យប្រវត្តិ ដែលឆ្លើយអ្នកទូរស័ព្ទជាភាសាខ្មែរពិតតាមពេលវេលាជាក់ស្ដែង ជំនួសឱ្យរង្វិលថតទុកជាមុន។ ការអានជំនួយសម្រាប់អ្នកដែលមិនអាច — ឬមិនចង់ — សម្លឹងអក្សរ ៧៤ តួនៅលើអេក្រង់តូច។ វេទិកាសិក្សាតាមអនឡាញដែលបញ្ចេញសម្លេងមេរៀន ដូច្នេះសិស្សនៅភូមិមួយដែលមានទូរស័ព្ទរួមគ្នាតែមួយ អាចស្ដាប់ជំនួសឱ្យការអាន។ ទាំងនេះមិនមែនជារឿងសម្មតិកម្មដែលយើងសង្ឃឹមថានរណាម្នាក់នឹងបង្កើតទេ ពួកវាជាហេតុផលដែលអ្នកអភិវឌ្ឍន៍បានស្នើសុំយើងចាប់តាំងពីថ្ងៃដែល STT បានដំណើរការ។

សាកល្បងវា

សាកល្បងបំប្លែងអក្សរខ្មែរទៅជាសម្លេង — វាយប្រយោគខ្មែរ ជ្រើសរើស Sovann ឬ Puthi ហើយស្ដាប់វាអានឡើងវិញ។ មិនចាំបាច់ចុះឈ្មោះ សាកល្បងឥតគិតថ្លៃបីលើក។

មើលតម្លៃ — អាងនាទីសម្លេងតែមួយ គ្របដណ្ដប់ទាំងការបំប្លែងសម្លេងទៅជាអក្សរ និងការបំប្លែងអក្សរទៅជាសម្លេង ចាប់ពីគម្រោងឥតគិតថ្លៃឡើងទៅ។

អានការណែនាំចាប់ផ្ដើមរហ័ស TTS — សំយោគឯកសារសម្លេងដំបូងរបស់អ្នកពី curl, Python ឬ Node ក្នុងរយៈពេលប្រហែលប្រាំនាទី។

ជាវកំណត់ហេតុការផ្លាស់ប្ដូរ — យើងចេញផ្សាយជាបាច់សម្គាល់ ការបំប្លែងអក្សរទៅជាសម្លេងគឺជាបាច់ថ្មីបំផុត។

ជាវតាមអ៊ីមែល — មួយអ៊ីមែលក្នុងមួយការចេញផ្សាយ គ្មានចរាចរណ៍ផ្សេងទៀត ឈប់ជាវបានគ្រប់ពេល។

ហេតុអ្វីយើងធ្វើវា

យើងជាក្រុមតូចមួយ ហើយគោលដៅរបស់យើងមិនដែលផ្លាស់ប្ដូរទេ៖ ធ្វើជា API សម្រាប់សម្លេងខ្មែរ — ពីដើមដល់ចប់។ មិនមែនជាក្រុមហ៊ុនសម្លេងធំបំផុត មិនមែនជាក្រុមហ៊ុនដែលមានថវិកាម៉ូដែលជ្រៅបំផុតទេ ប៉ុន្តែជាក្រុមហ៊ុនដែលអ្នកអភិវឌ្ឍន៍នៅភ្នំពេញអាចឈោងទៅរក ហើយទុកចិត្តថានឹងដោះស្រាយភាសាផ្ទាល់ខ្លួនរបស់ពួកគេបានត្រឹមត្រូវ ក្នុងទិសដៅទាំងពីរ។ ការបំប្លែងសម្លេងទៅជាអក្សរ បានធ្វើឱ្យកម្មវិធីអាចស្ដាប់កម្ពុជាបានទីបំផុត។ ការបំប្លែងអក្សរទៅជាសម្លេង ធ្វើឱ្យវាអាចឆ្លើយតបវិញ។ គ្រប់កម្រិតគម្រោង គ្រប់ចំណុចបញ្ចប់ គ្រប់បន្ទាត់នៃឯកសារ ត្រូវបានក្រិតតាមសំណួរតែមួយ៖ តើនេះធ្វើឱ្យវាកាន់តែងាយស្រួលសម្រាប់នរណាម្នាក់នៅទីនេះ ក្នុងការដាក់ចេញសម្លេងខ្មែរនៅក្នុងកម្មវិធីរបស់ពួកគេឬទេ? ការអានឆ្លើយតបវិញ គឺជាកន្លះដែលបាត់នៃចម្លើយនោះ។ ឥឡូវនេះ វាជារបស់អ្នកដើម្បីបង្កើត។

សម្លេងគឺជាក្ដារចុច — ឥឡូវវាឆ្លើយតបមកវិញ។

— ក្រុម Doslarb