Google Cloud Speech-to-Text API - Конвертирайте аудиото в текст

Google Cloud Speech-to-Text API - Конвертирайте аудиото в текст

Продължаваме с нашите статии от поредицата за Machine Learning API-тата на Google

Тук можете да си припомните статията ни за Google Cloud Talent Solution - AI за търсене и откриване на работа, с помощта на изкуствен интелект. 

Преди нея пък ви разказахме повече за това как функционира и може да се прилага в обозримо бъдеще Google Cloud Natural Language API за SEO.

Дойде ред и на анализа на изображения. В статията Google Cloud Vision API - Анализ на изображения - ви показахме колко мощен може да е този “инструмент”, предоставящ безкрайни възможности за приложение, особено в комбинация с библиотеките на Python.

Продължавайки сюжетната линия на Google API-тата, последно ви дадохме полезна информация за видео съдържанието, а именно - Google Cloud Video Intelligence API - Вашите видеоклипове по-откриваеми.

В настоящата статия ще разгледаме Google Cloud Speech API и неговите основни характеристики и функционалности.

Съдържание:

1. Какво представлява Google Cloud Speech-to-Text API

Google Cloud Speech-to-Text ви позволява да конвертирате аудио в текст с помощта на мощни модели на невронни мрежи в API.

API-то на този етап разпознава над 120 езика. Можете да активирате гласово управление и да презаписвате аудио от контакт центрове за обаждания и други. То може да обработва вашата информация поточно или при предварително записано аудио в реално време, като се използват отново технологиите за машинно обучение на Google.

Основни характеристики и възможности:

  • Автоматично разпознаване на речта;
  • Разпознава над 120 езика (и вариации) с много голям речник;
  • Поддръжка в реално време;
  • Многоканално разпознаване;
  • Работи с шумен звук от много среди.

Можете да изгледате и официалното видео разяснение на Google:

2. Основна документация и характеристики

Приложенията тук отново са много и от най-различно естество. Ще разгледаме основните характеристики:

  • Конвертиране на кратки аудио файлове - тук се обработват заявки на кратки аудио файлове (по-малко от 1 минута) и превръщане на речта в текст. Тук трябва да се вземе предвид, че име определени звукови ограничения за тези заявки. Допълнителна информация тук.

  • Конвертиране на дълги аудио файлове - тук с помощта на асинхронно разпознаване на речта могат да се конвертират аудио файлове по-дълги от минута. Аудио съдържанието може да се изпраща директно като текст и да се запазва в Google Cloud Storage. Допълнителна информация тук.  

  • Обработка на аудио в реално време - поточното разпознаване на речта ще ви позволи да получавате резултати от обработката на речта в реално време, докато аудиото се обработва. Малко по-трудно е за имплементация, но е нещо, което със сигурност е доста интересно и ще получи голямо приложение в бъдеще. Допълнителна информация тук.

Тук също се осигурява поддръжка на широк спектър от езици като Go, C#, Java, PHP, Node.js, Python, Ruby

3. Направете вашите сайтове още по-достъпни

Google Text-to-Speech превръща в текст всяка една дума. Може да използвате API-то и неговите човешки гласове WaveNet. 

Text-to-Speech създава сурови аудио данни от естествена човешка реч. Т.е. eдин вид се създава аудио, което звучи като човек, който говори. На разположение е богат избор от персонализирани гласове, които можете да избирате от “Текст в реч”. Гласовете могат да се различават пo език, пол и акцент. Някои езици имат дори и няколко гласа за избор. Можете да видите списък с поддържаните гласове, но на този етап все още няма български език. 

Cloud Speech-to-Text също предлага гласове, които се генерират с помощта на модела WaveNet. Това е същата технология, която се използва за създаване на реч за Google Assistant, Google Search и Google Translate. Технологията WaveNet осигурява повече от просто серия синтетични гласове: тя представлява нов начин за създаване на синтетична реч. 

WaveNet генерира реч, която звучи по-естествено от другите системи за текст в реч. 

Независимо дали сте автор или някоя компания, когато пишете, вашата цел е да създадете стойност за своите потребители и да изградите връзки с аудиторията си. Благодарение на това API можете да създадете различно приложение в зависимост от ситуацията. Можете да правите аудио записи на публикациите във вашия блог. По този начин можете да разпространявате съдържание в множество формати. Прочетете допълнително тук. 

4. Разпознаване на реч в контактните центрове

Контактните центрове са от решаващо значение за много предприятия и правилните технологии играят много важна роля, като им помагат да предоставят изключителни грижи за клиентите. Google все повече насърчава предприятията да използват изкуствен интелект в тяхната работа (допълнителна информация тук). 

Редица актуализации са в основата на AI и по-специално в Dialogflow и Cloud Speech-to-Text . Те са:

  • Автоматично адаптиране на речта в диалогов поток - все още е в бета версия. Това подобрява точността на разпознаване на говора чрез използване на информацията за говорителя и състоянието на разговора като подсказва контекста на речта. Допълнителна информация тук. 
  • Подобрения в разпознаването на реч - тук се има предвид ефективно изграждане на висококачествени интерактивни инструменти за гласово реагиране (IVR), което всъщност е част от плана на Google да предоставя услугите си на Call центровете. Допълнителна информация тук
  • По-богато адаптиране на речта - когато се използва Cloud Speech-to-Text, се прилагат допълнителни параметри, за да се предоставя повече информация, която да направи транскрипцията по-точна. Това е процес, който може да помогне за разпознаването на фрази, които са най-често употребявани. Допълнителна информация тук. 
  • Безкраен стрийминг от реч в текст - трябва да се има предвид, че тази функционалност все още е в бета версия. API-то позволява на разработчиците да започват нова сесия за стрийминг веднага след прекъсването на предишната т.е. ефективно да се превръща в автоматична транскрипция на живо с безкрайна дължина. Допълнителна информация тук
  • Поддръжка на MP3 файлове  - на този етап се поддържат седем различни файлови формата (списък тук). Cloud Speech-to-Text вече поддържа MP3, така че няма да има нужда от допълнителни преобразувания.

5. Как да активираме Cloud Speech-to-Text API

Преди да започнете да използвате API-то на Cloud Vision, трябва да го активирате за вашия проект в Google Cloud платформата:

1. Изберете вашия проект или създайте нов тук.

2. Добавете валиден метод за таксуване във вашия Google Cloud акаунт. Допълнителна информация тук.

Забележка:

Трябва да се има предвид, че всяко едно от ML API-тата на Google се заплаща в зависимост от това каква информация извличате. Цените са символични, но все благодарение на това тези API-та се развиват. 

всяко едно от ML API-тата на Google се заплаща тяхното използване в зависимост от това каква информация извличате

 

3. Активирайте API на Speech-to-Text тук. 

Активирайте API на Speech-to-Text


4. Настройте си удостоверяване:

  • В Cloud конзолата отидете на Creative service account key страницата тук;

В Cloud конзолата отидете на Creative service account key страницата тук

  • Кликнете на Create и продължете напред;

Кликнете на Create и продължете напред

  • След това въведете някакво име (нещо, което ще е разпознаваемо) в Service account name полето и от Role менюто изберете Project>Owner;

От Role менюто изберете Project > Owner

  • Накрая кликнете върху Continue и после на Create на .JSON файла, който ще съдържа вашите ключове на вашия компютър.

Накрая кликнете върху Continue и после на Create на .JSON файла, който ще съдържа вашите ключове на вашия компютър

След това накрая кликнете върху създаването на .JSON файла, който ще съдържа вашите ключове на вашия компютър.

Както казахме, Speech-to-Text API осигурява поддръжка за широк спектър от езици като Go, C#, Java, PHP, Node.js, Python, Ruby

6. Заключение

Трябва да се има предвид, че много голяма част от функционалностите на Cloud Speech-to-Text API-то все още са в бета версия. Приложение може да е наистина голямо, но “инструмента” може да претърпи голямо развитие в бъдеще. 

Вече се правят най-различни опити и експерименти за внедряването на AI в контакт центровете. Най-интересният опит, на който попаднахме, е възможността за записването на текст от телефонно обаждане на живо в браузъра ви с помощта на Twilio и Google Speech-to-Text с Node.js. Повече за експеримента тук. 

Допълнителни източници на информация:

  • Записване на реч в текст с Speech-to-Text API - тук;
  • Разпознаване на реч с помощта на Python - тук.
31
4
19
Открихте грешка? Маркирайте я и натиснете Ctrl + Enter.