Google Cloud Vision API - Анализ на изображения

Продължаваме с нашите статии за Machine Learning API-тата на Google. Този път ще разгледаме Google Cloud Vision API и ще вникнем в дълбочината на това как точно той може да бъде използван.

Тук можете да си припомните статията ни за Google Cloud Talent Solution - AI за търсене и откриване на работа, с помощта на изкуствения интелект. Инструмент, който в бъдеще ще набира все по-голяма популярност и по-широко приложение.

Преди нея пък ви разказахме малко повече за това как функционира и как може в бъдеще да се прилага Google Cloud Natural Language API за SEO.

Съдържание:

Какво представлява Google Cloud Vision API

Това е един много мощен “инструмент”, който може да ви даде безкрайни възможности за приложение, особено в комбинация с библиотеките на Python. 

Google са внедрили своите модели за машинно обучение в API, за да позволят на разработчиците да използват технологията на Vision API. То може бързо да класифицира изображенията в хиляди категории и да им причислява етикети. Може да се откриват отделни обекти, лица или части от текст в изображението. 

Основните възможности, които притежава, могат да бъдат разделени в следните категории:

  • откриване на лица/етикети;
  • определяне на популярни места и лога на продукти;
  • откриване на забележителности;
  • откриване на атрибутите на снимката;
  • разпознаване на съдържанието.

Можете да изгледате и официалното видео представяне от Google:

Анализирайте вашите изображения

Може да си направите малък експеримент като разгледате част от възможностите на API-то в официалната документация на Cloud Vision

След като предоставите изображение, то ви дава цялата информация за него:

След като предоставите изображение, то ви дава цялата информация за него

Vision API открива доста факти за изображението. Представете си същия ефект върху милиони или дори милиарди изображения. Това несъмнено би било доста ползотворно. В следващата точка ще разгледаме подробно характеристиките и възможностите на API-то, които виждаме в горепосочения пример. 

Характеристики и възможности

Vision API-то е известно с изключително точните си резултати. Документацията му ни предоставя много добра колекция от уроци, които дават подробна представа за него. Трябва да се има предвид, че първоначално това изглежда изключително сложно, но в крайна сметка всичко опира до практика. Нека все пак да ги разгледаме:

1. Оптично разпознаване на символи (OCR)

Tова е извличане на текст от изображенията с помощта на API-то.  TEXT_DETECTION и DOCUMENT_TEXT_DETECTION анотациите поддържат OCR. Можете да откриете допълнителна информация как директно да превеждате извлечения текст в Cloud-а (Cloud Translation API) на Google и да запазвате своите преводи в Cloud Storage. Допълнителна информация тук

2. Разпознаване на етикети

Tук въз основа на изображението се разпознават различни етикети. Например, ако имаме снимка на колело може да се създаде етикет с “колело” или, както при горепосочения пример с Мусала виждаме, че API-то разпознава връх Мусала от снимката. Тук трябва да се има предвид, че в момента разпознава и връща отговор само на английски език. Пълна документация тук.

3. Разпознаване на лица

Тук се откриват лицата в изображението. Чрез API-то и с помощта на програмен език тази функционалност може да има много голямо и полезно приложение в системите за наблюдение. Допълнителна документация тук.

4. Разпознаване на атрибутите на снимката

Тук се откриват общите атрибути на изображението, като доминиращи цветове и други.

5. Уеб разпознаване (Web Detection)

Откриват се уеб препратки към изображението. Търсят се в мрежата най-добрите пълни и частични съвпадащи изображения с конкретния пример. Допълнителна документация тук

Как да активираме Cloud Vision API

Преди да започнете да използвате API-то на Cloud Vision, трябва да го активирате за вашия проект в Google Cloud платформата:

1. Изберете вашия проект или създайте нов тук.

2. Добавете валиден метод за таксуване във вашия Google Cloud акаунт. Допълнителна информация тук.

Забележка:

Трябва да се вземе под внимание, че всяко едно от ML API-тата на Google се заплаща според тяхното използване и в зависимост от това каква информация извличате. Цените са символични, но все пак е нещо, благодарение на което тези API-та се развиват. 

3. Активирайте API на Cloud Vision тук. 

4. Настройте си удостоверяване:

  • В Cloud конзолата, отидете на Creative service account key страницата тук.

  • Кликнете на Create и продължете напред

  • От Role менюто изберете Project > Owner

  • Накрая кликнете върху Continue и после на Create на .JSON файла, който ще съдържа вашите ключове на вашия компютър.

Vision API осигурява поддръжка на широк спектър от езици като Go, C#, Java, PHP, Node.js, Python, Ruby

Vision API Client библиотека за Python

Първата стъпка при използване на Vision API-то в Python е да го инсталирате. Най-предпочитаният вариант е чрез pip.

!pip install google-cloud-vision 

След като като инсталацията е успешна, тя трябва да бъде проверена.

from google.cloud import vision

Ако горният ред се изпълни успешно, то вие сте готови да продължите. Google предоставя страхотна поредица от уроци за използване на Vision API в Python.

Заключение

Това е много малка част от възможностите и функционалностите, с които Cloud Vision API разполага. Със сигурност има множество приложения в практиката, които тепърва ще бъдат откривани. Възможността да се възползваме от него е пред нас, защото това е бъдещето на дигиталния маркетинг. Трябва да се научим как функционира изкуственият интелект във всяко едно отношение, защото това ще ни помогне при:

  • Автоматизацията на нашата работа;
  • Развието и подобрението на нашите знания в дигиталната сфера;
  • Създаването на нови идеи и подхранването на нашата креативност по отношение на работата.

За по-любознателните споделяме и други интересни източници на информация:

  1. Интеграция на Cloud Vision API с Ruby - тук.
  2. Откриване на лица, етикети и символи в изображенията - тук;
  3. Приложения на Vision API с Python - тук.

Благодарим ви за вниманието! 

Добре дошли сте да споделите своите наблюдения или опит с този инструмент в коментар отдолу. 

76
4
35
Открихте грешка? Маркирайте я и натиснете Ctrl + Enter.