15 април 2020

Google Cloud Vision API - Анализ на изображения

5901

Продължаваме с нашите статии за Machine Learning API-тата на Google. Този път ще разгледаме Google Cloud Vision API и ще вникнем в дълбочината на това как точно той може да бъде използван.

Тук можете да си припомните статията ни за Google Cloud Talent Solution - AI за търсене и откриване на работа, с помощта на изкуствения интелект. Инструмент, който в бъдеще ще набира все по-голяма популярност и по-широко приложение.

Преди нея пък ви разказахме малко повече за това как функционира и как може в бъдеще да се прилага Google Cloud Natural Language API за SEO.

Съдържание:

Какво представлява Google Cloud Vision API

Анализирайте вашите изображения

Характеристики и възможности

Как да активираме Cloud Vision API

Vision API Client библиотека за Python

Заключение

Какво представлява Google Cloud Vision API

Това е един много мощен “инструмент”, който може да ви даде безкрайни възможности за приложение, особено в комбинация с библиотеките на Python.

Google са внедрили своите модели за машинно обучение в API, за да позволят на разработчиците да използват технологията на Vision API. То може бързо да класифицира изображенията в хиляди категории и да им причислява етикети. Може да се откриват отделни обекти, лица или части от текст в изображението.

Основните възможности, които притежава, могат да бъдат разделени в следните категории:

откриване на лица/етикети;
определяне на популярни места и лога на продукти;
откриване на забележителности;
откриване на атрибутите на снимката;
разпознаване на съдържанието.

Можете да изгледате и официалното видео представяне от Google:

Анализирайте вашите изображения

Може да си направите малък експеримент като разгледате част от възможностите на API-то в официалната документация на Cloud Vision.

След като предоставите изображение, то ви дава цялата информация за него:

Vision API открива доста факти за изображението. Представете си същия ефект върху милиони или дори милиарди изображения. Това несъмнено би било доста ползотворно. В следващата точка ще разгледаме подробно характеристиките и възможностите на API-то, които виждаме в горепосочения пример.

Характеристики и възможности

Vision API-то е известно с изключително точните си резултати. Документацията му ни предоставя много добра колекция от уроци, които дават подробна представа за него. Трябва да се има предвид, че първоначално това изглежда изключително сложно, но в крайна сметка всичко опира до практика. Нека все пак да ги разгледаме:

1. Оптично разпознаване на символи (OCR)

Tова е извличане на текст от изображенията с помощта на API-то. TEXT_DETECTION и DOCUMENT_TEXT_DETECTION анотациите поддържат OCR. Можете да откриете допълнителна информация как директно да превеждате извлечения текст в Cloud-а (Cloud Translation API) на Google и да запазвате своите преводи в Cloud Storage. Допълнителна информация тук.

2. Разпознаване на етикети

Tук въз основа на изображението се разпознават различни етикети. Например, ако имаме снимка на колело може да се създаде етикет с “колело” или, както при горепосочения пример с Мусала виждаме, че API-то разпознава връх Мусала от снимката. Тук трябва да се има предвид, че в момента разпознава и връща отговор само на английски език. Пълна документация тук.

3. Разпознаване на лица

Тук се откриват лицата в изображението. Чрез API-то и с помощта на програмен език тази функционалност може да има много голямо и полезно приложение в системите за наблюдение. Допълнителна документация тук .

4. Разпознаване на атрибутите на снимката

Тук се откриват общите атрибути на изображението, като доминиращи цветове и други.

5. Уеб разпознаване (Web Detection)

Откриват се уеб препратки към изображението. Търсят се в мрежата най-добрите пълни и частични съвпадащи изображения с конкретния пример. Допълнителна документация тук.

Как да активираме Cloud Vision API

Преди да започнете да използвате API-то на Cloud Vision, трябва да го активирате за вашия проект в Google Cloud платформата:

1. Изберете вашия проект или създайте нов тук.

2. Добавете валиден метод за таксуване във вашия Google Cloud акаунт. Допълнителна информация тук.

Забележка:

Трябва да се вземе под внимание, че всяко едно от ML API-тата на Google се заплаща според тяхното използване и в зависимост от това каква информация извличате. Цените са символични, но все пак е нещо, благодарение на което тези API-та се развиват.

3. Активирайте API на Cloud Vision тук.

4. Настройте си удостоверяване:

В Cloud конзолата, отидете на Creative service account key страницата тук.

Кликнете на Create и продължете напред

От Role менюто изберете Project > Owner

Накрая кликнете върху Continue и после на Create на .JSON файла, който ще съдържа вашите ключове на вашия компютър.

Vision API осигурява поддръжка на широк спектър от езици като Go, C#, Java, PHP, Node.js, Python, Ruby.

Vision API Client библиотека за Python

Първата стъпка при използване на Vision API-то в Python е да го инсталирате. Най-предпочитаният вариант е чрез pip.

!pip install google-cloud-vision

След като като инсталацията е успешна, тя трябва да бъде проверена.

from google.cloud import vision

Ако горният ред се изпълни успешно, то вие сте готови да продължите. Google предоставя страхотна поредица от уроци за използване на Vision API в Python.

Заключение

Това е много малка част от възможностите и функционалностите, с които Cloud Vision API разполага. Със сигурност има множество приложения в практиката, които тепърва ще бъдат откривани. Възможността да се възползваме от него е пред нас, защото това е бъдещето на дигиталния маркетинг. Трябва да се научим как функционира изкуственият интелект във всяко едно отношение, защото това ще ни помогне при:

Автоматизацията на нашата работа;
Развието и подобрението на нашите знания в дигиталната сфера;
Създаването на нови идеи и подхранването на нашата креативност по отношение на работата.

За по-любознателните споделяме и други интересни източници на информация:

Интеграция на Cloud Vision API с Ruby - тук.
Откриване на лица, етикети и символи в изображенията - тук;
Приложения на Vision API с Python - тук.

Благодарим ви за вниманието!

Добре дошли сте да споделите своите наблюдения или опит с този инструмент в коментар отдолу.

Martin Zhelyazkov

Мартин Желязков е SEO специалист в Netpeak Bulgaria Digital Growth Partner. Притежава над 10 години опит в SEO оптимизацията на онлайн магазини и корпоративни сайтове.

Фокусът на работата му в Netpeak e насочен към оптимизацията, развитието и постигането на резултати по ключови показатели за едни от най-големите дигитални бизнеси в България. Има интерес към Big Data и Machine learning, а в свободното си време пише публикации на SEO тематика и дигитален маркетинг.

Дългогодишен лектор в Softuni Digital в курсовете Search Engine Optimization, SEO Advanced и Conversion Rate Optimization, лектор на ежегодния IAB Advanced SEO masterclass, лектор на Online Advertising конференция и др.

Други статии на автора

(4.3 от 5 въз основа на 23 оценки)

Открихте грешка? Маркирайте я и натиснете Ctrl + Enter.

Препоръчани нови статии

Как един транзакционен имейл донесе средно 8% допълнителни приходи: case study за Revita.bg

Как да подготвите уебсайта си за бъдещето на AI: въведение в llm.txt и AI meta таговете

5 стъпки за създаване на впечатляващи банери с помощта на Canva и ChatGPT