NLP или Обработка на естествения език - Същност, Характеристики и Възможности

В тази статия ще разгледаме какво представлява NLP (Natural Language Processing), какви възможности има и какви са неговите характеристики. Ще разгледаме и защо е добре да не подценяваме силата на изкуствения интелект.

Съдържание:

Какво е NLP

Обработката на естествения език или по-точно компютърната обработка на естествения (човешки) език (или на английски natural language processing, NLP) е област на науката за изкуствения интелект и компютърната лингвистика. 

Крайната цел на NLP е да чете, дешифрира, разбира и осмисля човешките езици. Обработката му позволява на машините да разберат сложното подзначение в нашите изречения. 

Кои са най-големите трудности?

Обработката на естествения език е изключително сложна. Ние като човешки същества можем да го разберем, дори и да нямаме познания по граматика или пунктуация. Обаче машините овладяват по доста по-различен начин езиковите си умения.

Например думата “Майка”. Машините я свързват със “съществително нарицателно име, женски род. Жена, която има най-малко едно дете” и т.н.

Преди NLP да бъде свързан с AI, има основни правила и подход за комуникация между човек и компютър. Тези модели са се опитали да опишат всяко едно правила на езика, което, както се подразбира, е трудоемка задача. Резултатите са били много добри, докато моделите не са започнали да срещат отклонения извън своите правила. Например грешно изписана дума или някакви други жаргонни непознати думи. 

 https://img.netpeak.net/martu/20191208_1730.jpg

1. Реч

Обикновено в своето ежедневие не осъзнаваме колко често допускаме грешки в речта. Говорещият непрекъснато прави малки граматически грешки или смесва термини от други езици. Това е голямо предизвикателство при обработката на NLP.

2. Текст

Тук също трябва да се има предвид, че има много “странни” зависимости. Например пропусната пунктуация, печатни грешки или някакви жаргонни думи могат да объркат значението. Въпреки, че един текст е доста по-стандартизиран от речта, то все още има доста неподправени области. Емоджитата са много добър пример за това. Те съществуват извън всякакви граматически правила, но все пак са доста важни символи на естествения език. "?"

3. Същата дума, но различно значение

Освен грешки, контекстуалният смисъл носи и предизвикателство за обработката на езика. Машините са известни с това, че приемат всичко твърде буквално. 

Сарказма, иронията и шегите са още по-специфични, тъй като нито хората, нито правилата могат да ги опишат напълно. Подобна неяснота може да доведе до усложнения, дори ако граматическите правила са придружени от машинно обучение. Въпреки всичко днес, в началото на 2020, можем твърдо да заявим, че това доста се е развило и вече все повече машини успяват да различат сарказма или иронията в един текст. 

Изброихме основните трудности при NLP. Няма да навлизаме повече в тях, защото това е твърде необятна материя. Може да разгледате един интересен материал, който дава още повече яснота тук.

Какви възможности ни дава?

Възможностите, които ни дава обработката на естествения език са безкрайни и намират най-различни приложения. Ще обобщим някои от най-интересните и с практическа насоченост.

1. Прогнозиране на заболявания

Чрез NLP вече може да се прогнозират заболявания, както и да се определят медицински състояния. Вече има подобни услуги, които чрез обработката на езика извличат информация за заболявания.

Amazon Comprehend Medical е услуга, която използва NLP за извличане на информация за заболявания, лекарства и резултати от лечението от бележка на пациенти. 

1.1. Как работи?

2. Извличане на информация от социални мрежи

 С помощта на NLP организациите могат да определят какво мислят и чувстват клиентите за дадена услуга или продукт, като извличат информация от социалните медии. Допълнителна информация тук. 

3. Идентифициране на фалшиви новини (Fake News)

Вече има доста разработени системи, с помощта на които става ясно дали източникът на новини е коректен или е политически пристрастен. Допълнителна информация за подобен тип системи тук.

4. Филтрация на съдържанието във вашите имейли

Yahoo и Google отдавна филтрират и класифицират вашите имейли с помощта на NLP. Те анализират текста и филтрират спама. 

Защо е важна обработката на езика?

Причините, поради които NLP има изключително важно значение могат да бъдат много. Ще ги класифицираме в две основни:

  • Обработка на големи текстови данни;
  • Структуриране на източници на данни.

Обработка на големи текстови данни

Трябва да се има предвид, че обработката на езика помага на компютрите да общуват с хората на техния език и съответно да извършва други свързани с него задачи. NLP дава възможност на компютрите да четат текст, да чуват реч, да я интерпретират, както и да измерват настроенията и чувствата в един текст (допълнителна информация в статията за Google Cloud Natural Language). 

Днешните машини анализират все повече данни, отколкото хората, защото са по-последователни и съответно безпристрастни. Всичко това като се има предвид и невероятното количество неструктурирани данни, които се генерират всеки ден - от медицински записи до социални медии. Автоматизацията ще бъде от решаващо значение за нашето бъдеще. 

Структуриране на източници на данни

Както бе отбелязано по-горе в статията, човешкият език е изключително сложен и разнообразен. Изразяваме се много колоритно, както писмено, така и устно. Има стотици езици и диалекти, но и във всеки език има уникален набор от граматически и синтактични правила, термини и жаргони. 

 https://img.netpeak.net/martu/20200105_2136.jpg

Когато пишем, често грешно изписваме или съкращаваме думи, дори пропускаме препинателни знаци, например “zdr kak si” или “ми мн добре ама нз как да стане ” и т.н. Когато говорим, имаме регионални акценти и заимстваме термини от други езици като “това е супер уиърд, брато” и “малко дификълт ми идва и ай донт ноу”.

Въпреки че се използва широко моделиране на човешкия език, то има и необходимост от синтактично и семантично разбиране и експертиза в областта на езиците. NLP е изключително важен, тъй като помага за разрешаване на двусмислието в езика и добавя полезна структура към данните за много приложения като разпознава реч или анализира текст. 

Как работи NLP

Основната функционалност на NLP е, че прави разбивка на отделните части на езика. Обработката на естествения език включва различни техники за тълкуване на човешкия език, вариращи от статистически и машинни методи на обучение до базирани на правила и алгоритмични подходи. 

Основните задачи на NLP включват синтактичен анализ, лематизиране, маркиране на част от речта, откриване на субекти и т.н. Абсолютно същото нещо, което ние сме правили като малки на черната дъска в училище. 


Най-общо функционалностите на NLP разбиват езика на по-елементарни частици, като той се опитва да разбере връзките между парчетата и да проучи как парчетата работят заедно, за да създадат смисъл. 

Тези основни задачи често се използват на по-високо ниво на NLP възможностите. Нека да ги разгледаме:

  • Класификация и категоризация на съдържанието. Резюме на документи, базирани на езикова основа, включително търсене и индексиране, предупреждения за съдържание и откриване на дублажи. 
  • Откриване и моделиране на теми. Прецизно улавяне на значение и теми в текстовете.
  • Контекстуално извличане. Автоматично структуриране на информация от текстови източници. 
  • Анализ на чувството и настроенията. Определяне на настроението или субективните мнения в голямо количество текст. 
  • Преобразуване в текст. Преобразуване на гласови команди в писмен текст и обратното.

Заключение

NLP започва да намира ежедневно приложение в заобикалящия ни свят. Дори и наскоро обявения от Google Bert Update е на основата на Machine Learning модела на Google Cloud Natural Language API-то, на което ще обърнем много внимание в следващата ни публикация. Ако трябва да бъдем честни Bert е ъпдейт, който всъщност съществува от години, но просто в момента решиха да му дадат тежест и съответно име. 

Беше обърнато внимание на една доста малка част от възможностите и функционалностите на NLP и съответно какво представлява обработката на естествения език. В следващата ни публикация ще разгледаме възможностите на Google Cloud Natural Language API-то и как то е обвързано с обработката на естествения език.

Ще се радваме да споделите в коментарите какво мислите за NLP и как то вероятно ще се развие в бъдеще. 

59
1
36
Открихте грешка? Маркирайте я и натиснете Ctrl + Enter.