Как установить pymorphy2 для python

Пишем чат-бот на Python + PostgreSQL и Telegram

Пошаговое руководство написания чат-бота на языке Python.

Установим Python и библиотеки;

Получим вопросы и ответы из БД PostgreSQL;

Подключим чат-бот к каналу Telegram.

Colaboratory от Google

Изучение Python можно начать используя сервис Colaboratory от Google, или просто Colab. Сервис позволяет писать и выполнять код Python в браузере, не требуя собственного сервера.

Пример кода. Вопросы и ответы для чат-бота подгрузим с https://drive.google.com из текстового файла

Запуск в Production

Наигравшись с кодом в Colaboratory и освоив Python развернем систему на боевом сервере Debian

Установим Python и PIP (установщик пакетов).

Так как Debian не самый новый, устанавливается версия 3.5

Установим необходимые пакеты Python

Пишем код в файле Chat_bot.py

Структура таблицы ответов chats_answer, формат SQL

Да, я готов об этом поговорить

Я тоже хочу спать

Структура таблицы вопросов chats_question, формат SQL. Каждый вопрос связан с кодом ответа.

Сколько тебе лет

Лет то тебе сколько

Поговорим о возрасте

Трейлер фильма Матрица

Продолжаем код в файле Chat_bot.py

Векторизация и трансформация

Функция поиска ответа

Проверка из консоли

Запустим и проверим

Подключим Telegram

Откроем Telegram и обратимся к боту @BOTFATHER https://t.me/botfather

Все просто, зарегистрируем нового бота и получим token.

В целом все готово. Вопросы в базу данных добавляются автоматически от службы тех. поддержки. Остаётся маркетологу в админ панели на YII назначать ответы вопросам. Раз в сутки cron перезапускает скрипт чат-бота, новые фразы поступают в работу.

Весь код чат бота

В теле программы есть переменные k=5 и temperature=10.0. Их можно менять, что будет влиять на поиск, делая его более мягким или более жестким.

Руководство пользователя¶

Чтоб установить оптимизированную версию, используйте следующую команду:

Оптимизированная версия может требовать настроенного окружения для сборки (компилятора C/C++ и т.д.).

Словари распространяются отдельными пакетами:

pymorphy2-dicts-ru для русского языка,
pymorphy2-dicts-uk для украинского языка (экспериментальный).

Они обновляются время от времени; чтоб обновить словари, используйте

Для установки требуются более-менее современные версии pip и setuptools.

Морфологический анализ¶

Морфологический анализ — это определение характеристик слова на основе того, как это слово пишется. При морфологическом анализе не используется информация о соседних словах.

В pymorphy2 для морфологического анализа слов есть класс MorphAnalyzer .

По умолчанию используется словарь для русского языка; чтобы вместо русского включить украинский словарь, с помощью pip установите пакет pymorphy2-dicts-uk и используйте

Экземпляры класса MorphAnalyzer обычно занимают порядка 15Мб оперативной памяти (т.к. загружают в память словари, данные для предсказателя и т.д.); старайтесь организовать свой код так, чтобы создавать экземпляр MorphAnalyzer заранее и работать с этим единственным экземпляром в дальнейшем.

С помощью метода MorphAnalyzer.parse() можно разобрать отдельное слово:

если используете Python 2.x, то будьте внимательны — юникодные строки пишутся как u’стали’ .

Метод MorphAnalyzer.parse() возвращает один или несколько объектов типа Parse с информацией о том, как слово может быть разобрано.

В приведенном примере слово “стали” может быть разобрано и как глагол (“они стали лучше справляться”), и как существительное (“кислородно-конверторный способ получения стали”). На основе одной лишь информации о том, как слово пишется, понять, какой разбор правильный, нельзя, поэтому анализатор может возвращать несколько вариантов разбора.

У каждого разбора есть тег :

Тег — это набор граммем , характеризующих данное слово. Например, тег ‘VERB,perf,intr plur,past,indc’ означает, что слово — глагол ( VERB ) совершенного вида ( perf ), непереходный ( intr ), множественного числа ( plur ), прошедшего времени ( past ), изъявительного наклонения ( indc ).

Кроме того, у каждого разбора есть нормальная форма , которую можно получить, обратившись к атрибутам normal_form или normalized :

pymorphy2 умеет разбирать не только словарные слова; для несловарных слов автоматически задействуется предсказатель . Например, попробуем разобрать слово “бутявковедами” — pymorphy2 поймет, что это форма творительного падежа множественного числа существительного “бутявковед”, и что “бутявковед” — одушевленный и мужского рода:

Работа с тегами¶

Для того, чтоб проверить, есть ли в данном теге отдельная граммема (или все граммемы из указанного множества), используйте оператор in:

Кроме того, у каждого тега есть атрибуты, через которые можно получить часть речи, число и другие характеристики:

Если запрашиваемая характеристика для данного тега не определена, то возвращается None.

В написании граммем достаточно просто ошибиться; для борьбы с ошибками pymorphy2 выкидывает исключение, если встречает недопустимую граммему:

Это работает и для атрибутов:

Кириллические названия тегов и граммем¶

Теги и граммемы в pymorphy2 записываются латиницей (например, NOUN ). Но часто удобнее использовать кириллические названия граммем (например, СУЩ вместо NOUN ). Чтобы получить тег в виде строки, записанной кириллицей, используйте свойство OpencorporaTag.cyr_repr :

Для преобразования произвольных строк с тегами/граммемами между кириллицей и латиницей используйте методы MorphAnalyzer.cyr2lat() и MorphAnalyzer.lat2cyr() :

Склонение слов¶

pymorphy2 умеет склонять (ставить в какую-то другую форму) слова. Чтобы просклонять слово, нужно сначала понять, в какой форме оно стоит в настоящий момент и какая у него лексема . Другими словами, нужно сперва разобрать слово и выбрать из предложенных вариантов разбора правильный.

Для примера разберем слово “бутявка” и возьмем первый вариант разбора:

Получив объект Parse , можно просклонять слово, используя его метод Parse.inflect() :

С помощью атрибута Parse.lexeme можно получить лексему слова:

Постановка слов в начальную форму¶

Нормальную (начальную) форму слова можно получить через атрибуты Parse.normal_form и Parse.normalized . Чтоб получить объект Parse , нужно сперва разобрать слово и выбрать правильный вариант разбора из предложенных.

Но что считается за нормальную форму? Например, возьмем слово “думающим”. Иногда мы захотим нормализовать его в “думать”, иногда — в “думающий”, иногда — в “думающая”.

Посмотрим, что сделает pymorphy2 в этом примере:

pymorphy2 сейчас использует алгоритм нахождения нормальной формы, который работает наиболее быстро (берется первая форма в лексеме ) — поэтому, например, все причастия сейчас нормализуются в инфинитивы. Это можно считать деталью реализации.

Если требуется нормализовывать слова иначе, можно воспользоваться методом Parse.inflect() :

Согласование слов с числительными¶

Слово нужно ставить в разные формы в зависимости от числительного, к которому оно относится. Например: “1 бутявка”, “2 бутявки”, “5 бутявок”

Выбор правильного разбора¶

pymorphy2 возвращает все допустимые варианты разбора, но на практике обычно нужен только один вариант, правильный.

У каждого разбора есть параметр score:

score — это оценка P(tag|word), оценка вероятности того, что данный разбор правильный.

Оценка P(tag|word) пока недоступна в украинском словаре.

Условная вероятность P(tag|word) оценивается на основе корпуса OpenCorpora: ищутся все неоднозначные слова со снятой неоднозначностью, для каждого слова считается, сколько раз ему был сопоставлен данный тег, и на основе этих частот вычисляется условная вероятность тега (с использованием сглаживания Лапласа).

На данный момент оценки P(tag|word) на основе OpenCorpora есть примерно для 20 тыс. слов (исходя из примерно 250тыс. наблюдений). Для тех слов, для которых такой оценки нет, вероятность P(tag|word) либо считается равномерной (для словарных слов), либо оценивается на основе эмпирических правил (для несловарных слов).

На практике это означает, что первый разбор из тех, что возвращают методы MorphAnalyzer.parse() и MorphAnalyzer.tag() , более вероятен, чем остальные. Для слов (без учета пунктуации и т.д.) цифры такие:

случайно выбранный разбор (из допустимых) верен примерно в 66% случаев;
первый по словарю разбор (pymorphy2 < 0.4) верен примерно в 72% случаев;
разбор, который выдает pymorphy2 == 0.4, выбранный на основе оценки P(tag|word), верен примерно в 79% случаев.

Разборы сортируются по убыванию score, поэтому везде в примерах берется первый вариант разбора из возможных (например, morph.parse(‘бутявка’)[0] ).

Оценки P(tag|word) помогают улучшить разбор, но их недостаточно для надежного снятия неоднозначности, как минимум по следующим причинам:

то, как нужно разбирать слово, зависит от соседних слов; pymorphy2 работает только на уровне отдельных слов;
условная вероятность P(tag|word) оценена на основе сбалансированного набора текстов; в специализированных текстах вероятности могут быть другими — например, возможно, что в металлургических текстах P(NOUN|стали) > P(VERB|стали) ;
в OpenCorpora у большинства слов неоднозначность пока не снята; выполняя задания на сайте OpenCorpora, можно непосредственно помочь улучшить оценку P(tag|word) и, следовательно, качество работы pymorphy2.

Если вы берете первый разбор из возможных (как в примерах), то стоит учитывать эту проблему.

Иногда могут помочь какие-то особенности задачи. Например, если нужно просклонять слово, и известно, что на входе ожидается слово в именительном падеже, то лучше брать вариант разбора в именительном падеже, а не первый. В общем же случае для выбора точного разбора необходимо каким-то образом учитывать не только само слово, но и другие слова в предложении.

Name already in use

Work fast with our official CLI. Learn more about the CLI.

Sign In Required

Please sign in to use Codespaces.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching GitHub Desktop

If nothing happens, download GitHub Desktop and try again.

Launching Xcode

If nothing happens, download Xcode and try again.

Launching Visual Studio Code

Your codespace will open once ready.

There was a problem preparing your codespace, please try again.

Latest commit

Git stats

Files

Failed to load latest commit information.

README.md

Package license: MIT

Summary: Morphological analyzer (POS tagger + inflection engine) for Russian language.

Current build status

All platforms:

Current release info

Name	Downloads	Version	Platforms

Installing pymorphy2 from the conda-forge channel can be achieved by adding conda-forge to your channels with:

Once the conda-forge channel has been enabled, pymorphy2 can be installed with:

It is possible to list all of the versions of pymorphy2 available on your platform with:

conda-forge is a community-led conda channel of installable packages. In order to provide high-quality builds, the process has been automated into the conda-forge GitHub organization. The conda-forge organization contains one repository for each of the installable packages. Such a repository is known as a feedstock.

A feedstock is made up of a conda recipe (the instructions on what and how to build the package) and the necessary configurations for automatic building using freely available continuous integration services. Thanks to the awesome service provided by CircleCI, AppVeyor and TravisCI it is possible to build and upload installable packages to the conda-forge Anaconda-Cloud channel for Linux, Windows and OSX respectively.

To manage the continuous integration and simplify feedstock maintenance conda-smithy has been developed. Using the conda-forge.yml within this repository, it is possible to re-render all of this feedstock’s supporting files (e.g. the CI configuration files) with conda smithy rerender .

For more information please check the conda-forge documentation.

feedstock — the conda recipe (raw material), supporting scripts and CI configuration.

conda-smithy — the tool which helps orchestrate the feedstock. Its primary use is in the construction of the CI .yml files and simplify the management of many feedstocks.

conda-forge — the place where the feedstock and smithy live and work to produce the finished article (built conda distributions)

If you would like to improve the pymorphy2 recipe or build a new package version, please fork this repository and submit a PR. Upon submission, your changes will be run on the appropriate platforms to give the reviewer an opportunity to confirm that the changes result in a successful build. Once merged, the recipe will be re-built and uploaded automatically to the conda-forge channel, whereupon the built conda packages will be available for everybody to install and use from the conda-forge channel. Note that all branches in the conda-forge/pymorphy2-feedstock are immediately built and any created packages are uploaded, so PRs should be based on branches in forks and branches in the main repository should only be used to build distinct package versions.

Google colab : ModuleNotFoundError: No module named 'pymorphy2'

Ezoic

report this ad

Other Popular Tags

python-3.x

machine_learning

Did you try to pip install it?

Write this and execute the cell:

Kaiwalya Patil 40

Ezoic

report this ad

tkinter

scikit_learn

tensorflow

beautifulsoup

flask

python

Contact Us

appsloveworld000457@gmail.com
About Us

Services

Web Development
Mobile App Development
Custom Software Development
SEO & Digital Marketing
Technology Consulting

Ezoic

report this ad

Как установить pymorphy2 для python

Пишем чат-бот на Python + PostgreSQL и Telegram

Пошаговое руководство написания чат-бота на языке Python.

Colaboratory от Google

Запуск в Production

Пишем код в файле Chat_bot.py

Продолжаем код в файле Chat_bot.py

Векторизация и трансформация

Подключим Telegram

Весь код чат бота

Руководство пользователя¶

Морфологический анализ¶

Работа с тегами¶

Кириллические названия тегов и граммем¶

Склонение слов¶

Постановка слов в начальную форму¶

Согласование слов с числительными¶

Выбор правильного разбора¶

Name already in use

Sign In Required

Launching GitHub Desktop

Launching GitHub Desktop

Launching Xcode

Launching Visual Studio Code

Latest commit

Git stats

Files

README.md

Google colab : ModuleNotFoundError: No module named 'pymorphy2'

Other Popular Tags

python-3.x

machine_learning

tkinter

scikit_learn

tensorflow

beautifulsoup

flask

python

Contact Us

Services

Quick Links

Quick Links

Quick Links

Добавить комментарий Отменить ответ