Чтение книги Решаем задачи Python страница 13

Девис Джеймс

Шрифт:

2. Функция `analyze_sentiment`:

– Эта функция принимает текст в качестве входного параметра и использует `TextBlob` для анализа его тональности.

– Сначала создается объект `TextBlob` для анализа текста.

– Затем используется метод `sentiment.polarity`, чтобы определить тональность текста. Значение полярности лежит в диапазоне от -1 до 1, где отрицательные значения указывают на негативную тональность, положительные – на позитивную, а нулевое значение – на нейтральную.

– Функция возвращает строку, указывающую на настроение текста: "Позитивный", "Негативный" или "Нейтральный".

3. Пример текста:

– В этом примере представлен негативно окрашенный текст: "Этот фильм был ужасен. Я полностью разочарован."

4. Анализ тональности текста:

– Вызывается функция `analyze_sentiment` с текстом в качестве аргумента.

– Функция анализирует текст и возвращает его тональность.

– Результат анализа выводится на экран. В данном случае текст считается негативным, поэтому выводится сообщение "Настроение текста: Негативный".

Этот код демонстрирует простой способ анализа тональности текста с использованием библиотеки TextBlob.

19. Задача генерация краткого описания (сжатого содержания) текста.

В этой задаче мы будем брать длинный текст и создавать краткое описание, которое содержит основную суть текста.

Идея решения будет следующей:

1. Разбить текст на предложения.

2. Подсчитать частоту встречаемости каждого слова в тексте.

3. Определить вес каждого предложения на основе суммы весов слов, входящих в него.

4. Выбрать предложения с наибольшим весом для включения в краткое описание.

Вот пример кода на Python для решения этой задачи:

```python

from nltk.tokenize import sent_tokenize, word_tokenize

from collections import Counter

def generate_summary(text, num_sentences=3):

# Разбиваем текст на предложения

sentences = sent_tokenize(text)

# Разбиваем каждое предложение на слова

words = [word_tokenize(sentence.lower) for sentence in sentences]

# Подсчитываем частоту встречаемости каждого слова

word_freq = Counter

for sentence_words in words:

word_freq.update(sentence_words)

# Вычисляем вес каждого предложения на основе суммы весов слов

sentence_weights = {}

for sentence in sentences:

sentence_words = word_tokenize(sentence.lower)

weight = sum(word_freq[word] for word in sentence_words)

sentence_weights[sentence] = weight

# Сортируем предложения по весу и выбираем заданное количество предложений для краткого описания

summary_sentences = sorted(sentence_weights, key=sentence_weights.get, reverse=True)[:num_sentences]

return ' '.join(summary_sentences)

# Пример текста

text = """

Марс – четвёртая по удалённости от Солнца и седьмая по размерам планета Солнечной системы.

До 24 августа 2006 года по исключительному соглашению между Международным астрономическим союзом и Всемирной ассоциацией радиокоммуникаций английское наименование этой планеты официально считалось орфографическим вариантом русского названия – Марс.

Именно такое внешнеполитическое состояние дел иллюстрирует исследование анкет, которые участники митапа пройдут.

По ходу выполнения общих заданий участники митапа будут проведены.

Участников митапа, однако, ждут другие трудности, например, количественный состав и структура общества (а также) способы реализации заданий.

"""

# Генерация краткого описания текста

summary = generate_summary(text)

print("Краткое описание:")

print(summary)

```

Этот код принимает текст в качестве входных данных, разбивает его на предложения и подсчитывает частоту встречаемости каждого слова. Затем он вычисляет вес каждого предложения, основываясь на сумме весов слов в нем, и выбирает заданное количество предложений с наибольшим весом для включения в краткое описание. Полученное краткое описание выводится на экран.

Описание к коду:

1. Импорт библиотек:

– На первых строках кода импортируются необходимые библиотеки и модули: `nltk.tokenize` для разделения текста на предложения и слова, а также `collections.Counter` для подсчета частоты встречаемости слов.

2. Функция `generate_summary`:

– Эта функция принимает текст и опциональный аргумент `num_sentences`, который указывает количество предложений в кратком описании (по умолчанию равно 3).

– Сначала текст разбивается на предложения с помощью `sent_tokenize` из библиотеки NLTK, которая разделяет текст на предложения на основе знаков препинания.

Решаем задачи Python

Девис Джеймс

Шрифт:

Полезные ссылки

Контакты

Подпишитесь на рассылку: