Чтение книги Программирование. Принципы и практика использования C++ Исправленное издание страница 378

Программирование. Принципы и практика использования C++ Исправленное издание

вернуться

Страуструп Бьерн

Шрифт:

Для того чтобы проанализировать эту таблицу, нам нужны два шаблона: для заголовка и для остальных строк.

regex header( "^[\\w ]+( [\\w ]+)*$");

regex row( "^[\\w ]+(\\d+)(\\d+)(\\d+)$");

Помните, мы хвалили синтаксис регулярных выражений за лаконичность и полезность, а не за легкость освоения новичками? На самом деле регулярные выражения имеют заслуженную репутацию языка только для письма (write-only language). Начнем с заголовка. Поскольку он не содержит никаких числовых данных, мы могли бы просто отбросить первую строку, но — исключительно для приобретения опыта — попробуем провести ее структурный анализ. Она содержит четыре словарных поля (буквенно-цифровых поля”, разделенных знаками табуляции). Эти поля могут содержать пробелы, поэтому мы не можем просто использовать управляющий символ

, чтобы задать эти символы. Вместо этого мы используем выражение

[\w]

, т.е. словообразующий символ (букву, цифру или знак подчеркивания) или пробел. Один или несколько словообразующих символов задается выражением

[\w]+

. Мы хотим найти тот из них, который стоит в начале строки, поэтому пишем выражение

^[\w ]+

. “Шапочка” (

) означает “начало строки”. Каждое из оставшихся полей можно выразить как знак табуляции, за которым следуют некие слова:

([\w]+)

. До конца строки их может быть сколько угодно:

([\w]+)*$

. Знак доллара (

) означает “конец строки”. Теперь напишем строковый литерал на языке C++ и получим дополнительные обратные косые черты.

"^[\\w ]+( [\\w ]+)*$"

Мы не можем проверить, что знак табуляции действительно является таковым, но в данном случае он раскрывается в ходе набора текста и распознается сам.

Приступим к самой интересной части упражнения: к шаблону для строк, из которых мы хотим извлекать числовые данные. Первое поле вновь имеет шаблон

^[\w]+

. За ним следуют ровно три числовых поля, перед каждым из которых стоит знак табуляции: (

\d+

), следовательно, получаем следующий шаблон:

^[\w ]+( \d+)(\d+)(\d+)$

После его вставки в строковый литерал он превращается в такую строку:

"^[\\w ]+(\\d+)(\\d+)(\\d+)$"

Теперь мы сделали все, что требовалось. Сначала проверим, правильно ли сформирована таблица.

int main

{

ifstream in("table.txt"); // входной файл

if (!in) error("Нет входного файла\n");

string line; // буфер ввода

int lineno = 0;

regex header( "^[\\w ]+( [\\w ]+)*$"); // строка заголовка

regex row("^[\\w]+(\\d+)(\\d+)(\\d+)$"); // строка данных

if (getline(in,line)) { // проверяем строку заголовка

smatch matches;

if (!regex_match(line,matches,header))

error("Нет заголовка");

}

while (getline(in,line)) { // проверяем строку данных

++lineno;

smatch matches;

if (!regex_match(line,matches,row))

error("неправильная строка",to_string(lineno));

}

Для краткости мы не привели здесь директивы

#include

. Проверяем все символы в каждой строке, поэтому вызываем функцию

regex_match

, а не

regex_search

. Разница между ними заключается только в том, что функция

regex_match

должна сопоставлять с шаблоном каждый символ из потока ввода, а функция

regex_search

проверяет поток ввода, пытаясь найти соответствующую подстроку. Ошибочное использование функции

regex_match

, когда подразумевалось использовании функции

regex_search

(и наоборот), может оказаться самой трудно обнаруживаемой ошибкой. Однако обе эти функции используют свои совпадающие аргументы совершенно одинаково.

Теперь можем перейти к верификации данных в таблице. Мы подсчитаем количество мальчиков (“drenge”) и девочек (“piger”), учащихся в школе. Для каждой строки мы проверим, действительно ли в последнем поле (“ELEVER IALT”) записана сумму первых двух полей. Последняя строка (“Alle klasser”) содержит суммы по столбцам. Для проверки этого факта модифицируем выражение row, чтобы текстовое поле содержало частичное совпадение и можно было распознать строку “Alle klasser”.

int main

{

ifstream in("table.txt"); // входной файл

if (!in) error("Нет входного файла");

string line; // буфер ввода

int lineno = 0;

regex header( "^[\\w ]+( [\\w ]+)*$");

regex row("^([\\w ]+)(\\d+)(\\d+)( \d+)$");

if (getline(in,line)) { // проверяем строку заголовка

boost::smatch matches;

if (!boost::regex_match(line, matches, header)) {

error("Нет заголовка");

}

// суммы по столбцам:

int boys = 0;

int girls = 0;

while (getline(in,line)) {

++lineno;

smatch matches;

if (!regex_match(line, matches, row))

Программирование. Принципы и практика использования C++ Исправленное издание

Страуструп Бьерн

Шрифт:

Полезные ссылки

Контакты

Подпишитесь на рассылку: