Страница:
Задача ввода для функции низкого уровня состоит в последовательном
считывании символов и составлении из них лексемы, с которой работают
уже функции более высокого уровня. В этом примере низкоуровневый ввод
делает функция get_token(). К счастью, написание низкоуровневой
функции ввода достаточно редкая задача. В хороших системах есть
стандартные функции для таких операций.
Правила ввода для калькулятора были специально выбраны несколько
громоздкими для потоковых функций ввода. Незначительные изменения
в определениях лексем превратили бы get_token() в обманчиво простую
функцию.
Первая сложность состоит в том, что символ конца строки '\n'
важен для калькулятора, но потоковые функции ввода воспринимают его
как символ обобщенного пробела. Иначе говоря, для этих функций '\n'
имеет значение только как символ, завершающий лексему.
Поэтому приходится анализировать все обобщенные пробелы (пробел,
табуляция и т.п.). Это делается в операторе do, который эквивалентен
оператору while, за исключением того, что тело оператора do
всегда выполняется хотя бы один раз:
char ch;
do { // пропускает пробелы за исключением '\n'
if(!cin.get(ch)) return curr_tok = END;
} while (ch!='\n' && isspace(ch));
Функция cin.get(ch) читает один символ из стандартного входного потока
в ch. Значение условия if(!cin.get(ch)) - ложь, если из потока cin
нельзя получить ни одного символа. Тогда возвращается лексема END, чтобы
закончить работу калькулятора. Операция ! (NOT) нужна потому, что
в случае успешного считывания get() возвращает ненулевое значение.
Функция-подстановка isspace() из <ctype.h> проверяет, не является
ли ее параметр обобщенным пробелом ($$10.3.1). Она возвращает ненулевое
значение, если является, и нуль в противном случае. Проверка реализуется
как обращение к таблице, поэтому для скорости лучше вызывать isspace(),
чем проверять самому. То же можно сказать о функциях isalpha(), isdigit()
и isalnum(), которые используются в get_token().
После пропуска обобщенных пробелов следующий считанный символ
определяет, какой будет начинающаяся с него лексема. Прежде, чем
привести всю функцию, рассмотрим некоторые случаи отдельно. Лексемы
'\n' и ';', завершающие выражение, обрабатываются следующим образом:
switch (ch) {
case ';':
case '\n':
cin >> ws; // пропуск обобщенного пробела
return curr_tok=PRINT;
Необязательно снова пропускать пробел, но, сделав это, мы
избежим повторных вызовов функции get_token(). Переменная ws, описанная
в файле <stream.h>, используется только как приемник ненужных пробелов.
Ошибка во входных данных, а также конец ввода не будут обнаружены до
следующего вызова функции get_token(). Обратите внимание, как несколько
меток выбора помечают одну последовательность операторов, заданную
для этих вариантов. Для обоих символов ('\n' и ';') возвращается лексема
PRINT, и она же помещается в curr_tok.
Числа обрабатываются следующим образом:
case '0': case '1': case '2': case '3': case '4':
case '5': case '6': case '7': case '8': case '9':
case '.':
cin.putback(ch);
cin >> number_value;
return curr_tok=NUMBER;
Размещать метки вариантов горизонтально, а не вертикально,- не самый
лучший способ, поскольку такой текст труднее читать; но писать строку
для каждой цифры утомительно. Поскольку оператор >> может читать
константу с плавающей точкой типа double, программа тривиальна:
прежде всего начальный символ (цифра или точка) возвращается назад
в cin, а затем константу можно считать в number_value.
Имя, т.е. лексема NAME, определяется как буква, за которой может
идти несколько букв или цифр:
if (isalpha(ch)) {
char* p = name_string;
*p++ = ch;
while (cin.get(ch) && isalnum(ch)) *p++ = ch;
cin.putback(ch);
*p = 0;
return curr_tok=NAME;
}
Этот фрагмент программы заносит в name_string строку, оканчивающуюся
нулевым символом. Функции isalpha() и isalnum() определены в <ctype.h>.
Результат isalnum(c) ненулевой, если c - буква или цифра, и нулевой
в противном случае.
Приведем, наконец, функцию ввода полностью:
token_value get_token()
{
char ch;
do { // пропускает обобщенные пробелы за исключением '\n'
if(!cin.get(ch)) return curr_tok = END;
} while (ch!='\n' && isspace(ch));
switch (ch) {
case ';':
case '\n':
cin >> ws; // пропуск обобщенного пробела
return curr_tok=PRINT;
case '*':
case '/':
case '+':
case '-':
case '(':
case ')':
case '=':
return curr_tok=token_value(ch);
case '0': case '1': case '2': case '3': case '4':
case '5': case '6': case '7': case '8': case '9':
case '.':
cin.putback(ch);
cin >> number_value;
return curr_tok=NUMBER;
default: // NAME, NAME= или ошибка
if (isalpha(ch)) {
char* p = name_string;
*p++ = ch;
while (cin.get(ch) && isalnum(ch)) *p++ = ch;
cin.putback(ch);
*p = 0;
return curr_tok=NAME;
}
error("недопустимая лексема");
return curr_tok=PRINT;
}
}
Преобразование операции в значение лексемы для нее тривиально,
поскольку в перечислении token_value лексема операции была определена
как целое (код символа операции).
Есть функция поиска в таблице имен:
name* look(char* p, int ins =0);
Второй ее параметр показывает, была ли символьная строка, обозначающая
имя, ранее занесена в таблицу. Инициализатор =0 задает стандартное
значение параметра, которое используется, если функция look()
вызывается только с одним параметром. Это удобно, так как
можно писать look("sqrt2"), что означает look("sqrt2",0),
т.е. поиск, а не занесение в таблицу. Чтобы было так же удобно задавать
операцию занесения в таблицу, определяется вторая функция:
inline name* insert(const char* s) { return look(s,1); }
Как ранее упоминалось, записи в этой таблице имеют такой тип:
struct name {
char* string;
name* next;
double value;
};
Член next используется для связи записей в таблице.
Собственно таблица - это просто массив указателей на объекты типа name:
const TBLSZ = 23;
name* table[TBLSZ];
Поскольку по умолчанию все статические объекты инициализируются нулем,
такое тривиальное описание таблицы table обеспечивает также и нужную
инициализацию.
Для поиска имени в таблице функция look() использует простой
хэш-код (записи, в которых имена имеют одинаковый хэш-код,
связываются):
вместе):
int ii = 0; // хэш-код
const char* pp = p;
while (*pp) ii = ii<<1 ^ *pp++;
if (ii < 0) ii = -ii;
ii %= TBLSZ;
Иными словами, с помощью операции ^ ("исключающее ИЛИ") все символы
входной строки p поочередно добавляются к ii. Разряд в результате x^y
равен 1 тогда и только тогда, когда эти разряды в операндах x и y различны.
До выполнения операции ^ значение ii сдвигается на один разряд влево,
чтобы использовался не только один байт ii. Эти действия можно
записать таким образом:
ii <<= 1;
ii ^= *pp++;
Для хорошего хэш-кода лучше использовать операцию ^, чем +. Операция
сдвига важна для получения приемлемого хэш-кода в обоих случаях.
Операторы
if (ii < 0) ii = -ii;
ii %= TBLSZ;
гарантируют, что значение ii будет из диапазона 0...TBLSZ-1. Напомним,
что % - это операция взятия остатка. Ниже полностью приведена
функция look:
#include <string.h>
name* look(const char* p, int ins =0)
{
int ii = 0; // хэш-код
const char* pp = p;
while (*pp) ii = ii<<1 ^ *pp++;
if (ii < 0) ii = -ii;
ii %= TBLSZ;
for (name* n=table[ii]; n; n=n->next) // поиск
if (strcmp(p,n->string) == 0) return n;
if (ins == 0) error("имя не найдено");
name* nn = new name; // занесение
nn->string = new char[strlen(p)+1];
strcpy(nn->string,p);
nn->value = 1;
nn->next = table[ii];
table[ii] = nn;
return nn;
}
После вычисления хэш-кода ii идет простой поиск имени по членам
next. Имена сравниваются с помощью стандартной функции
сравнения строк strcmp(). Если имя найдено, то возвращается указатель
на содержащую его запись, а в противном случае заводится новая запись
с этим именем.
Добавление нового имени означает создание нового объекта name
в свободной памяти с помощью операции new (см. $$3.2.6), его
инициализацию и включение в список имен. Последнее выполняется как
занесение нового имени в начало списка, поскольку это можно сделать даже
без проверки того, есть ли список вообще. Символьная строка имени
также размещается в свободной памяти. Функция strlen() указывает,
сколько памяти нужно для строки, операция new отводит нужную память,
а функция strcpy() копирует в нее строку. Все строковые функции
описаны в <string.h>:
extern int strlen(const char*);
extern int strcmp(const char*, const char*);
extern char* strcpy(char*, const char*);
Поскольку программа достаточно проста, не надо особо беспокоиться
об обработке ошибок. Функция error просто подсчитывает число ошибок,
выдает сообщение о них и возвращает управление обратно:
int no_of_errors;
double error(const char* s)
{
cerr << "error: " << s << "\n";
no_of_errors++;
return 1;
}
Небуферизованный выходной поток cerr обычно используется именно для
выдачи сообщений об ошибках.
Управление возвращается из error() потому, что ошибки, как правило,
встречаются посреди вычисления выражения. Значит надо либо полностью
прекращать вычисления, либо возвращать значение, которое не должно
вызвать последующих ошибок. Для простого калькулятора больше подходит
последнее. Если бы функция get_token() отслеживала номера строк, то
функция error() могла бы указывать пользователю приблизительное место
ошибки. Это было бы полезно при неинтерактивной работе с калькулятором.
Часто после появления ошибки программа должна завершиться, поскольку
не удалось предложить разумный вариант ее дальнейшего выполнения.
Завершить ее можно с помощью вызова функции exit(), которая заканчивает
работу с выходными потоками ($$10.5.1) и завершает программу,
возвращая свой параметр в качестве ее результата.
Более радикальный способ завершения программы - это вызов функции abort(),
которая прерывает выполнение программы немедленно или сразу же после
сохранения информации для отладчика (сброс оперативной памяти).
Подробности вы можете найти в своем справочном руководстве.
Более тонкие приемы обработки ошибок можно предложить, если
ориентироваться на особые ситуации (см.$$9), но предложенное решение
вполне приемлемо для игрушечного калькулятора в 200 строк.
Когда все части программы определены, нужен только драйвер, чтобы
инициализировать и запустить процесс. В нашем примере с этим
справится функция main():
int main()
{
// вставить предопределенные имена:
insert("pi")->value = 3.1415926535897932385;
insert("e")->value = 2.7182818284590452354;
while (cin) {
get_token();
if (curr_tok == END) break;
if (curr_tok == PRINT) continue;
cout << expr() << '\n';
}
return no_of_errors;
}
Принято, что функция main() возвращает нуль, если программа завершается
нормально, и ненулевое значение, если происходит иначе. Ненулевое
значение возвращается как число ошибок. Оказывается, вся инициализация
сводится к занесению предопределенных имен в таблицу.
В цикле main читаются выражения и выдаются результаты. Это делает
одна строка:
cout << expr() << '\n';
Проверка cin при каждом проходе цикла гарантирует завершение программы,
даже если что-то случится с входным потоком, а проверка на лексему
END нужна для нормального завершения цикла, когда функция get_token()
обнаружит конец файла. Оператор break служит для выхода из
ближайшего объемлющего оператора switch или цикла (т.е. оператора for,
while или do). Проверка на лексему PRINT (т.е. на '\n' и ';') снимает
с функции expr() обязанность обрабатывать пустые выражения. Оператор
continue эквивалентен переходу на конец цикла, поэтому в нашем
случае фрагмент:
while (cin) {
// ...
if (curr_tok == PRINT) continue;
cout << expr() << "\n";
}
эквивалентен фрагменту:
while (cin) {
// ...
if (curr_tok == PRINT) goto end_of_loop;
cout << expr() << "\n";
end_of_loop: ;
}
Более подробно циклы описываются в $$R.6
Когда программа калькулятора уже была написана и отлажена, выяснилось,
что неудобно вначале запускать ее, вводить выражение, а затем выходить
из калькулятора. Тем более, что обычно нужно просто вычислить одно
выражение. Если это выражение задать как параметр командной строки
запуска калькулятора, то можно сэкономить несколько нажатий клавиши.
Как уже было сказано, выполнение программы начинается вызовом main().
При этом вызове main() получает два параметра: число параметров (обычно
называемый argc) и массив строк параметров (обычно называемый argv).
Параметры - это символьные строки, поэтому argv имеет тип char*[argc+1].
Имя программы (в том виде, как оно было задано в командной строке)
передается в argv[0], поэтому argc всегда не меньше единицы. Например,
для командной строки
dc 150/1.1934
параметры имеют значения:
argc 2
argv[0] "dc"
argv[1] "150/1.1934"
argv[2] 0
Добраться до параметров командной строки просто; проблема в том, как
использовать их так, чтобы не менять саму программу. В данном случае это
оказывается совсем просто, поскольку входной поток может быть настроен
на символьную строку вместо файла ($$10.5.2). Например, можно определить
cin так, чтобы символы читались из строки, а не из стандартного
входного потока:
int main(int argc, char* argv[])
{
switch(argc) {
case 1: // считывать из стандартного входного потока
break;
case 2: // считывать из строки параметров
cin = *new istream(argv[1],strlen(argv[1]));
break;
default:
error("слишком много параметров");
return 1;
}
// дальше прежний вариант main
}
При этом istrstream - это функция istream, которая считывает
символы из строки, являющейся ее первым параметром. Чтобы использовать
istrstream нужно включить в программу файл <strstream.h>, а не
обычный <iostream.h>. В остальном же программа осталась без изменений,
кроме добавления параметров в функцию main() и использования их
в операторе switch. Можно легко изменить функцию main() так, чтобы она
могла принимать несколько параметров из командной строки. Однако
это не слишком нужно, тем более, что можно нескольких выражений
передать как один параметр:
dc "rate=1.1934;150/rate;19.75/rate;217/rate"
Кавычки необходимы потому, что символ ';' служит в системе UNIX
разделителем команд. В других системах могут быть свои соглашения о
параметрах командной строки.
Полное и подробное описание операций языка С++ дано в $$R.7. Советуем
прочитать этот раздел. Здесь же приводится краткая сводка операций и
несколько примеров. Каждая операция сопровождается одним или
несколькими характерными для нее именами и примером ее использования.
В этих примерах class_name обозначает имя класса, member - имя члена,
object - выражение, задающее объект класса, pointer - выражение, задающее
указатель, expr - просто выражение, а lvalue (адрес) - выражение,
обозначающее не являющийся константой объект. Обозначение (type) задает
имя типа в общем виде (с возможным добавлением *, () и т.д.).
Если оно указано без скобок, существуют ограничения.
Порядок применения унарных операций и операций присваивания
"справа налево", а всех остальных операций - "слева направо".
То есть, a=b=c означает a=(b=c), a+b+c означает (a+b)+c, и *p++ означает
*(p++), а не (*p)++.
____________________________________________________________
Операции С++
============================================================
:: Разрешение области видимости class_name :: member
:: Глобальное :: name
____________________________________________________________
. Выбор члена object . member
-> Выбор члена pointer -> member
[] Индексирование pointer [ expr ]
() Вызов функции expr ( expr_list )
() Структурное значение type ( expr_list )
sizeof Размер объекта sizeof expr
sizeof Размер типа sizeof ( type )
____________________________________________________________
++ Постфиксный инкремент lvalue ++
++ Префиксный инкремент ++ lvalue
-- Постфиксный декремент lvalue --
-- Префиксный декремент -- lvalue
~ Дополнение ~ expr
! Логическое НЕ ! expr
- Унарный минус - expr
+ Унарный плюс + expr
& Взятие адреса & lvalue
* Косвенность * expr
new Создание (размещение) new type
delete Уничтожение (освобождение) delete pointer
delete[] Уничтожение массива delete[] pointer
() Приведение(преобразование)типа ( type ) expr
____________________________________________________________
. * Выбор члена косвенный object . pointer-to-member
->* Выбор члена косвенный pointer -> pointer-to-member
____________________________________________________________
* Умножение expr * expr
/ Деление expr / expr
% Остаток от деления expr % expr
____________________________________________________________
+ Сложение (плюс) expr + expr
- Вычитание (минус) expr - expr
____________________________________________________________
Все операции таблицы, находящиеся между двумя ближайшими друг
к другу горизонтальными чертами,
имеют одинаковый приоритет. Приоритет операций уменьшается при
движении "сверху вниз". Например, a+b*c означает a+(b*c), так как *
имеет приоритет выше, чем +; а выражение a+b-c означает (a+b)-c,
поскольку + и - имеют одинаковый приоритет, и операции + и -
применяются "слева направо".
Э
____________________________________________________________
Операции С++ (продолжение)
============================================================
<< Сдвиг влево expr << expr
>> Сдвиг вправо expr >> expr
____________________________________________________________
< Меньше expr < expr
<= Меньше или равно expr <= expr
> Больше expr > expr
>= Больше или равно expr >= expr
____________________________________________________________
== Равно expr == expr
!= Не равно expr != expr
____________________________________________________________
& Поразрядное И expr & expr
____________________________________________________________
^ Поразрядное исключающее ИЛИ expr ^ expr
____________________________________________________________
| Поразрядное включающее ИЛИ expr | expr
____________________________________________________________
&& Логическое И expr && expr
____________________________________________________________
|| Логическое ИЛИ expr || expr
____________________________________________________________
? : Операция условия expr? expr : expr
____________________________________________________________
= Простое присваивание lvalue = expr
*= Присваивание с умножением lvalue *= expr
/= Присваивание с делением lvalue /= expr
%= Присваивание с взятием lvalue %= expr
остатка от деления
+= Присваивание со сложением lvalue += expr
-= Присваивание с вычитанием lvalue -= expr
<<= Присваивание со сдвигом влево lvalue <<= expr
>>= Присваивание со сдвигом вправо lvalue >>= expr
&= Присваивание с поразрядным И lvalue &= expr
|= Присваивание с поразрядным lvalue |= expr
включающим ИЛИ
^= Присваивание с поразрядным lvalue ^= expr
исключающим ИЛИ
____________________________________________________________
Запятая (последовательность) expr , expr
____________________________________________________________
Синтаксис языка С++ перегружен скобками, и разнообразие их применений
способно сбить с толку. Они выделяют фактические параметры при
вызове функций, имена типов, задающих функции, а также служат для
разрешения конфликтов между операциями с одинаковым приоритетом.
К счастью, последнее встречается не слишком часто, поскольку приоритеты
и порядок применения операций определены так, чтобы выражения вычислялись
"естественным образом" (т.е. наиболее распространенным образом).
Например, выражение
if (i<=0 || max<i) // ...
означает следующее: "Если i меньше или равно нулю, или если max меньше i".
То есть, оно эквивалентно
if ( (i<=0) || (max<i) ) // ...
но не эквивалентно допустимому, хотя и бессмысленному выражению
if (i <= (0||max) < i) // ...
Тем не менее, если программист не уверен в указанных правилах,
следует использовать скобки, причем некоторые предпочитают для
надежности писать более длинные и менее элегантные выражения, как:
if ( (i<=0) || (max<i) ) // ...
При усложнении подвыражений скобки используются чаще. Не надо, однако,
забывать, что сложные выражения являются источником ошибок. Поэтому,
если у вас появится ощущение, что в этом выражении нужны скобки,
лучше разбейте его на части и введите дополнительную переменную.
Бывают случаи, когда приоритеты операций не приводят к "естественному"
порядку вычислений. Например, в выражении
if (i&mask == 0) // ловушка! & применяется после ==
не происходит маскирование i (i&mask), а затем проверка результата
на 0. Поскольку у == приоритет выше, чем у &, это выражение эквивалентно
i&(mask==0). В этом случае скобки играют важную роль:
if ((i&mask) == 0) // ...
Имеет смысл привести еще одно выражение, которое вычисляется
совсем не так, как мог бы ожидать неискушенный пользователь:
if (0 <= a <= 99) // ...
Оно допустимо, но интерпретируется как (0<=a)<=99, и результат первого
сравнения равен или 0, или 1, но не значению a (если, конечно,
a не есть 1). Проверить, попадает ли a в диапазон 0...99, можно так:
if (0<=a && a<=99) // ...
Среди новичков распространена ошибка, когда в условии вместо ==
(равно) используют = (присвоить):
if (a = 7) // ошибка: присваивание константы в условии
// ...
Она вполне объяснима, поскольку в большинстве языков "=" означает "равно".
Для транслятора не составит труда сообщать об ошибках подобного рода.
Порядок вычисления подвыражений, входящих в выражение, не всегда
определен. Например:
int i = 1;
v[i] = i++;
Здесь выражение может вычисляться или как v[1]=1, или как v[2]=1.
Если нет ограничений на порядок вычисления подвыражений, то транслятор
получает возможность создавать более оптимальный код. Транслятору
следовало бы предупреждать о двусмысленных выражениях, но к сожалению
большинство из них не делает этого.
Для операций
&& || ,
гарантируется, что их левый операнд вычисляется раньше правого операнда.
Например, в выражении b=(a=2,a+1) b присвоится значение 3. Пример
операции || был дан в $$3.2.1, а пример операции && есть в $$3.3.1.
Отметим, что операция запятая отличается по смыслу от той запятой, которая
используется для разделения параметров при вызове функций. Пусть есть
выражения:
f1(v[i],i++); // два параметра
f2( (v[i],i++) ) // один параметр
Вызов функции f1 происходит с двумя параметрами: v[i] и i++, но
порядок вычисления выражений параметров неопределен. Зависимость
вычисления значений фактических параметров от порядка вычислений
- далеко не лучший стиль программирования. К тому же программа
становится непереносимой.
Вызов f2 происходит с одним параметром, являющимся выражением,
содержащим операцию запятая: (v[i], i++). Оно эквивалентно i++.
Скобки могут принудительно задать порядок вычисления. Например,
a*(b/c) может вычисляться как (a*b)/c (если только пользователь
видит в этом какое-то различие). Заметим, что для значений с плавающей
точкой результаты вычисления выражений a*(b/c) и (a*b)/ могут
различаться весьма значительно.
Операция ++ явно задает инкремент в отличие от неявного его задания
с помощью сложения и присваивания. По определению ++lvalue означает
lvalue+=1, что, в свою очередь означает lvalue=lvalue+1 при условии,
что содержимое lvalue не вызывает побочных эффектов. Выражение,
обозначающее операнд инкремента, вычисляется только один раз. Аналогично
обозначается операция декремента (--). Операции ++ и -- могут
использоваться как префиксные и постфиксные операции. Значением ++x
является новое (т. е. увеличенное на 1) значение x. Например, y=++x
эквивалентно y=(x+=1). Напротив, значение x++ равно прежнему значению x.
Например, y=x++ эквивалентно y=(t=x,x+=1,t), где t - переменная того
же типа, что и x.
Напомним, что операции инкремента и декремента указателя
эквивалентны сложению 1 с указателем или вычитанию 1 из указателя, причем
вычисление происходит в элементах массива, на который настроен
указатель. Так, результатом p++ будет указатель на следующий элемент.
Для указателя p типа T* следующее соотношение верно по определению:
long(p+1) == long(p) + sizeof(T);
Чаще всего операции инкремента и декремента используются для
изменения переменных в цикле. Например, копирование строки,
оканчивающейся нулевым символом, задается следующим образом:
inline void cpy(char* p, const char* q)
{
while (*p++ = *q++) ;
}
Язык С++ (подобно С) имеет как сторонников, так и противников именно
из-за такого сжатого, использующего сложные выражения стиля
программирования. Оператор
while (*p++ = *q++) ;
вероятнее всего, покажется невразумительным для незнакомых с С.
Имеет смысл повнимательнее посмотреть на такие конструкции, поскольку
для C и C++ они не является редкостью.
Сначала рассмотрим более традиционный способ копирования массива
символов:
int length = strlen(q)
for (int i = 0; i<=length; i++) p[i] = q[i];
Это неэффективное решение: строка оканчивается нулем; единственный
способ найти ее длину - это прочитать ее всю до нулевого символа;
в результате строка читается и для установления ее длины, и для
копирования, то есть дважды. Поэтому попробуем такой вариант:
for (int i = 0; q[i] !=0 ; i++) p[i] = q[i];
p[i] = 0; // запись нулевого символа
Поскольку p и q - указатели, можно обойтись без переменной i,
используемой для индексации:
while (*q !=0) {
*p = *q;
p++; // указатель на следующий символ
q++; // указатель на следующий символ
}
*p = 0; // запись нулевого символа
Поскольку операция постфиксного инкремента позволяет сначала использовать
значение, а затем уже увеличить его, можно переписать цикл так:
while (*q != 0) {
*p++ = *q++;
}
*p = 0; // запись нулевого символа
Отметим, что результат выражения *p++ = *q++ равен *q. Следовательно,
можно переписать наш пример и так:
while ((*p++ = *q++) != 0) { }
В этом варианте учитывается, что *q равно нулю только тогда, когда
*q уже скопировано в *p, поэтому можно исключить завершающее
присваивание нулевого символа. Наконец, можно еще более сократить
запись этого примера, если учесть, что пустой блок не нужен, а
операция "!= 0" избыточна, т.к. результат условного выражения и так
всегда сравнивается с нулем. В результате мы приходим к
первоначальному варианту, который вызывал недоумение:
while (*p++ = *q++) ;
Неужели этот вариант труднее понять, чем приведенные выше? Только
неопытным программистам на С++ или С! Будет ли последний вариант
наиболее эффективным по затратам времени и памяти? Если не считать
первого варианта с функцией strlen(), то это неочевидно. Какой из
вариантов окажется эффективнее, определяется как спецификой системы
команд, так и возможностями транслятора. Наиболее эффективный алгоритм
копирования для вашей машины можно найти в стандартной функции копирования
считывании символов и составлении из них лексемы, с которой работают
уже функции более высокого уровня. В этом примере низкоуровневый ввод
делает функция get_token(). К счастью, написание низкоуровневой
функции ввода достаточно редкая задача. В хороших системах есть
стандартные функции для таких операций.
Правила ввода для калькулятора были специально выбраны несколько
громоздкими для потоковых функций ввода. Незначительные изменения
в определениях лексем превратили бы get_token() в обманчиво простую
функцию.
Первая сложность состоит в том, что символ конца строки '\n'
важен для калькулятора, но потоковые функции ввода воспринимают его
как символ обобщенного пробела. Иначе говоря, для этих функций '\n'
имеет значение только как символ, завершающий лексему.
Поэтому приходится анализировать все обобщенные пробелы (пробел,
табуляция и т.п.). Это делается в операторе do, который эквивалентен
оператору while, за исключением того, что тело оператора do
всегда выполняется хотя бы один раз:
char ch;
do { // пропускает пробелы за исключением '\n'
if(!cin.get(ch)) return curr_tok = END;
} while (ch!='\n' && isspace(ch));
Функция cin.get(ch) читает один символ из стандартного входного потока
в ch. Значение условия if(!cin.get(ch)) - ложь, если из потока cin
нельзя получить ни одного символа. Тогда возвращается лексема END, чтобы
закончить работу калькулятора. Операция ! (NOT) нужна потому, что
в случае успешного считывания get() возвращает ненулевое значение.
Функция-подстановка isspace() из <ctype.h> проверяет, не является
ли ее параметр обобщенным пробелом ($$10.3.1). Она возвращает ненулевое
значение, если является, и нуль в противном случае. Проверка реализуется
как обращение к таблице, поэтому для скорости лучше вызывать isspace(),
чем проверять самому. То же можно сказать о функциях isalpha(), isdigit()
и isalnum(), которые используются в get_token().
После пропуска обобщенных пробелов следующий считанный символ
определяет, какой будет начинающаяся с него лексема. Прежде, чем
привести всю функцию, рассмотрим некоторые случаи отдельно. Лексемы
'\n' и ';', завершающие выражение, обрабатываются следующим образом:
switch (ch) {
case ';':
case '\n':
cin >> ws; // пропуск обобщенного пробела
return curr_tok=PRINT;
Необязательно снова пропускать пробел, но, сделав это, мы
избежим повторных вызовов функции get_token(). Переменная ws, описанная
в файле <stream.h>, используется только как приемник ненужных пробелов.
Ошибка во входных данных, а также конец ввода не будут обнаружены до
следующего вызова функции get_token(). Обратите внимание, как несколько
меток выбора помечают одну последовательность операторов, заданную
для этих вариантов. Для обоих символов ('\n' и ';') возвращается лексема
PRINT, и она же помещается в curr_tok.
Числа обрабатываются следующим образом:
case '0': case '1': case '2': case '3': case '4':
case '5': case '6': case '7': case '8': case '9':
case '.':
cin.putback(ch);
cin >> number_value;
return curr_tok=NUMBER;
Размещать метки вариантов горизонтально, а не вертикально,- не самый
лучший способ, поскольку такой текст труднее читать; но писать строку
для каждой цифры утомительно. Поскольку оператор >> может читать
константу с плавающей точкой типа double, программа тривиальна:
прежде всего начальный символ (цифра или точка) возвращается назад
в cin, а затем константу можно считать в number_value.
Имя, т.е. лексема NAME, определяется как буква, за которой может
идти несколько букв или цифр:
if (isalpha(ch)) {
char* p = name_string;
*p++ = ch;
while (cin.get(ch) && isalnum(ch)) *p++ = ch;
cin.putback(ch);
*p = 0;
return curr_tok=NAME;
}
Этот фрагмент программы заносит в name_string строку, оканчивающуюся
нулевым символом. Функции isalpha() и isalnum() определены в <ctype.h>.
Результат isalnum(c) ненулевой, если c - буква или цифра, и нулевой
в противном случае.
Приведем, наконец, функцию ввода полностью:
token_value get_token()
{
char ch;
do { // пропускает обобщенные пробелы за исключением '\n'
if(!cin.get(ch)) return curr_tok = END;
} while (ch!='\n' && isspace(ch));
switch (ch) {
case ';':
case '\n':
cin >> ws; // пропуск обобщенного пробела
return curr_tok=PRINT;
case '*':
case '/':
case '+':
case '-':
case '(':
case ')':
case '=':
return curr_tok=token_value(ch);
case '0': case '1': case '2': case '3': case '4':
case '5': case '6': case '7': case '8': case '9':
case '.':
cin.putback(ch);
cin >> number_value;
return curr_tok=NUMBER;
default: // NAME, NAME= или ошибка
if (isalpha(ch)) {
char* p = name_string;
*p++ = ch;
while (cin.get(ch) && isalnum(ch)) *p++ = ch;
cin.putback(ch);
*p = 0;
return curr_tok=NAME;
}
error("недопустимая лексема");
return curr_tok=PRINT;
}
}
Преобразование операции в значение лексемы для нее тривиально,
поскольку в перечислении token_value лексема операции была определена
как целое (код символа операции).
Есть функция поиска в таблице имен:
name* look(char* p, int ins =0);
Второй ее параметр показывает, была ли символьная строка, обозначающая
имя, ранее занесена в таблицу. Инициализатор =0 задает стандартное
значение параметра, которое используется, если функция look()
вызывается только с одним параметром. Это удобно, так как
можно писать look("sqrt2"), что означает look("sqrt2",0),
т.е. поиск, а не занесение в таблицу. Чтобы было так же удобно задавать
операцию занесения в таблицу, определяется вторая функция:
inline name* insert(const char* s) { return look(s,1); }
Как ранее упоминалось, записи в этой таблице имеют такой тип:
struct name {
char* string;
name* next;
double value;
};
Член next используется для связи записей в таблице.
Собственно таблица - это просто массив указателей на объекты типа name:
const TBLSZ = 23;
name* table[TBLSZ];
Поскольку по умолчанию все статические объекты инициализируются нулем,
такое тривиальное описание таблицы table обеспечивает также и нужную
инициализацию.
Для поиска имени в таблице функция look() использует простой
хэш-код (записи, в которых имена имеют одинаковый хэш-код,
связываются):
вместе):
int ii = 0; // хэш-код
const char* pp = p;
while (*pp) ii = ii<<1 ^ *pp++;
if (ii < 0) ii = -ii;
ii %= TBLSZ;
Иными словами, с помощью операции ^ ("исключающее ИЛИ") все символы
входной строки p поочередно добавляются к ii. Разряд в результате x^y
равен 1 тогда и только тогда, когда эти разряды в операндах x и y различны.
До выполнения операции ^ значение ii сдвигается на один разряд влево,
чтобы использовался не только один байт ii. Эти действия можно
записать таким образом:
ii <<= 1;
ii ^= *pp++;
Для хорошего хэш-кода лучше использовать операцию ^, чем +. Операция
сдвига важна для получения приемлемого хэш-кода в обоих случаях.
Операторы
if (ii < 0) ii = -ii;
ii %= TBLSZ;
гарантируют, что значение ii будет из диапазона 0...TBLSZ-1. Напомним,
что % - это операция взятия остатка. Ниже полностью приведена
функция look:
#include <string.h>
name* look(const char* p, int ins =0)
{
int ii = 0; // хэш-код
const char* pp = p;
while (*pp) ii = ii<<1 ^ *pp++;
if (ii < 0) ii = -ii;
ii %= TBLSZ;
for (name* n=table[ii]; n; n=n->next) // поиск
if (strcmp(p,n->string) == 0) return n;
if (ins == 0) error("имя не найдено");
name* nn = new name; // занесение
nn->string = new char[strlen(p)+1];
strcpy(nn->string,p);
nn->value = 1;
nn->next = table[ii];
table[ii] = nn;
return nn;
}
После вычисления хэш-кода ii идет простой поиск имени по членам
next. Имена сравниваются с помощью стандартной функции
сравнения строк strcmp(). Если имя найдено, то возвращается указатель
на содержащую его запись, а в противном случае заводится новая запись
с этим именем.
Добавление нового имени означает создание нового объекта name
в свободной памяти с помощью операции new (см. $$3.2.6), его
инициализацию и включение в список имен. Последнее выполняется как
занесение нового имени в начало списка, поскольку это можно сделать даже
без проверки того, есть ли список вообще. Символьная строка имени
также размещается в свободной памяти. Функция strlen() указывает,
сколько памяти нужно для строки, операция new отводит нужную память,
а функция strcpy() копирует в нее строку. Все строковые функции
описаны в <string.h>:
extern int strlen(const char*);
extern int strcmp(const char*, const char*);
extern char* strcpy(char*, const char*);
Поскольку программа достаточно проста, не надо особо беспокоиться
об обработке ошибок. Функция error просто подсчитывает число ошибок,
выдает сообщение о них и возвращает управление обратно:
int no_of_errors;
double error(const char* s)
{
cerr << "error: " << s << "\n";
no_of_errors++;
return 1;
}
Небуферизованный выходной поток cerr обычно используется именно для
выдачи сообщений об ошибках.
Управление возвращается из error() потому, что ошибки, как правило,
встречаются посреди вычисления выражения. Значит надо либо полностью
прекращать вычисления, либо возвращать значение, которое не должно
вызвать последующих ошибок. Для простого калькулятора больше подходит
последнее. Если бы функция get_token() отслеживала номера строк, то
функция error() могла бы указывать пользователю приблизительное место
ошибки. Это было бы полезно при неинтерактивной работе с калькулятором.
Часто после появления ошибки программа должна завершиться, поскольку
не удалось предложить разумный вариант ее дальнейшего выполнения.
Завершить ее можно с помощью вызова функции exit(), которая заканчивает
работу с выходными потоками ($$10.5.1) и завершает программу,
возвращая свой параметр в качестве ее результата.
Более радикальный способ завершения программы - это вызов функции abort(),
которая прерывает выполнение программы немедленно или сразу же после
сохранения информации для отладчика (сброс оперативной памяти).
Подробности вы можете найти в своем справочном руководстве.
Более тонкие приемы обработки ошибок можно предложить, если
ориентироваться на особые ситуации (см.$$9), но предложенное решение
вполне приемлемо для игрушечного калькулятора в 200 строк.
Когда все части программы определены, нужен только драйвер, чтобы
инициализировать и запустить процесс. В нашем примере с этим
справится функция main():
int main()
{
// вставить предопределенные имена:
insert("pi")->value = 3.1415926535897932385;
insert("e")->value = 2.7182818284590452354;
while (cin) {
get_token();
if (curr_tok == END) break;
if (curr_tok == PRINT) continue;
cout << expr() << '\n';
}
return no_of_errors;
}
Принято, что функция main() возвращает нуль, если программа завершается
нормально, и ненулевое значение, если происходит иначе. Ненулевое
значение возвращается как число ошибок. Оказывается, вся инициализация
сводится к занесению предопределенных имен в таблицу.
В цикле main читаются выражения и выдаются результаты. Это делает
одна строка:
cout << expr() << '\n';
Проверка cin при каждом проходе цикла гарантирует завершение программы,
даже если что-то случится с входным потоком, а проверка на лексему
END нужна для нормального завершения цикла, когда функция get_token()
обнаружит конец файла. Оператор break служит для выхода из
ближайшего объемлющего оператора switch или цикла (т.е. оператора for,
while или do). Проверка на лексему PRINT (т.е. на '\n' и ';') снимает
с функции expr() обязанность обрабатывать пустые выражения. Оператор
continue эквивалентен переходу на конец цикла, поэтому в нашем
случае фрагмент:
while (cin) {
// ...
if (curr_tok == PRINT) continue;
cout << expr() << "\n";
}
эквивалентен фрагменту:
while (cin) {
// ...
if (curr_tok == PRINT) goto end_of_loop;
cout << expr() << "\n";
end_of_loop: ;
}
Более подробно циклы описываются в $$R.6
Когда программа калькулятора уже была написана и отлажена, выяснилось,
что неудобно вначале запускать ее, вводить выражение, а затем выходить
из калькулятора. Тем более, что обычно нужно просто вычислить одно
выражение. Если это выражение задать как параметр командной строки
запуска калькулятора, то можно сэкономить несколько нажатий клавиши.
Как уже было сказано, выполнение программы начинается вызовом main().
При этом вызове main() получает два параметра: число параметров (обычно
называемый argc) и массив строк параметров (обычно называемый argv).
Параметры - это символьные строки, поэтому argv имеет тип char*[argc+1].
Имя программы (в том виде, как оно было задано в командной строке)
передается в argv[0], поэтому argc всегда не меньше единицы. Например,
для командной строки
dc 150/1.1934
параметры имеют значения:
argc 2
argv[0] "dc"
argv[1] "150/1.1934"
argv[2] 0
Добраться до параметров командной строки просто; проблема в том, как
использовать их так, чтобы не менять саму программу. В данном случае это
оказывается совсем просто, поскольку входной поток может быть настроен
на символьную строку вместо файла ($$10.5.2). Например, можно определить
cin так, чтобы символы читались из строки, а не из стандартного
входного потока:
int main(int argc, char* argv[])
{
switch(argc) {
case 1: // считывать из стандартного входного потока
break;
case 2: // считывать из строки параметров
cin = *new istream(argv[1],strlen(argv[1]));
break;
default:
error("слишком много параметров");
return 1;
}
// дальше прежний вариант main
}
При этом istrstream - это функция istream, которая считывает
символы из строки, являющейся ее первым параметром. Чтобы использовать
istrstream нужно включить в программу файл <strstream.h>, а не
обычный <iostream.h>. В остальном же программа осталась без изменений,
кроме добавления параметров в функцию main() и использования их
в операторе switch. Можно легко изменить функцию main() так, чтобы она
могла принимать несколько параметров из командной строки. Однако
это не слишком нужно, тем более, что можно нескольких выражений
передать как один параметр:
dc "rate=1.1934;150/rate;19.75/rate;217/rate"
Кавычки необходимы потому, что символ ';' служит в системе UNIX
разделителем команд. В других системах могут быть свои соглашения о
параметрах командной строки.
Полное и подробное описание операций языка С++ дано в $$R.7. Советуем
прочитать этот раздел. Здесь же приводится краткая сводка операций и
несколько примеров. Каждая операция сопровождается одним или
несколькими характерными для нее именами и примером ее использования.
В этих примерах class_name обозначает имя класса, member - имя члена,
object - выражение, задающее объект класса, pointer - выражение, задающее
указатель, expr - просто выражение, а lvalue (адрес) - выражение,
обозначающее не являющийся константой объект. Обозначение (type) задает
имя типа в общем виде (с возможным добавлением *, () и т.д.).
Если оно указано без скобок, существуют ограничения.
Порядок применения унарных операций и операций присваивания
"справа налево", а всех остальных операций - "слева направо".
То есть, a=b=c означает a=(b=c), a+b+c означает (a+b)+c, и *p++ означает
*(p++), а не (*p)++.
____________________________________________________________
Операции С++
============================================================
:: Разрешение области видимости class_name :: member
:: Глобальное :: name
____________________________________________________________
. Выбор члена object . member
-> Выбор члена pointer -> member
[] Индексирование pointer [ expr ]
() Вызов функции expr ( expr_list )
() Структурное значение type ( expr_list )
sizeof Размер объекта sizeof expr
sizeof Размер типа sizeof ( type )
____________________________________________________________
++ Постфиксный инкремент lvalue ++
++ Префиксный инкремент ++ lvalue
-- Постфиксный декремент lvalue --
-- Префиксный декремент -- lvalue
~ Дополнение ~ expr
! Логическое НЕ ! expr
- Унарный минус - expr
+ Унарный плюс + expr
& Взятие адреса & lvalue
* Косвенность * expr
new Создание (размещение) new type
delete Уничтожение (освобождение) delete pointer
delete[] Уничтожение массива delete[] pointer
() Приведение(преобразование)типа ( type ) expr
____________________________________________________________
. * Выбор члена косвенный object . pointer-to-member
->* Выбор члена косвенный pointer -> pointer-to-member
____________________________________________________________
* Умножение expr * expr
/ Деление expr / expr
% Остаток от деления expr % expr
____________________________________________________________
+ Сложение (плюс) expr + expr
- Вычитание (минус) expr - expr
____________________________________________________________
Все операции таблицы, находящиеся между двумя ближайшими друг
к другу горизонтальными чертами,
имеют одинаковый приоритет. Приоритет операций уменьшается при
движении "сверху вниз". Например, a+b*c означает a+(b*c), так как *
имеет приоритет выше, чем +; а выражение a+b-c означает (a+b)-c,
поскольку + и - имеют одинаковый приоритет, и операции + и -
применяются "слева направо".
Э
____________________________________________________________
Операции С++ (продолжение)
============================================================
<< Сдвиг влево expr << expr
>> Сдвиг вправо expr >> expr
____________________________________________________________
< Меньше expr < expr
<= Меньше или равно expr <= expr
> Больше expr > expr
>= Больше или равно expr >= expr
____________________________________________________________
== Равно expr == expr
!= Не равно expr != expr
____________________________________________________________
& Поразрядное И expr & expr
____________________________________________________________
^ Поразрядное исключающее ИЛИ expr ^ expr
____________________________________________________________
| Поразрядное включающее ИЛИ expr | expr
____________________________________________________________
&& Логическое И expr && expr
____________________________________________________________
|| Логическое ИЛИ expr || expr
____________________________________________________________
? : Операция условия expr? expr : expr
____________________________________________________________
= Простое присваивание lvalue = expr
*= Присваивание с умножением lvalue *= expr
/= Присваивание с делением lvalue /= expr
%= Присваивание с взятием lvalue %= expr
остатка от деления
+= Присваивание со сложением lvalue += expr
-= Присваивание с вычитанием lvalue -= expr
<<= Присваивание со сдвигом влево lvalue <<= expr
>>= Присваивание со сдвигом вправо lvalue >>= expr
&= Присваивание с поразрядным И lvalue &= expr
|= Присваивание с поразрядным lvalue |= expr
включающим ИЛИ
^= Присваивание с поразрядным lvalue ^= expr
исключающим ИЛИ
____________________________________________________________
Запятая (последовательность) expr , expr
____________________________________________________________
Синтаксис языка С++ перегружен скобками, и разнообразие их применений
способно сбить с толку. Они выделяют фактические параметры при
вызове функций, имена типов, задающих функции, а также служат для
разрешения конфликтов между операциями с одинаковым приоритетом.
К счастью, последнее встречается не слишком часто, поскольку приоритеты
и порядок применения операций определены так, чтобы выражения вычислялись
"естественным образом" (т.е. наиболее распространенным образом).
Например, выражение
if (i<=0 || max<i) // ...
означает следующее: "Если i меньше или равно нулю, или если max меньше i".
То есть, оно эквивалентно
if ( (i<=0) || (max<i) ) // ...
но не эквивалентно допустимому, хотя и бессмысленному выражению
if (i <= (0||max) < i) // ...
Тем не менее, если программист не уверен в указанных правилах,
следует использовать скобки, причем некоторые предпочитают для
надежности писать более длинные и менее элегантные выражения, как:
if ( (i<=0) || (max<i) ) // ...
При усложнении подвыражений скобки используются чаще. Не надо, однако,
забывать, что сложные выражения являются источником ошибок. Поэтому,
если у вас появится ощущение, что в этом выражении нужны скобки,
лучше разбейте его на части и введите дополнительную переменную.
Бывают случаи, когда приоритеты операций не приводят к "естественному"
порядку вычислений. Например, в выражении
if (i&mask == 0) // ловушка! & применяется после ==
не происходит маскирование i (i&mask), а затем проверка результата
на 0. Поскольку у == приоритет выше, чем у &, это выражение эквивалентно
i&(mask==0). В этом случае скобки играют важную роль:
if ((i&mask) == 0) // ...
Имеет смысл привести еще одно выражение, которое вычисляется
совсем не так, как мог бы ожидать неискушенный пользователь:
if (0 <= a <= 99) // ...
Оно допустимо, но интерпретируется как (0<=a)<=99, и результат первого
сравнения равен или 0, или 1, но не значению a (если, конечно,
a не есть 1). Проверить, попадает ли a в диапазон 0...99, можно так:
if (0<=a && a<=99) // ...
Среди новичков распространена ошибка, когда в условии вместо ==
(равно) используют = (присвоить):
if (a = 7) // ошибка: присваивание константы в условии
// ...
Она вполне объяснима, поскольку в большинстве языков "=" означает "равно".
Для транслятора не составит труда сообщать об ошибках подобного рода.
Порядок вычисления подвыражений, входящих в выражение, не всегда
определен. Например:
int i = 1;
v[i] = i++;
Здесь выражение может вычисляться или как v[1]=1, или как v[2]=1.
Если нет ограничений на порядок вычисления подвыражений, то транслятор
получает возможность создавать более оптимальный код. Транслятору
следовало бы предупреждать о двусмысленных выражениях, но к сожалению
большинство из них не делает этого.
Для операций
&& || ,
гарантируется, что их левый операнд вычисляется раньше правого операнда.
Например, в выражении b=(a=2,a+1) b присвоится значение 3. Пример
операции || был дан в $$3.2.1, а пример операции && есть в $$3.3.1.
Отметим, что операция запятая отличается по смыслу от той запятой, которая
используется для разделения параметров при вызове функций. Пусть есть
выражения:
f1(v[i],i++); // два параметра
f2( (v[i],i++) ) // один параметр
Вызов функции f1 происходит с двумя параметрами: v[i] и i++, но
порядок вычисления выражений параметров неопределен. Зависимость
вычисления значений фактических параметров от порядка вычислений
- далеко не лучший стиль программирования. К тому же программа
становится непереносимой.
Вызов f2 происходит с одним параметром, являющимся выражением,
содержащим операцию запятая: (v[i], i++). Оно эквивалентно i++.
Скобки могут принудительно задать порядок вычисления. Например,
a*(b/c) может вычисляться как (a*b)/c (если только пользователь
видит в этом какое-то различие). Заметим, что для значений с плавающей
точкой результаты вычисления выражений a*(b/c) и (a*b)/ могут
различаться весьма значительно.
Операция ++ явно задает инкремент в отличие от неявного его задания
с помощью сложения и присваивания. По определению ++lvalue означает
lvalue+=1, что, в свою очередь означает lvalue=lvalue+1 при условии,
что содержимое lvalue не вызывает побочных эффектов. Выражение,
обозначающее операнд инкремента, вычисляется только один раз. Аналогично
обозначается операция декремента (--). Операции ++ и -- могут
использоваться как префиксные и постфиксные операции. Значением ++x
является новое (т. е. увеличенное на 1) значение x. Например, y=++x
эквивалентно y=(x+=1). Напротив, значение x++ равно прежнему значению x.
Например, y=x++ эквивалентно y=(t=x,x+=1,t), где t - переменная того
же типа, что и x.
Напомним, что операции инкремента и декремента указателя
эквивалентны сложению 1 с указателем или вычитанию 1 из указателя, причем
вычисление происходит в элементах массива, на который настроен
указатель. Так, результатом p++ будет указатель на следующий элемент.
Для указателя p типа T* следующее соотношение верно по определению:
long(p+1) == long(p) + sizeof(T);
Чаще всего операции инкремента и декремента используются для
изменения переменных в цикле. Например, копирование строки,
оканчивающейся нулевым символом, задается следующим образом:
inline void cpy(char* p, const char* q)
{
while (*p++ = *q++) ;
}
Язык С++ (подобно С) имеет как сторонников, так и противников именно
из-за такого сжатого, использующего сложные выражения стиля
программирования. Оператор
while (*p++ = *q++) ;
вероятнее всего, покажется невразумительным для незнакомых с С.
Имеет смысл повнимательнее посмотреть на такие конструкции, поскольку
для C и C++ они не является редкостью.
Сначала рассмотрим более традиционный способ копирования массива
символов:
int length = strlen(q)
for (int i = 0; i<=length; i++) p[i] = q[i];
Это неэффективное решение: строка оканчивается нулем; единственный
способ найти ее длину - это прочитать ее всю до нулевого символа;
в результате строка читается и для установления ее длины, и для
копирования, то есть дважды. Поэтому попробуем такой вариант:
for (int i = 0; q[i] !=0 ; i++) p[i] = q[i];
p[i] = 0; // запись нулевого символа
Поскольку p и q - указатели, можно обойтись без переменной i,
используемой для индексации:
while (*q !=0) {
*p = *q;
p++; // указатель на следующий символ
q++; // указатель на следующий символ
}
*p = 0; // запись нулевого символа
Поскольку операция постфиксного инкремента позволяет сначала использовать
значение, а затем уже увеличить его, можно переписать цикл так:
while (*q != 0) {
*p++ = *q++;
}
*p = 0; // запись нулевого символа
Отметим, что результат выражения *p++ = *q++ равен *q. Следовательно,
можно переписать наш пример и так:
while ((*p++ = *q++) != 0) { }
В этом варианте учитывается, что *q равно нулю только тогда, когда
*q уже скопировано в *p, поэтому можно исключить завершающее
присваивание нулевого символа. Наконец, можно еще более сократить
запись этого примера, если учесть, что пустой блок не нужен, а
операция "!= 0" избыточна, т.к. результат условного выражения и так
всегда сравнивается с нулем. В результате мы приходим к
первоначальному варианту, который вызывал недоумение:
while (*p++ = *q++) ;
Неужели этот вариант труднее понять, чем приведенные выше? Только
неопытным программистам на С++ или С! Будет ли последний вариант
наиболее эффективным по затратам времени и памяти? Если не считать
первого варианта с функцией strlen(), то это неочевидно. Какой из
вариантов окажется эффективнее, определяется как спецификой системы
команд, так и возможностями транслятора. Наиболее эффективный алгоритм
копирования для вашей машины можно найти в стандартной функции копирования