Страница:
– Да, воистину реклама – двигатель торговли!
– Бог с ней, с торговлей. Меня огорчает во всём этом деле столь лёгкая возможность искажения истинной цены культуры. Как несправедливо получается, что в популярности человека искусства, произведения искусства самую последнюю роль играет мнение знатоков!
– Не забывайте, что такой вывод верен только в том случае, если реклама находится в нечестных руках. Если же знатоки будут влиять на то, чтобы объём рекламы был пропорционален заслугам, то всё будет на своём месте!
– Это верно, – вздохнул мой собеседник, – но как этого у нас добиться?
Случайности, складывающиеся в законы
Двум… не бывать!
А теперь о погоде
– Бог с ней, с торговлей. Меня огорчает во всём этом деле столь лёгкая возможность искажения истинной цены культуры. Как несправедливо получается, что в популярности человека искусства, произведения искусства самую последнюю роль играет мнение знатоков!
– Не забывайте, что такой вывод верен только в том случае, если реклама находится в нечестных руках. Если же знатоки будут влиять на то, чтобы объём рекламы был пропорционален заслугам, то всё будет на своём месте!
– Это верно, – вздохнул мой собеседник, – но как этого у нас добиться?
Случайности, складывающиеся в законы
Кривая статистического распределения, построенная на основе большого числа измерений, испытаний или опросов, передаёт сущность событий и является их законом.
Пожалуй, первый вопрос, который заинтересует исследователя, – это стабильность кривой распределения. Действительно, если я знаю, что явление меняется медленно, то могу использовать сегодняшнюю кривую для предсказаний завтрашних событий.
В то же время сам факт систематического смещения кривых распределения весьма многозначителен и свидетельствует о каких-то важных переменах. Допустим, смещается кривая распределения солнечных дней, построенная по данным ряда десятилетий, – значит, происходят изменения в геофизических факторах, определяющих погоду; в изменениях кривой распределения среднего возраста жизни заложена информация о борьбе с болезнями, и т.д.
Напротив, если обнаруживается исключительное постоянство кривой распределения, например рождения мальчиков и девочек, то это значит, что отношение младенцев обоего пола есть генетическое свойство, глубоко запрятанное в живой клетке и не поддающееся влиянию внешней среды.
Покажем, какие богатые выводы можно сделать из постоянства статистических данных.
Во Франции в течение долгого времени число ежегодно рождавшихся мальчиков относилось к числу девочек как 22:21. Иными словами, нормальная кривая для этого отношения, построенная по месяцам за много лет, имеет максимум при 22:21. Просматривая записи рождений мальчиков и девочек в Париже (собранные за 39 лет), Лаплас нашёл, что максимум кривой лежит при отношении 26:25. (26:25 < 22:21). Используя теорию нормальной кривой, можно убедиться, что это отклонение – различие в дробях – не может быть случайным. А если так, то оно должно иметь реальное объяснение. «Когда я стал размышлять об этом, – пишет Лаплас, – то мне показалось, что замеченная разница зависит от того, что родители из деревни и провинции оставляют при себе мальчиков (мужчина в хозяйстве – более ценная рабочая сила), а в приют для подкидышей отправляют девочек». Он действительно изучил списки приютов и убедился в справедливости своего предположения.
Встречается множество случаев, когда нет преимуществ у отклонений по кривой «вправо» или «влево». А если эти отклонения являются суммарным эффектом большого числа случайностей, то распределение будет гауссовым. (Математики могут доказать справедливость этого утверждения достаточно строго.)
Если же мы ждали симметричной кривой, а получили «хвост» в одну сторону и даже в стороне от колокола наметился ещё один холмик поменьше, то над этим фактом стоит задуматься: вероятно, исследованию подвергалась неоднородная группа явлений. Как это может быть? Например, речь идёт об измерениях роста жителей какого-нибудь города, в котором живут представители двух рас. Пусть девяносто процентов жителей относится к высокорослой расе, а десять процентов – к низкорослой. В этом случае результаты измерений роста не создадут симметричную гауссову кривую: сбоку от среднего роста может наметиться добавочный горб кривой, во всяком случае, кривая распределения будет иметь разные хвосты влево и вправо.
Выводы статистики приобретают ценность тем большую, чем обширнее материал, на основе которого построена гауссова или иная статистическая кривая.
Имея перед глазами кривую статистического распределения или статистические таблицы, мы можем делать предсказания двух типов: уверенные – детерминистские, если речь идёт о средних значениях, и вероятностные – если речь идёт об индивидуальном событии. Правда, обычно вероятностные предсказания не распространяются на конкретное лицо. Скажем, если известно, что средний процент брака в цехе равен 1,5 процента, то есть смысл говорить о вероятности, что 15 деталей из тысячи, изготовленных слесарем Ивановым, попадут в ящик для стружки лишь в том случае, если об Иванове ничего не известно.
На земле живёт очень много людей, они выполняют похожие дела, совершают похожие поступки. Поэтому почти все события, в том числе и такие, которые кажутся редкими и исключительными, свершаются достаточно часто и являются предметом статистики.
Обратимся к таким печальным событиям, как автомобильные катастрофы. Их, оказывается, так много, что можно говорить не только о средних числах катастроф вообще, но и «рассортировать» их по типам причин, из-за которых они произошли. Исследователям известно, например, сколько аварий происходит по вине велосипедистов; есть данные для сравнения числа катастроф, происшедших по вине велосипедистов, имеющих фонари и не имеющих; в сводках автомобильных катастроф, публикуемых ООН, можно увидеть, как они распределяются по возрастным категориям водителей. Из этих сводок видно, что наиболее безопасными для окружающих являются водители среднего возраста; наиболее опасными оказываются мальчишки; небольшое увеличение числа несчастных случаев наблюдается у водителей, перешагнувших за семьдесят. Внутри каждой категории возрастов введены графы для разной погоды, разного времени дня и ночи и т.д. и т.п. И приходится только поражаться стабильности этих данных.
Отнесённые к числу, характеризующему интенсивность движения в стране (что-то вроде числа автомобилей на число километров дорог), данные по катастрофам оказываются совершенно универсальными.
Казалось бы, что может быть случайнее столкновения двух машин. Здесь и усталость водителей, и состояние дороги, и то, что автоинспектора называют «дорожная обстановка», тут и случайно подвернувшийся прохожий, и каток, оставленный на обочине дорожными рабочими, тут и состояние тормозов автомобилей, и ещё бесчисленное множество маленьких и больших факторов. Да, действительно, это типично случайное событие, но так как причин очень много, то законы статистики здесь выполняются безупречно строго.
Недавно был опубликован анализ статистических данных, казалось бы, очень редких событий – исследовалось творчество в области научно-технической деятельности. В статье ставился вопрос: сколь часто одно и то же открытие или изобретение делается одновременно несколькими людьми. Обработка материала привела к следующим выводам: за определённый промежуток времени два человека одновременно пришли к одному научному результату в 179 случаях, три человека – в 51, четыре человека – в 17, пять человек – в 6… Исследователь убедительно показал, что к творческой научной деятельности можно смело применять законы теории вероятностей. Рассуждал он следующим образом.
Представьте себе сад научных открытий. В нём имеется яблоня, на которой растёт тысяча спелых яблок. По саду гуляет тысяча учёных, глаза которых завязаны. Их подводят к яблоне и просят одновременно сорвать по одному яблоку. (Поскольку задача математическая, то мы просим снисхождения к реальности обстановки.) Предполагается, что каждый из участников может дотянуться с равной вероятностью до любого яблока. При такой постановке вопроса можно рассчитать, каковы же шансы обнаружить на одном яблоке одну или несколько рук друзей по профессии. Получаются данные, поразительно близкие к тем, которые мы привели выше.
Статистические распределения всегда представляют познавательный интерес, а в очень многих случаях знание статистики даёт руководство к действиям.
Остановимся же на двух важных примерах: на страховании жизни и предсказании погоды.
Пожалуй, первый вопрос, который заинтересует исследователя, – это стабильность кривой распределения. Действительно, если я знаю, что явление меняется медленно, то могу использовать сегодняшнюю кривую для предсказаний завтрашних событий.
В то же время сам факт систематического смещения кривых распределения весьма многозначителен и свидетельствует о каких-то важных переменах. Допустим, смещается кривая распределения солнечных дней, построенная по данным ряда десятилетий, – значит, происходят изменения в геофизических факторах, определяющих погоду; в изменениях кривой распределения среднего возраста жизни заложена информация о борьбе с болезнями, и т.д.
Напротив, если обнаруживается исключительное постоянство кривой распределения, например рождения мальчиков и девочек, то это значит, что отношение младенцев обоего пола есть генетическое свойство, глубоко запрятанное в живой клетке и не поддающееся влиянию внешней среды.
Покажем, какие богатые выводы можно сделать из постоянства статистических данных.
Во Франции в течение долгого времени число ежегодно рождавшихся мальчиков относилось к числу девочек как 22:21. Иными словами, нормальная кривая для этого отношения, построенная по месяцам за много лет, имеет максимум при 22:21. Просматривая записи рождений мальчиков и девочек в Париже (собранные за 39 лет), Лаплас нашёл, что максимум кривой лежит при отношении 26:25. (26:25 < 22:21). Используя теорию нормальной кривой, можно убедиться, что это отклонение – различие в дробях – не может быть случайным. А если так, то оно должно иметь реальное объяснение. «Когда я стал размышлять об этом, – пишет Лаплас, – то мне показалось, что замеченная разница зависит от того, что родители из деревни и провинции оставляют при себе мальчиков (мужчина в хозяйстве – более ценная рабочая сила), а в приют для подкидышей отправляют девочек». Он действительно изучил списки приютов и убедился в справедливости своего предположения.
Встречается множество случаев, когда нет преимуществ у отклонений по кривой «вправо» или «влево». А если эти отклонения являются суммарным эффектом большого числа случайностей, то распределение будет гауссовым. (Математики могут доказать справедливость этого утверждения достаточно строго.)
Если же мы ждали симметричной кривой, а получили «хвост» в одну сторону и даже в стороне от колокола наметился ещё один холмик поменьше, то над этим фактом стоит задуматься: вероятно, исследованию подвергалась неоднородная группа явлений. Как это может быть? Например, речь идёт об измерениях роста жителей какого-нибудь города, в котором живут представители двух рас. Пусть девяносто процентов жителей относится к высокорослой расе, а десять процентов – к низкорослой. В этом случае результаты измерений роста не создадут симметричную гауссову кривую: сбоку от среднего роста может наметиться добавочный горб кривой, во всяком случае, кривая распределения будет иметь разные хвосты влево и вправо.
Выводы статистики приобретают ценность тем большую, чем обширнее материал, на основе которого построена гауссова или иная статистическая кривая.
Имея перед глазами кривую статистического распределения или статистические таблицы, мы можем делать предсказания двух типов: уверенные – детерминистские, если речь идёт о средних значениях, и вероятностные – если речь идёт об индивидуальном событии. Правда, обычно вероятностные предсказания не распространяются на конкретное лицо. Скажем, если известно, что средний процент брака в цехе равен 1,5 процента, то есть смысл говорить о вероятности, что 15 деталей из тысячи, изготовленных слесарем Ивановым, попадут в ящик для стружки лишь в том случае, если об Иванове ничего не известно.
На земле живёт очень много людей, они выполняют похожие дела, совершают похожие поступки. Поэтому почти все события, в том числе и такие, которые кажутся редкими и исключительными, свершаются достаточно часто и являются предметом статистики.
Обратимся к таким печальным событиям, как автомобильные катастрофы. Их, оказывается, так много, что можно говорить не только о средних числах катастроф вообще, но и «рассортировать» их по типам причин, из-за которых они произошли. Исследователям известно, например, сколько аварий происходит по вине велосипедистов; есть данные для сравнения числа катастроф, происшедших по вине велосипедистов, имеющих фонари и не имеющих; в сводках автомобильных катастроф, публикуемых ООН, можно увидеть, как они распределяются по возрастным категориям водителей. Из этих сводок видно, что наиболее безопасными для окружающих являются водители среднего возраста; наиболее опасными оказываются мальчишки; небольшое увеличение числа несчастных случаев наблюдается у водителей, перешагнувших за семьдесят. Внутри каждой категории возрастов введены графы для разной погоды, разного времени дня и ночи и т.д. и т.п. И приходится только поражаться стабильности этих данных.
Отнесённые к числу, характеризующему интенсивность движения в стране (что-то вроде числа автомобилей на число километров дорог), данные по катастрофам оказываются совершенно универсальными.
Казалось бы, что может быть случайнее столкновения двух машин. Здесь и усталость водителей, и состояние дороги, и то, что автоинспектора называют «дорожная обстановка», тут и случайно подвернувшийся прохожий, и каток, оставленный на обочине дорожными рабочими, тут и состояние тормозов автомобилей, и ещё бесчисленное множество маленьких и больших факторов. Да, действительно, это типично случайное событие, но так как причин очень много, то законы статистики здесь выполняются безупречно строго.
Недавно был опубликован анализ статистических данных, казалось бы, очень редких событий – исследовалось творчество в области научно-технической деятельности. В статье ставился вопрос: сколь часто одно и то же открытие или изобретение делается одновременно несколькими людьми. Обработка материала привела к следующим выводам: за определённый промежуток времени два человека одновременно пришли к одному научному результату в 179 случаях, три человека – в 51, четыре человека – в 17, пять человек – в 6… Исследователь убедительно показал, что к творческой научной деятельности можно смело применять законы теории вероятностей. Рассуждал он следующим образом.
Представьте себе сад научных открытий. В нём имеется яблоня, на которой растёт тысяча спелых яблок. По саду гуляет тысяча учёных, глаза которых завязаны. Их подводят к яблоне и просят одновременно сорвать по одному яблоку. (Поскольку задача математическая, то мы просим снисхождения к реальности обстановки.) Предполагается, что каждый из участников может дотянуться с равной вероятностью до любого яблока. При такой постановке вопроса можно рассчитать, каковы же шансы обнаружить на одном яблоке одну или несколько рук друзей по профессии. Получаются данные, поразительно близкие к тем, которые мы привели выше.
Статистические распределения всегда представляют познавательный интерес, а в очень многих случаях знание статистики даёт руководство к действиям.
Остановимся же на двух важных примерах: на страховании жизни и предсказании погоды.
Двум… не бывать!
Люди не очень любят размышлять о грядущей неприятности, а тем более о кончине дней своих и своих близких. По этой причине наш разговор о статистике смертей может показаться излишним и бестактным. Однако наступает день, когда мы начинаем интересоваться дальнейшей своей судьбой и вопросами страховки.
Допустим, вы хотите застраховать в одну тысячу рублей свой дом от пожара, своё имущество от кражи или свою жизнь от смерти сроком на один год. То есть вы хотите, чтобы в случае, если произойдёт какая-либо из этих неприятностей, вам (или вашим наследникам) уплатили тысячу рублей. Чему должен равняться страховой взнос за год, чтобы государству (или страховой компании) имело бы смысл заключить с вами контракт?
Нетрудно сообразить, что суть дела состоит в том, чтобы знать вероятность того несчастного случая, от которого вы себя страхуете. Не всегда это простая задача. Волей-неволей страховой агент должен абстрагироваться от частностей, скажем он постарается учесть состояние вашего здоровья, чтобы отнести вас к определённой категории плательщиков. Правда, ему останется неизвестно, насколько умело и нерискованно вы водите свой автомобиль или насколько вы вспыльчивы и как часто вступаете в уличные драки. Однако, пренебрегая всем этим и многим другим, Госстрах отнесёт вас к одной из возрастных категорий, составленных на основании длительных наблюдений и о которых известна статистика смертей. Эти статистические данные сведены в таблицы «дожития». В них записано, сколько из миллиона родившихся в один и тот же год мужчин в данной категории доживают до определённого возраста. Например, во Франции в 1895 году (у меня эти таблицы под рукой, а все примеры одинаково показательны) до 40 лет доживало 717 338 человек, а до 41 года – 711 352 человека. Таким образом, вероятность сорокалетнего человека прожить ближайший год равняется 0,992, соответственно вероятность умереть равняется 0,008. Из миллиона человек до 80 лет «добралось» 166 162, до 81 года – 145 553. Вероятность прожить год с 80 до 81 уже равняется 0,876, а вероятность покинуть мир 0,124.
Чтобы вести свою работу, так сказать, «вничью», страховой организации следует определить страховые взносы по страховкам следующим образом. Меньше чем в одном случае из ста страховок придётся выплатить тысячу рублей семьям сорокалетних клиентов. Чтобы оправдать эту тысячу рублей, надо установить страховой взнос что-нибудь около 10 рублей в год за тысячу рублей страховки. Принимая во внимание, что страхование должно приносить доход, эта сумма должна быть соответственно увеличена. Страховка восьмидесятилетних стариков возможна лишь на гораздо более дорогих началах: из ста страховок уплатить придётся в среднем более чем в двенадцати случаях. Следовательно, годовой страховой взнос должен быть выше чем 120 рублей за тысячу.
Надеюсь, что читатель не сердится на меня за напоминание о конечности жизни; мне кажется, что «Momento mori!» – полезный возглас. Человек живёт значительно разумнее, спокойнее и полнее, если он время от времени вспоминает о сроке, отпущенном ему природой, зная, сколько «в среднем» живут люди его возраста.
Кстати, для ответа на этот последний вопрос существуют особые таблицы среднего срока ожидаемой жизни. Скажем, для пятидесяти лет этот срок близок к 20 годам, для шестидесяти – к 13, для семидесяти – к 8 и для восьмидесяти – к 4 годам. Смысл этих чисел таков: средняя продолжительность жизни лиц, перешагнувших за пятьдесят, равна 70 годам, за шестьдесят – 73, за семьдесят – 78 и за восемьдесят – 84.
Так что не надо прибегать к услугам кукушки, чтобы выяснить, сколько ещё осталось лет для того, чтобы поумнее распорядиться своей жизнью.
Допустим, вы хотите застраховать в одну тысячу рублей свой дом от пожара, своё имущество от кражи или свою жизнь от смерти сроком на один год. То есть вы хотите, чтобы в случае, если произойдёт какая-либо из этих неприятностей, вам (или вашим наследникам) уплатили тысячу рублей. Чему должен равняться страховой взнос за год, чтобы государству (или страховой компании) имело бы смысл заключить с вами контракт?
Нетрудно сообразить, что суть дела состоит в том, чтобы знать вероятность того несчастного случая, от которого вы себя страхуете. Не всегда это простая задача. Волей-неволей страховой агент должен абстрагироваться от частностей, скажем он постарается учесть состояние вашего здоровья, чтобы отнести вас к определённой категории плательщиков. Правда, ему останется неизвестно, насколько умело и нерискованно вы водите свой автомобиль или насколько вы вспыльчивы и как часто вступаете в уличные драки. Однако, пренебрегая всем этим и многим другим, Госстрах отнесёт вас к одной из возрастных категорий, составленных на основании длительных наблюдений и о которых известна статистика смертей. Эти статистические данные сведены в таблицы «дожития». В них записано, сколько из миллиона родившихся в один и тот же год мужчин в данной категории доживают до определённого возраста. Например, во Франции в 1895 году (у меня эти таблицы под рукой, а все примеры одинаково показательны) до 40 лет доживало 717 338 человек, а до 41 года – 711 352 человека. Таким образом, вероятность сорокалетнего человека прожить ближайший год равняется 0,992, соответственно вероятность умереть равняется 0,008. Из миллиона человек до 80 лет «добралось» 166 162, до 81 года – 145 553. Вероятность прожить год с 80 до 81 уже равняется 0,876, а вероятность покинуть мир 0,124.
Чтобы вести свою работу, так сказать, «вничью», страховой организации следует определить страховые взносы по страховкам следующим образом. Меньше чем в одном случае из ста страховок придётся выплатить тысячу рублей семьям сорокалетних клиентов. Чтобы оправдать эту тысячу рублей, надо установить страховой взнос что-нибудь около 10 рублей в год за тысячу рублей страховки. Принимая во внимание, что страхование должно приносить доход, эта сумма должна быть соответственно увеличена. Страховка восьмидесятилетних стариков возможна лишь на гораздо более дорогих началах: из ста страховок уплатить придётся в среднем более чем в двенадцати случаях. Следовательно, годовой страховой взнос должен быть выше чем 120 рублей за тысячу.
Надеюсь, что читатель не сердится на меня за напоминание о конечности жизни; мне кажется, что «Momento mori!» – полезный возглас. Человек живёт значительно разумнее, спокойнее и полнее, если он время от времени вспоминает о сроке, отпущенном ему природой, зная, сколько «в среднем» живут люди его возраста.
Кстати, для ответа на этот последний вопрос существуют особые таблицы среднего срока ожидаемой жизни. Скажем, для пятидесяти лет этот срок близок к 20 годам, для шестидесяти – к 13, для семидесяти – к 8 и для восьмидесяти – к 4 годам. Смысл этих чисел таков: средняя продолжительность жизни лиц, перешагнувших за пятьдесят, равна 70 годам, за шестьдесят – 73, за семьдесят – 78 и за восемьдесят – 84.
Так что не надо прибегать к услугам кукушки, чтобы выяснить, сколько ещё осталось лет для того, чтобы поумнее распорядиться своей жизнью.
А теперь о погоде
Вряд ли есть радиопередача, пользующаяся большей популярностью, чем сообщение о погоде. Хорошая погода для человека – это залог хорошего настроения. Ведь план ближайшего дня иногда сильно зависит от погоды, не говоря уже о планах отпуска.
Прогноз погоды слушают внимательно: негодуют, когда он не выполняется, радуются удачам метеорологов.
Метеостанции, раскиданные по всем уголкам земного шара, ведут систематические наблюдения за погодой уже много десятков лет. Ими накоплен огромный материал о температуре воздуха и почвы, об облачности и ветре, о давлении и количестве осадков. Хотите узнать, какая температура воздуха была в 10 часов утра 12 июля 1927 года в городе Ефремове? Пожалуйста, порывшись в архивах, вы найдёте эти сведения. Все они обрабатываются по тем правилам, которые мы обсуждали.
Для каждого элемента погоды построены самые разные кривые распределения. Ведь не угадаешь наперёд, какие случайные величины заинтересуют специалиста, планирующего сельскохозяйственные работы, и курортника, интересующегося погодой в прогулочных целях. В метеорологических справочниках приведены средняя годовая температура, средняя месячная температура, средняя максимальная температура (для каждого дня всегда отмечается верхняя отметка, до которой добиралась ртуть термометра), средняя минимальная температура… Все эти величины подвержены беспорядочным (и систематическим) колебаниям. Поэтому интересны средние отклонения от средних значений для всех этих величин.
В этом году я собираюсь поехать встречать Новый год в Сухуми или Гагру. Перед принятием такого решения я выписал из библиотеки справочник по климату и с нудной дотошностью учёного деятеля стал анализировать данные о погоде этих мест.
Оказалось, что у меня есть шансы попасть в настоящую жару. В городе Сухуми в январе был однажды зафиксирован абсолютный максимум температуры в 24 градуса. Вспомнив, о чём писал на предыдущих страницах, я решил не полагаться на мизерную вероятность повторения такой температуры в эту зиму и в соответствующей таблице нашёл «средний из абсолютных максимумов». (Это вот что такое. Каждый год отмечается максимальная температура января, февраля и т.д. «Среднее», о котором говорится, было выведено чуть ли не за 100 лет.) «Средний абсолютный максимум» оказался равен 18 градусам. А на такую температуру, хотя бы в течение одного-двух дней, уже можно рассчитывать даже невезучему субъекту. Восемнадцать градусов в тени – этого совершенно достаточно, чтобы с полным наслаждением загорать; а загорать на солнце в январе – это совершенно превосходно. Значит, беру отпуск в январе.
Но, скажет внимательный читатель, знание одного лишь среднего значения абсолютных максимумов совершенно недостаточно, чтобы судить о вероятности события. Ведь нормальная кривая может быть очень плоской, колокол может быть невысоким, и тогда вероятность среднего будет невелика.
Правильно. Такие 18 градусов – сомнительный залог блаженства. Я продолжаю листать справочник и нахожу то, что требуется. Другая таблица даёт значение «среднего отклонения» «средней максимальной температуры» от «многолетнего среднего январского»: это 2 градуса. («Среднее отклонение» – это ещё одна характеристика ширины кривой нормального распределения. Полуширина кривой, с которой мы подробно знакомили читателя, немного больше «среднего отклонения».)
Как получены эти 2 градуса? Предположим, в 1900 году средняя январская температура равнялась 15 градусам, в 1901 году – 14, в 1902 – 18, в 1903 – 20, в 1904 – 17 и т.д. Поместив рядом, в следующей графе таблицы, абсолютные отклонения от среднего (то есть от 18 градусов), получим для 1900 года – 3, 1901 – 4, 1902 – 0, 1903 – 2, 1904 – 1 и т.д. Теперь остаётся сложить эти цифры за все годы наблюдений и разделить на число лет. Так были получены эти 2 градуса.
Добыв «среднее отклонение», я значительно прояснил условия проведения своего отпуска. То есть могу достаточно смело рассчитывать на то, что встречусь с такими днями, когда температура будет лежать в пределах 16—20 градусов. Ну а будут ли отклонения от 18 градусов больше 2? Возможно. Но если температура не поднимается выше 14 градусов (отклонение в два раза больше среднего), то я буду считать, что мне не повезло. Если же за месяц пребывания в Сухуми столбик термометра не пересечёт 12 градусов – это уже редкостное невезение, и старожилы скажут, что такого они не помнят.
На этом можно было бы закончить разговор о метеорологических исследованиях, но я засомневался в его исчерпывающей полноте. Наши рассуждения насчёт вероятности отклонений справедливы в том случае, если распределение температуры подчиняется нормальному гауссову закону. А подчиняется ли оно на самом деле? Данные о «среднем значении» и о «среднем отклонении» от среднего – это хорошо, а «полная кривая распределения» всё-таки лучше. Какова она?
Составители справочника предусмотрели и такой запрос и привели данные для построения многолетней средней кривой распределения максимальных температур января. Согласно этим данным ниже нуля температура в январе не наблюдалась ни разу. В среднем 2,2 дня в январе имеют температуру между 0 и 5 градусами (можно сказать и так: вероятность температуры между 0 и 5 градусами в январе в городе Сухуми равняется 2,2/31, то есть 0,07 (семь процентов шансов). Температура между 5 и 10 градусами наблюдалась в среднем в течение 11,3 дня января; между 10 и 15 градусами – 12,4 дня; между 15 и 20 – 4,7 и, наконец, между 20 и 25 градусами – 0,4 дня. Я построил кривую и увидел, что все в порядке – получилась нормальная колоколообразная кривая.
Дни с температурой выше 10 градусов (в Москве в это время мороз и заносы) я считаю превосходной погодой: можно загорать, купаться, ходить на водных лыжах, кататься на катере. А таких дней в среднем за месяц будет 17,5, то есть больше половины. Значит, вероятность хорошей погоды одна вторая: орёл или решка? Можно рискнуть – взять отпуск в январе и поехать загорать в Сухуми.
Итак, вы видите, что справочник по климату может великолепно служить руководством к действию: при его помощи можно делать определённые прогнозы. Некоторые предсказания оказываются почти категорическими: в январе в Сухуми температура ниже 0 не опускается, до плюс 12 в какие-то дни она повысится непременно и т.д. Менее решительные суждения могут быть сформулированы в виде предположений. И кой-какие прогнозы можно делать и без глубоких соображений. Разумеется, носят они вероятностный характер, но сохраняют этот характер и в том случае, когда их делают специалисты.
– Старожилы говорят, что такого не помнят, – сказал он. – Аномалия. Не повезло. А что сказало бюро погоды?
– Обещают на завтра такую же погоду, как сегодня, – и после паузы: – Слушай, давай уедем, чёрт с ними, с путёвками.
– Не угадаешь. Уедешь, и как раз дожди кончатся. Хоть бы наука помогла. Вычислить вероятность продолжения дождей, что ли, а потом решить?
– Разве можно такие вещи вычислять? – с недоверием спросила она. – А потом… ну, допустим, вычислишь, получишь 30 процентов за дождь, а 70 против. Решим остаться и… проиграем. При 70 проиграть не так уж трудно.
Честно говоря, я не решился бы дать совет этой паре. Проиграть не так уж трудно и при шансах на выигрыш в 90 процентов. Но всё же, если следовать вероятности всегда, то, подводя итоги, придёшь к выводу, что расчёты помогли.
Что же касается возможности рассчитать, будет ли дождь идти завтра после того, как он уже льёт целую неделю, то она имеется. Существует довольно простая формула математика прошлого Томаса Бейеса, опубликованная впервые в 1763 году в его посмертной работе «Опыт решения одной проблемы теории вероятностей». В ней впервые был поставлен вопрос о том, как может быть использована теория вероятностей для составления того или иного суждения о явлении, располагая лишь ограниченным рядом наблюдений. Пусть перед нами урна с шарами. Шары могут быть только белыми, могут быть только чёрными, а могут быть и белые и чёрные, то есть состав шаров – смешанный. Мы скажем, что любой состав урны имеет равные априорные вероятности.
(Что такое априорные? Латынь, которая обильно украшала научные сочинения прошлого, вышла сейчас из моды, но некоторые слова оказались стойкими. К ним относятся a priori и a posteriori, что означает «до опыта» и «после опыта». Впрочем, даже и в этом случае мы предпочитаем вводить соответствующие русские прилагательные.)
Предположим, мы вытащили один шар: он оказался белым. Ситуация после этого сразу изменилась, поскольку уже ясно, что предположение, будто все шары чёрные, надо отбросить. А если мы вытащили 5 белых шаров подряд? Этот факт сильно повышает вероятность гипотезы, что в урне много белых шаров. Можно ли выяснить, какова вероятность, что белых шаров 100 процентов, или 90, или 80, после того, как произведён опыт? Или короче – какова априорная вероятность того, что в урне столько-то белых шаров после того, как мы вытащили из урны 5 белых шаров?
Вот такие и подобные проблемы решал Бейес в своей работе.
Одна из формул, выведенных Бейесом, отвечает на вопрос, который интересовал неудачливую пару, попавшую в полосу дождей. Если какое-то событие произошло несколько раз, то можно высчитать, какова вероятность его свершения и в следующий раз. Формула, как говорилось, очень простая, и её можно привести здесь, прибегнув – увы! – к алгебраическим символам, навевающим на некоторых все же страх или скуку: p=(q+1)/(q+2) (вероятность равна дроби, числитель которой равен числу происшедших событий плюс единица, а знаменатель равен этому же числу плюс два). Значит, если дождь идёт один день, то вероятность, что он будет идти завтра, равна 2/3, если дождь идёт два дня, то назавтра вы можете ждать такой же погоды с вероятностью 3/4, три дня – 4/5… восемь дней – 9/10. Просто, не правда ли?
Но если бездумно применять эту формулу, то можно прийти к абсурду. Например, я два раза набирал по телефону 01, вызывая пожарную команду, и она приезжала: значит, если я буду вызывать её третий раз, то она прибудет тушить пожар с вероятностью в 75 процентов. Глупо ведь? Конечно, глупо. Или в этом году с Эйфелевой башни бросились и разбились две девушки, обманутые женихами. Значит, следующая имеет шанс из четырех остаться в живых. Глупо? Конечно, глупо. Но при чём здесь наша простая формула? Прочитав внимательно работу этого превосходного математика, мы увидим, что формула введена в предположении, что о вероятности единичного события нам неизвестно ровно ничего, то есть что эта вероятность может быть любой – от 0 до 1.
Итак, формулу Бейеса следует применять в том случае, когда мы ровно ничего не знаем о единичном событии. Так ли обстоит дело с дождливой погодой?
На основании многолетних наблюдений в городе Брюсселе установлено, что если дождь идёт 1 день, то вероятность того, что он будет идти и завтра, равняется 0,63; если дождь идёт 2 дня – его вероятность на завтра равна 0,68, 3 дня – 0,70, 5 дней – 0,73. Согласно же формуле Бейеса мы должны были бы иметь 0,66; 0,75; 0,80 и 0,86. Хотя опыт и теория близки, полного совпадения нет: формула оказывается несколько более пессимистична, чем реальная действительность.
Лучше совпадают с выводами теоремы Бейеса данные, полученные при наблюдении смены температуры. По данным того же города Брюсселя, вероятность того, что завтра температура будет такой же, как и вчера, равна 0,75; если 2 дня температура была неизменной, то она останется такой же и завтра с вероятностью 0,76; если 3 дня неизменна, то сохранится и завтра с вероятностью 0,78; если 5 дней, то с вероятностью 0,83, и если температура не менялась 10 дней, то с вероятностью 0,85 она останется той же и в 11-й день.
Как видите, предсказание по принципу «сегодня как вчера» имеет обоснование в теории вероятности. Большинство прогнозов погоды носит именно такой характер, а чтобы судить о научной мощи предсказаний, надо было бы скидывать со счётов все прогнозы типа «погода остаётся без изменений». Кажется, так метеорологи и поступают, когда испытывают новые теории и схемы предсказания погоды. Предвидение потепления или похолодания – вот в чём должно проявиться понимание законов климата.
Но вернёмся к работе Бейеса. Мы проиллюстрировали примерами лишь одну из формул его теории, касающихся вероятности повторения событий. Но оправданы также попытки предсказания будущего и тогда, когда ряд событий неоднороден и состоит из чередующихся удач и неудач. В этом случае формула Бейеса меняется лишь незначительно: в её знаменателе будет стоять полное число событий плюс 2. Например, если проведённая на курорте неделя (7 дней) порадовала нас всего лишь одним хорошим днём, то вероятность дождя на восьмой день нашего отдыха будет вычисляться так: P=(6+1)/(7+2)=7/9.
Прогноз погоды слушают внимательно: негодуют, когда он не выполняется, радуются удачам метеорологов.
Метеостанции, раскиданные по всем уголкам земного шара, ведут систематические наблюдения за погодой уже много десятков лет. Ими накоплен огромный материал о температуре воздуха и почвы, об облачности и ветре, о давлении и количестве осадков. Хотите узнать, какая температура воздуха была в 10 часов утра 12 июля 1927 года в городе Ефремове? Пожалуйста, порывшись в архивах, вы найдёте эти сведения. Все они обрабатываются по тем правилам, которые мы обсуждали.
Для каждого элемента погоды построены самые разные кривые распределения. Ведь не угадаешь наперёд, какие случайные величины заинтересуют специалиста, планирующего сельскохозяйственные работы, и курортника, интересующегося погодой в прогулочных целях. В метеорологических справочниках приведены средняя годовая температура, средняя месячная температура, средняя максимальная температура (для каждого дня всегда отмечается верхняя отметка, до которой добиралась ртуть термометра), средняя минимальная температура… Все эти величины подвержены беспорядочным (и систематическим) колебаниям. Поэтому интересны средние отклонения от средних значений для всех этих величин.
В этом году я собираюсь поехать встречать Новый год в Сухуми или Гагру. Перед принятием такого решения я выписал из библиотеки справочник по климату и с нудной дотошностью учёного деятеля стал анализировать данные о погоде этих мест.
Оказалось, что у меня есть шансы попасть в настоящую жару. В городе Сухуми в январе был однажды зафиксирован абсолютный максимум температуры в 24 градуса. Вспомнив, о чём писал на предыдущих страницах, я решил не полагаться на мизерную вероятность повторения такой температуры в эту зиму и в соответствующей таблице нашёл «средний из абсолютных максимумов». (Это вот что такое. Каждый год отмечается максимальная температура января, февраля и т.д. «Среднее», о котором говорится, было выведено чуть ли не за 100 лет.) «Средний абсолютный максимум» оказался равен 18 градусам. А на такую температуру, хотя бы в течение одного-двух дней, уже можно рассчитывать даже невезучему субъекту. Восемнадцать градусов в тени – этого совершенно достаточно, чтобы с полным наслаждением загорать; а загорать на солнце в январе – это совершенно превосходно. Значит, беру отпуск в январе.
Но, скажет внимательный читатель, знание одного лишь среднего значения абсолютных максимумов совершенно недостаточно, чтобы судить о вероятности события. Ведь нормальная кривая может быть очень плоской, колокол может быть невысоким, и тогда вероятность среднего будет невелика.
Правильно. Такие 18 градусов – сомнительный залог блаженства. Я продолжаю листать справочник и нахожу то, что требуется. Другая таблица даёт значение «среднего отклонения» «средней максимальной температуры» от «многолетнего среднего январского»: это 2 градуса. («Среднее отклонение» – это ещё одна характеристика ширины кривой нормального распределения. Полуширина кривой, с которой мы подробно знакомили читателя, немного больше «среднего отклонения».)
Как получены эти 2 градуса? Предположим, в 1900 году средняя январская температура равнялась 15 градусам, в 1901 году – 14, в 1902 – 18, в 1903 – 20, в 1904 – 17 и т.д. Поместив рядом, в следующей графе таблицы, абсолютные отклонения от среднего (то есть от 18 градусов), получим для 1900 года – 3, 1901 – 4, 1902 – 0, 1903 – 2, 1904 – 1 и т.д. Теперь остаётся сложить эти цифры за все годы наблюдений и разделить на число лет. Так были получены эти 2 градуса.
Добыв «среднее отклонение», я значительно прояснил условия проведения своего отпуска. То есть могу достаточно смело рассчитывать на то, что встречусь с такими днями, когда температура будет лежать в пределах 16—20 градусов. Ну а будут ли отклонения от 18 градусов больше 2? Возможно. Но если температура не поднимается выше 14 градусов (отклонение в два раза больше среднего), то я буду считать, что мне не повезло. Если же за месяц пребывания в Сухуми столбик термометра не пересечёт 12 градусов – это уже редкостное невезение, и старожилы скажут, что такого они не помнят.
На этом можно было бы закончить разговор о метеорологических исследованиях, но я засомневался в его исчерпывающей полноте. Наши рассуждения насчёт вероятности отклонений справедливы в том случае, если распределение температуры подчиняется нормальному гауссову закону. А подчиняется ли оно на самом деле? Данные о «среднем значении» и о «среднем отклонении» от среднего – это хорошо, а «полная кривая распределения» всё-таки лучше. Какова она?
Составители справочника предусмотрели и такой запрос и привели данные для построения многолетней средней кривой распределения максимальных температур января. Согласно этим данным ниже нуля температура в январе не наблюдалась ни разу. В среднем 2,2 дня в январе имеют температуру между 0 и 5 градусами (можно сказать и так: вероятность температуры между 0 и 5 градусами в январе в городе Сухуми равняется 2,2/31, то есть 0,07 (семь процентов шансов). Температура между 5 и 10 градусами наблюдалась в среднем в течение 11,3 дня января; между 10 и 15 градусами – 12,4 дня; между 15 и 20 – 4,7 и, наконец, между 20 и 25 градусами – 0,4 дня. Я построил кривую и увидел, что все в порядке – получилась нормальная колоколообразная кривая.
Дни с температурой выше 10 градусов (в Москве в это время мороз и заносы) я считаю превосходной погодой: можно загорать, купаться, ходить на водных лыжах, кататься на катере. А таких дней в среднем за месяц будет 17,5, то есть больше половины. Значит, вероятность хорошей погоды одна вторая: орёл или решка? Можно рискнуть – взять отпуск в январе и поехать загорать в Сухуми.
Итак, вы видите, что справочник по климату может великолепно служить руководством к действию: при его помощи можно делать определённые прогнозы. Некоторые предсказания оказываются почти категорическими: в январе в Сухуми температура ниже 0 не опускается, до плюс 12 в какие-то дни она повысится непременно и т.д. Менее решительные суждения могут быть сформулированы в виде предположений. И кой-какие прогнозы можно делать и без глубоких соображений. Разумеется, носят они вероятностный характер, но сохраняют этот характер и в том случае, когда их делают специалисты.
* * *
– Это ни на что не похоже, – сказала она тоскливо. – Пропал весь отпуск. Дождь и дождь не переставая. Сколько можно! А ещё говорят, что этот месяц обычно не очень дождливый.– Старожилы говорят, что такого не помнят, – сказал он. – Аномалия. Не повезло. А что сказало бюро погоды?
– Обещают на завтра такую же погоду, как сегодня, – и после паузы: – Слушай, давай уедем, чёрт с ними, с путёвками.
– Не угадаешь. Уедешь, и как раз дожди кончатся. Хоть бы наука помогла. Вычислить вероятность продолжения дождей, что ли, а потом решить?
– Разве можно такие вещи вычислять? – с недоверием спросила она. – А потом… ну, допустим, вычислишь, получишь 30 процентов за дождь, а 70 против. Решим остаться и… проиграем. При 70 проиграть не так уж трудно.
Честно говоря, я не решился бы дать совет этой паре. Проиграть не так уж трудно и при шансах на выигрыш в 90 процентов. Но всё же, если следовать вероятности всегда, то, подводя итоги, придёшь к выводу, что расчёты помогли.
Что же касается возможности рассчитать, будет ли дождь идти завтра после того, как он уже льёт целую неделю, то она имеется. Существует довольно простая формула математика прошлого Томаса Бейеса, опубликованная впервые в 1763 году в его посмертной работе «Опыт решения одной проблемы теории вероятностей». В ней впервые был поставлен вопрос о том, как может быть использована теория вероятностей для составления того или иного суждения о явлении, располагая лишь ограниченным рядом наблюдений. Пусть перед нами урна с шарами. Шары могут быть только белыми, могут быть только чёрными, а могут быть и белые и чёрные, то есть состав шаров – смешанный. Мы скажем, что любой состав урны имеет равные априорные вероятности.
(Что такое априорные? Латынь, которая обильно украшала научные сочинения прошлого, вышла сейчас из моды, но некоторые слова оказались стойкими. К ним относятся a priori и a posteriori, что означает «до опыта» и «после опыта». Впрочем, даже и в этом случае мы предпочитаем вводить соответствующие русские прилагательные.)
Предположим, мы вытащили один шар: он оказался белым. Ситуация после этого сразу изменилась, поскольку уже ясно, что предположение, будто все шары чёрные, надо отбросить. А если мы вытащили 5 белых шаров подряд? Этот факт сильно повышает вероятность гипотезы, что в урне много белых шаров. Можно ли выяснить, какова вероятность, что белых шаров 100 процентов, или 90, или 80, после того, как произведён опыт? Или короче – какова априорная вероятность того, что в урне столько-то белых шаров после того, как мы вытащили из урны 5 белых шаров?
Вот такие и подобные проблемы решал Бейес в своей работе.
Одна из формул, выведенных Бейесом, отвечает на вопрос, который интересовал неудачливую пару, попавшую в полосу дождей. Если какое-то событие произошло несколько раз, то можно высчитать, какова вероятность его свершения и в следующий раз. Формула, как говорилось, очень простая, и её можно привести здесь, прибегнув – увы! – к алгебраическим символам, навевающим на некоторых все же страх или скуку: p=(q+1)/(q+2) (вероятность равна дроби, числитель которой равен числу происшедших событий плюс единица, а знаменатель равен этому же числу плюс два). Значит, если дождь идёт один день, то вероятность, что он будет идти завтра, равна 2/3, если дождь идёт два дня, то назавтра вы можете ждать такой же погоды с вероятностью 3/4, три дня – 4/5… восемь дней – 9/10. Просто, не правда ли?
Но если бездумно применять эту формулу, то можно прийти к абсурду. Например, я два раза набирал по телефону 01, вызывая пожарную команду, и она приезжала: значит, если я буду вызывать её третий раз, то она прибудет тушить пожар с вероятностью в 75 процентов. Глупо ведь? Конечно, глупо. Или в этом году с Эйфелевой башни бросились и разбились две девушки, обманутые женихами. Значит, следующая имеет шанс из четырех остаться в живых. Глупо? Конечно, глупо. Но при чём здесь наша простая формула? Прочитав внимательно работу этого превосходного математика, мы увидим, что формула введена в предположении, что о вероятности единичного события нам неизвестно ровно ничего, то есть что эта вероятность может быть любой – от 0 до 1.
Итак, формулу Бейеса следует применять в том случае, когда мы ровно ничего не знаем о единичном событии. Так ли обстоит дело с дождливой погодой?
На основании многолетних наблюдений в городе Брюсселе установлено, что если дождь идёт 1 день, то вероятность того, что он будет идти и завтра, равняется 0,63; если дождь идёт 2 дня – его вероятность на завтра равна 0,68, 3 дня – 0,70, 5 дней – 0,73. Согласно же формуле Бейеса мы должны были бы иметь 0,66; 0,75; 0,80 и 0,86. Хотя опыт и теория близки, полного совпадения нет: формула оказывается несколько более пессимистична, чем реальная действительность.
Лучше совпадают с выводами теоремы Бейеса данные, полученные при наблюдении смены температуры. По данным того же города Брюсселя, вероятность того, что завтра температура будет такой же, как и вчера, равна 0,75; если 2 дня температура была неизменной, то она останется такой же и завтра с вероятностью 0,76; если 3 дня неизменна, то сохранится и завтра с вероятностью 0,78; если 5 дней, то с вероятностью 0,83, и если температура не менялась 10 дней, то с вероятностью 0,85 она останется той же и в 11-й день.
Как видите, предсказание по принципу «сегодня как вчера» имеет обоснование в теории вероятности. Большинство прогнозов погоды носит именно такой характер, а чтобы судить о научной мощи предсказаний, надо было бы скидывать со счётов все прогнозы типа «погода остаётся без изменений». Кажется, так метеорологи и поступают, когда испытывают новые теории и схемы предсказания погоды. Предвидение потепления или похолодания – вот в чём должно проявиться понимание законов климата.
Но вернёмся к работе Бейеса. Мы проиллюстрировали примерами лишь одну из формул его теории, касающихся вероятности повторения событий. Но оправданы также попытки предсказания будущего и тогда, когда ряд событий неоднороден и состоит из чередующихся удач и неудач. В этом случае формула Бейеса меняется лишь незначительно: в её знаменателе будет стоять полное число событий плюс 2. Например, если проведённая на курорте неделя (7 дней) порадовала нас всего лишь одним хорошим днём, то вероятность дождя на восьмой день нашего отдыха будет вычисляться так: P=(6+1)/(7+2)=7/9.