Страница:
В этом случае объективность контент-анализа определяется тем, что каждый шаг может быть произведен только на основе явно сформулированных правил и процедур. Поэтому в качестве верификации (проверки) необходимо повторение того же результата другим исследователем на том же материале. В гуманитарных науках достаточно сложно прийти к единому мнению, мы можем опросить 50 экспертов, и они дадут нам 50 различных результатов. В отличие от этого контент-анализ является довольно точной исследовательской техникой.
Для более полной характеристики метода необходимо добавить следующее. Первое: все данные статистики вербального материала используются для формулирования выводов о невербальных аспектах, например о тех или иных характеристиках адресата и адресанта. Поэтому текстовой материал здесь представляется промежуточным объектом. Нас интересует вовсе не текст. И второе: само по себе выяснение частоты употребления, например, журналистом X такого-то слова с такой-то частотой не является контент-анализом. Контент-анализ — это всегда сопоставление двух потоков. Например, сопоставление двух газет как двух вербальных потоков. Возможно сопоставление невербального и вербального потоков: данных о рождаемости и информации о детях-героях в литературных журналах. Возможно сопоставление данного вербального потока и нормы: частоты употребления определенного слова в статьях определенного журналиста и стандартной частоты употребления этого слова в языке нашего времени. Основные этапы контент-анализа следующие:
а) формулировка задачи, определение программы исследования;
б) определение выборки (той части текстов, которые достаточны для анализа всего массива публикаций и обеспечивают репрезентативность выборки);
в) определение единого семантического толкования ключевых понятий исследования;
г) составление кода, перечня характеристик текста, отвечающих задаче исследования (единиц анализа);
д) составление рабочего документа, кодированной карточки и инструкции кодировщику (человеку, который будет работать с текстом, фиксировать частоту употребления единиц текста);
е) составление сметы исследования;
ж) компьютерная обработка данных;
з) предъявление результатов исследования.
Контент-анализ прессы требует сравнительно больших затрат времени и средств, поэтому может использоваться и метод экспресс-анализа. В его основе лежит количественный подсчет содержательных элементов текста (факт, конфликт, аргумент, тема, обобщение), а также учет качественных характеристик публикаций (соответствие цели, информативность, актуальность, доказательность, конструктивность).
Как и при контент-анализе, эти характеристики текста кодируются, обозначаются определенной цифрой, и затем при чтении текста исследователь их фиксирует.
Контент-анализ используется в таких областях, как изучение социальных оценок тех или иных событий, анализ пропаганды, методов журналистики, изучение арсенала средств массовой коммуникации, психологические, психоаналитические исследования. Этот диапазон охватывает, по подсчетам исследователей, 60% всех работ.
Что можно подсчитывать в вербальном потоке, какие типичные исследовательские модели существуют? Можно подсчитывать:
а) частоту;
б) наличие/отсутствие каких-то тем;
в) связь между темами;
г) основные темы.
Алгоритм проведения контент-анализа.
1. Определиться с выбором смысловых единиц. Это могут быть оскорбления и угрозы, призывы и порывы благородного негодования, элементы личной позиции автора или что-то другое, т.е. все то, что необходимо выявить.
2. Составить перечень поисковых смысловых единиц, определить предметную область поиска (ПОП). ПОП — это все оперативные версии и гипотезы о соответствующих риск-факторах в деятельности предприятия.
Далее следует выявление в исследуемом тексте индикаторов — моделей оформления каждой смысловой единицы языковыми средствами. Теоретически их число может быть огромным, но с учетом тяготения людей к накатанным стереотипам в практической работе реальное число индикаторов не так уж и велико. Индикаторы вписываются рядом с каждой смысловой единицей. На этом же этапе нужно определиться с единицей счета: чем будет мерить? Обычно учитываются частота употребления смысловой единицы и такие ее количественные характеристики, как число строк, площадь газетной полосы или длительность вещания. Теперь мы имеем четкую систему правил для анализа материала.
3. Анализ может проводиться как вручную, так и с помощью компьютерных программ анализа текстовой информации. В компьютерном варианте инструментария достаточно отсканировать печатный лист, распознать отсканированное и обработать компьютерной программой анализа. На выходе вы получаете полную «картинку» материала с указанием его возможной направленности в ту или иную сторону и соответствующее обоснование — комментарии полученных выводов. Компьютерные программы хороши для обработки больших массивов информации и для отслеживания динамик и тенденции в сообщениях. Например, отдельный блок программы по мере поступления новой информации подшивает полученные выводы к общей композиции исследований данного объекта. Контент-анализ дополняется динамическими изменениями содержания информации. Специалисты выделяют в контент-анализе два направления.
1. Количественный контент-анализ в первую очередь интересуется частотой появления в тексте определенных характеристик (переменных) содержания.
2. Качественный контент-анализ позволяет делать выводы даже на основе единичного присутствия или отсутствия определенной характеристики содержания.
Различие двух подходов можно проиллюстрировать на примере работы «советологов» в 50-е годы. Проводя количественный анализ статей газеты «Правда», западные аналитики обнаружили резкое снижение числа ссылок на Сталина. На основании этого был сделан вывод о том, что преемники Сталина стремятся дистанцироваться от него.
Качественный анализ подтвердил этот вывод тем, что в публичной речи одного из партийных деятелей КПСС, посвященной победе СССР в Великой Отечественной войне, Сталин вообще не был упомянут. Ранее такое было просто немыслимо.
Методика количественного контент-анализ более легко поддается реализации в виде специального программного обеспечения.
Следует обратить внимание на то, что когда говорят о контент-анализе текстов, то главный интерес всегда заключается не в самих характеристиках содержания, а во внеязыковой реальности, которая за ними стоит, — личных характеристиках автора текста, преследуемых им целях, характеристиках адресата текста, различных событиях общественной жизни и пр.
Однако просто частота появления того или иного слова или темы мало что говорит. Гораздо более информативны не абсолютные, а относительные частоты, которые вычисляются как отношение абсолютной частоты к длине анализируемого текста. В зависимости от того, что является переменной содержания, под длиной текста может пониматься количество слов в нем, количество предложений, абзацев и пр.
В качестве реального примера такого анализа текстов можно привести анализ президентских посланий стране, с которыми обратился Б.Клинтон в 1994 и 1995 годах. Эти послания содержат от 7000 до 10 000 слов. Были сформированы категории слов, относящихся к экономике, бюджету страны, образованию, преступности, вопросам семьи, международным делам, социальной помощи и др. По изменению относительных частот в посланиях 1994 и 1995 годов были сделаны выводы об изменении политики государства в различных областях. То есть все эти темы нашли отражение в обоих посланиях, но в одном из них некоторым темам уделялось больше внимания, а в другом меньше. Например, в послании 1995 года больше внимания было уделено вопросам образования, семьи, но меньше внимания — преступности, международным делам, социальной помощи. Это дало основания для того, чтобы судить о приоритетах правительства США.
В приведенном выше примере было упомянуто понятие категории. В качестве категории может выступать набор слов, объединенных по определенному основанию. Можно сказать, что посредством категорий в контент-анализе представлены определенные концептуальные образования. Так, в случае с посланиями Б.Клинтона была образована категория ЭКОНОМИКА, в которую входили слова экономика, безработица, инфляция. В категорию СЕМЬЯ входили слова ребенок, семья, родители, мать, отец. Именно учет частот встречаемости категорий, а не отдельных слов, позволяет судить о внимании, уделенном в послании тем или иным вопросам.
Очевидно, что от качества составления таких категорий во многом зависит качество результатов анализа. Контент-анализ текстов с использованием категорий иногда называют концептуальным анализом. Сфера его применения довольно широка. Существует два основных типа задач, решаемых с его помощью.
Есть два или более текстов, которые необходимо сравнить в отношении нагрузки на определенные категории. Например, выяснить, какое внимание уделяют две разные газеты определенным темам. Если эти газеты рассчитаны на одну аудиторию, то существенное различие в частотах позволит судить о различиях в политике, проводимой людьми, стоящими за ними.
Вторая задача — отслеживание динамики изменения нагрузки на определенные категории. Например, выяснить частоту упоминания темы внешнего долга России в фиксированном наборе центральных газет на протяжении какого-то времени и соотнести ее с колебаниями курса доллара путем простого корреляционного анализа.
Из истории разведки известно, как по изменению в специальной литературе частоты упоминания определенных научных тем и фамилий ученых делались достоверные выводы об успехах, достигнутых в конкретных областях исследований.
Так, например, после того как в США был учрежден Консультативный комитет по урану, который стал наблюдать за ядерными исследованиями, была введена строгая цензура на все научные публикации в этой области. Последняя открытая работа американского ученого Макмиллана была напечатана в «Физикал ревью» 15 июня 1940 года.
На этот факт обратил внимание начальник научно-технической разведки СССР Леонид Романович Квасников. Вскоре этот факт подтвердил нью-йоркский резидент Г.Б.Овакимян. Предварительный вывод советской разведки был однозначен: американцы всерьез занялись созданием ядерного оружия, что впоследствии подтвердила агентурная информация.
Относительные частоты позволяют сравнивать два и более текстов, но иногда требуется сделать вывод на основе анализа лишь одного текста.
Например, имеется текст выступления депутата Думы, и требуется оценить, насколько оно агрессивно. Прежде всего для решения этой задачи должна быть составлена категория агрессивно окрашенной лексики. После этого мы можем сравнить текст выступления нашего депутата с выступлениями других и сказать, кто из них агрессивнее. Но от нас требуется не это, от нас требуется оценить степень агрессивности выступления. Очевидно, что для ответа на этот вопрос нам потребуется некоторая норма, своеобразная нулевая отметка агрессивности. Мы получим ее, если выясним относительную частоту употребления агрессивно окрашенных слов средним носителем русского языка. Помощь в этом могут оказать частотные словари. Сравнивая относительную частоту употребления агрессивно окрашенной лексики в выступлении депутата с частотой ее употребления средним носителем русского языка, мы как раз и можем сделать вывод о степени агрессивности. Но и это еще не все. Небольшие отклонения частот в большую или меньшую сторону могут быть следствием случайных колебаний. На вопрос о значимости отклонения частот позволяет ответить статистическая оценка, известная под названием z-score и вычисляемая по формуле
(N-Е)/(стандартное отклонение),
где N — количество слов данной категории, реально встретившихся в тексте, а Е — ожидаемое число вхождений слов данной категории в текст. Величина Е вычисляется путем умножения нормальной частоты категории на число слов в анализируемом тексте.
При аналитической обработке прессы применяется и так называемый метод «окон фактов». Его во время Второй мировой войны активно использовала американская разведка для изучения немецкой промышленности по открытым публикациям. Смысл метода состоит в том, чтобы из каждой конкретной публикации извлечь только несомненные факты, часто совершенно неинтересные и тривиальные. Сопоставление подобных «атомарных» фактов способно дать совершенно неожиданные новые знания.
В нашей стране еще с советских времен любят и умеют читать между строк, поэтому в качестве курьезного примера применения метода сопоставления фактов можно привести старый анекдот про землетрясение, когда средства массовой информации сообщают, что жертв и разрушений нет. А некоторое время спустя в центральной прессе под заголовком «Очевидное — невероятное» появляется статья о вернувшейся домой собаке, которая пропала во время последнего землетрясения со стадом овец и пятью пастухами.
В 70-80-е годы этот метод был применен для анализа развития американской промышленности, в результате чего на свет появилась весьма интересная книга Дж. Нэсбитта (Naisbitt, J. Megatrends. Ten New Directions Transforming our Lives), описывающая десять главных тенденций в развитии США того времени, которые не были видны простым глазом, но стали совершенно очевидны при обработке исходной фактуры по данной методике.
А теперь в качестве примера давайте рассмотрим следующее сообщение в прессе: «Новый директор Apple Стив Джобе заявил, что компания стала возрождаться и в 1999 год перейдет с прибылью 100 млн. долларов». Из этой фразы можно извлечь только тот несомненный факт, что в 1998 году директором Apple был некто Джобе. Далее по газетным публикациям о Джобсе можно составить описание его жизненного пути, а заодно провести анализ прибыльности возглавляемых им компаний в зависимости от его прихода и ухода.
Поскольку факты, собираемые подобным образом, имеют простую структуру, то по ним достаточно легко построить причинно-следственную цепочку, например «К — продукт компании „А“ 1997 г.», «Д — технический директор компании „А“ с 1996 по 1998 годы», следовательно, можно создать новый факт: «Д руководил выпуском продукта К в компании „А“. Или при наличии факта „Н — сотрудник компании „А“ с 1995 года“ можно автоматически создать факт „Н и Д знакомы“, имеющий определенную степень достоверности, и попробовать продлить цепочку знакомств дальше.
Системный подход (метод мозаики) к обработке прессы можно проиллюстрировать следующим примером. В 30-е годы в Лондоне вышла книга эмигрировавшего в Англию немецкого журналиста Бертольда Якоба. В ней он охарактеризовал 168 генералов и ведущих работников гитлеровского генерального штаба. По личному приказу Гитлера гестапо выкрало журналиста и доставило в Берлин с целью выяснения источников секретной информации Якоба. «Все, что опубликовано в моей книге, — заявил он на допросе, — я почерпнул из газет. Основание для утверждения, что генерал-майор Гаазе командует 17-й дивизией, расположенной в Нюрнберге, я извлек из некролога, помещенного в местной газете. В ней говорилось, что на похоронах присутствовал генерал Гаазе, командующий 17-й дивизией. В ульмской газете среди светских новостей я нашел данные о свадьбе дочери полковника Вирова с неким Штеммерманом. В заметке упоминалось, что Виров командует 30б-м полком 25-й дивизии. Майор Штеммерман был назван офицером службы связи этой дивизии. В газете сообщалось, что он приехал из Штутгарта, где расквартирована его дивизия…». На этом допрос закончился*. {Сергеев Ф.М. Тайное орудие агрессии: Подрывная деятельность США против СССР.-М.: Мысль, 1984.}
Еще один интересный пример можно найти в книге Г.Р. Берндорфа «Шпионаж». Накануне Первой мировой войны военную разведку Германии очень сильно интересовали данные об изменениях в итальянских береговых укреплениях. Для решения этой задачи в июле 1914 года в Милане было открыто бюро объявлений, которое выписывало практически все выходящие в Италии газеты, вплоть до самых мелких деревенских листков. Хозяйкой бюро являлась весьма эффектная дама — Анна Мари Лессер, больше известная под псевдонимом «Мадемуазель Доктор». Не тратя время на сон, она в течение нескольких суток, днем и ночью наносила на крупномасштабную карту Италии сведения из газетных объявлений военных комендатур о наборе персонала на земляные и бетонные работы. Более детально масштабы строительства оценивались по месту проведения работ агентами-маршрутниками.
Сегодня горячей порой сбора различной открытой информации являются предвыборные кампании кандидатов в законодательные и исполнительные органы власти. Интересен анализ публикаций «за» и «против» различных кандидатов, фиксация факта поддержки того или иного кандидата. При квалифицированном сборе и компьютерной обработке информации в ИБД можно выстроить очень интересные схемы, особенно четко это можно отследить в регионах, где вопросам оперативного легендирования уделяют значительно меньше внимания, чем в центре. Так, установление взаимосвязей по предвыборным штабам и партийным спискам позволяет заранее выявить возможный расклад групп «поддержки» того или иного хозяйствующего субъекта в органах законодательной или исполнительной власти. Пример приведен в приложении 2.
Приложение 1
Сегодня рынок предлагает значительный перечень всевозможных поисковых утилит, программ и систем разного уровня. Программное обеспечение этого класса бывает двух типов*. {Градский П. Поисковые системы. // Санкт-Петербургские ведомости //, 26 июня 2002 года; Дериев И. Особенности национального поиска. // Компьютерное Обозрение // №15,17 — 23 апреля 2002. Уваров С. Ищущие да обрящут.http://nrd.pnpi.spb.ru/UseSoft/Journals/IntemetZone/ izone229/pub/izone8.htm www.cronos.ru}
Программные продукты использующие технологию прямого поиска, просто перебирают файлы и выполняют поиск в каждом из них. Недостатком этой технологии являются значительные временные затраты. Аналогичные утилиты традиционно присутствуют во всех операционных системах, файловых менеджерах и инструментальных пакетах.
1. Поисковик AVSearch. Если у вас совсем нет денег, то вам может помочь бесплатная программа Анатолия Вознюка — AVSearch (www.avtlab.ru). Однако этот программный продукт умеет работать только с текстовыми файлами и файлами формата RTF, правда во всех кодировках от СР866 до Unicode, что, в частности, обеспечивает «поддержку» и формата DOC, т.к. документы Microsoft Word исследуются как обычный текст. Программа осуществляет поиск во всех популярных архивах без использования внешних модулей. Ее интерфейс достаточно прост и удобен. В общем программа неплохая, но ее существенным недостатком является медлительность.
2. Поисковик SSScanner с достаточно высокой скоростью работает с документами Word, WordPerfect, PDF, HLP, а также с несколькими десятками языков и кодировок.
Имеется возможность нечеткого поиска (по контексту) с оценкой релевантности и формальный. Результаты отображаются в отдельном окне с выдержками из оригинальных документов. SSScanner стоит около $30, условно-бесплатная версия имеет ряд ограничений.
В настоящее время программы прямого поиска уходят на второй план, их активно вытесняют программные продукты, использующие технологию поиска с индексированием. Программное обеспечение этого типа просматривает и анализирует указанные текстовые файлы, создавая собственную базу данных («индекс»), по которой затем и осуществляется поиск. Индексирование -процесс достаточно длительный, но зато поиск занимает считанные секунды. До недавнего времени основными недостатками данного ПО считались продолжительность операции первичного создания индекса и дополнительный расход дискового пространства. Однако для мощных современных компьютеров это не существенно. Некоторое неудобство по-прежнему связано с необходимостью регулярного обновления индексов, однако и это не проблема.
Начнем свое рассмотрение этого сегмента рынка полнотекстовых поисковиков с западных образцов.
1. Поисковик Advanced Document Serverhttp://ads.newmail.ru/1 занимает немного дискового пространства, распространяется бесплатно, имеет массу возможностей: поддержка документов Microsoft Office, PDF, некоторых баз данных; поиск в архивных файлах; встроенный Web-сервер для удаленного доступа. Правда, имеется одно существенное «но»: для работы почти с каждым форматом необходимо «родное» ПО. Для DOC — Microsoft Word, для XLS — Excel, для PDF — полноценный Adobe Acrobat, а также Internet Explorer, архиваторы и пр.
И если многие, кто работает с документами Word, используют само приложение (хотя у Microsoft есть и специальная программа просмотра), то для PDF этот принцип уже не подходит. Помимо этого, применение средств автоматизации OLE в данном случае крайне негативно сказывается на производительности.
2. Программное обеспечение Greenstone предназначено для создания «цифровых библиотек», что подразумевает нечто большее, чем просто поиск с предварительным индексированием по документам DOC, PDF и пр. Этот программный продукт создает каталог документов, конвертирует их в HTML-формат, обеспечивает к библиотеке удаленный доступ посредством броузера. Распространяется бесплатно, с исходными текстами. Правда, работает довольно медленно.
3. Поисковик dtSearch Desktop ( автоматически распознает различные кодировки, в том числе и кириллические (за исключением KOI-8), а также пару десятков форматов файлов, среди которых стоит выделить DOC, XLS, RTF, PDF, DBX (Outlook Express), XML, плюс популярные базы данных (через ODBC). В БД и гипертекстовых документах возможен поиск по содержимому конкретных полей и тегов. Даже защищенные PDF индексируются, но получить их названия и другие атрибуты программа не может. Несомненным достоинством программы является поиск в архивах ZIP.
По виду поиска используются: морфологический, фонетический, поиск синонимов, а также поиск в словах с орфографическими ошибками. Помимо этого, dtSearch Desktop предлагает пользователю словарь (построенный в процессе создания индекса) и при вводе запроса выполняет в нем автоматический поиск.
В качестве недостатка можно отметить только английский интерфейс программы. Стоит dtSearch Desktop около $200.
Российское программное обеспечение. По своим поисковым возможностям отечественные разработки имеют определенное преимущество перед западными, поскольку их разработчики априори лучше иностранцев разбираются во всевозможных лингвистических нюансах нашего государственного языка.
1. Поисковик "Ищейка"www.isleuthhound.com или http://www.isleuthhound.ru) (iSleuthHound Technologies).
«Ищейка» — это полнотекстовая персональная поисковая система, работа с которой напоминает работу в поисковых системах Интернета, таких как AltaVista, Yahoo, Rambler. При первом запуске она создает базу данных по имеющимся документам и индексирует ее. Каждая база данных представляет собой зону поиска — пространство на жестком диске, состоящее из каталогов, в пределах которого программа мгновенно находит документы и файлы. Тест-версия программы поддерживает возможность создания лишь двух зон поиска с индексированием в каждой максимально 500 файлов. Перед проведением поиска документов «Ищейке» необходимо указать зону поиска или создать новую, после чего ввести в окошке диалогового окна ключевые слова, которые должен содержать документ, и нажать кнопку Ищи!
Бесплатная версия «Ищейки» работает только с текстовыми и DOC-файлами, профессиональная ($15) еще с RTF и HTML. Помимо этого для профессиональной версии имеется набор дополнительных подключаемых фильтров — для текста во всех кодировках, документов других приложений Microsoft Office и PDF.
Поддержка PDF появилась в программе недавно, и пока этот модуль «не понимает» русского языка, хотя представители компании обещают устранить этот недостаток в самое ближайшее время. Зато модуль великолепно работает с защищенными документами — не только индексирует их содержимое, но и способен корректно определить название и даже извлечь текст.
2. Интеллектуальная поисковая система «Следопыт» ((«МедиаЛингва»). Последняя версия программы для хранения информации использует Microsoft SQL Server Desktop Edition. В ней устранены практически все замечания и вопросы, которые возникали прежде.
По своей функциональности «Следопыт» напоминает dtSearch. В распоряжении пользователей несколько вариантов поиска: нечеткий, т.е. «на естественном языке», система сама отбросит «шумовые» слова, а остальные приведет к морфологической основе; строгий, при котором ищутся в точности те слова, что указаны в запросе; формальный — с логическими и другими операторами и возможностью комбинирования двух предыдущих.
Для более полной характеристики метода необходимо добавить следующее. Первое: все данные статистики вербального материала используются для формулирования выводов о невербальных аспектах, например о тех или иных характеристиках адресата и адресанта. Поэтому текстовой материал здесь представляется промежуточным объектом. Нас интересует вовсе не текст. И второе: само по себе выяснение частоты употребления, например, журналистом X такого-то слова с такой-то частотой не является контент-анализом. Контент-анализ — это всегда сопоставление двух потоков. Например, сопоставление двух газет как двух вербальных потоков. Возможно сопоставление невербального и вербального потоков: данных о рождаемости и информации о детях-героях в литературных журналах. Возможно сопоставление данного вербального потока и нормы: частоты употребления определенного слова в статьях определенного журналиста и стандартной частоты употребления этого слова в языке нашего времени. Основные этапы контент-анализа следующие:
а) формулировка задачи, определение программы исследования;
б) определение выборки (той части текстов, которые достаточны для анализа всего массива публикаций и обеспечивают репрезентативность выборки);
в) определение единого семантического толкования ключевых понятий исследования;
г) составление кода, перечня характеристик текста, отвечающих задаче исследования (единиц анализа);
д) составление рабочего документа, кодированной карточки и инструкции кодировщику (человеку, который будет работать с текстом, фиксировать частоту употребления единиц текста);
е) составление сметы исследования;
ж) компьютерная обработка данных;
з) предъявление результатов исследования.
Контент-анализ прессы требует сравнительно больших затрат времени и средств, поэтому может использоваться и метод экспресс-анализа. В его основе лежит количественный подсчет содержательных элементов текста (факт, конфликт, аргумент, тема, обобщение), а также учет качественных характеристик публикаций (соответствие цели, информативность, актуальность, доказательность, конструктивность).
Как и при контент-анализе, эти характеристики текста кодируются, обозначаются определенной цифрой, и затем при чтении текста исследователь их фиксирует.
Контент-анализ используется в таких областях, как изучение социальных оценок тех или иных событий, анализ пропаганды, методов журналистики, изучение арсенала средств массовой коммуникации, психологические, психоаналитические исследования. Этот диапазон охватывает, по подсчетам исследователей, 60% всех работ.
Что можно подсчитывать в вербальном потоке, какие типичные исследовательские модели существуют? Можно подсчитывать:
а) частоту;
б) наличие/отсутствие каких-то тем;
в) связь между темами;
г) основные темы.
Алгоритм проведения контент-анализа.
1. Определиться с выбором смысловых единиц. Это могут быть оскорбления и угрозы, призывы и порывы благородного негодования, элементы личной позиции автора или что-то другое, т.е. все то, что необходимо выявить.
2. Составить перечень поисковых смысловых единиц, определить предметную область поиска (ПОП). ПОП — это все оперативные версии и гипотезы о соответствующих риск-факторах в деятельности предприятия.
Далее следует выявление в исследуемом тексте индикаторов — моделей оформления каждой смысловой единицы языковыми средствами. Теоретически их число может быть огромным, но с учетом тяготения людей к накатанным стереотипам в практической работе реальное число индикаторов не так уж и велико. Индикаторы вписываются рядом с каждой смысловой единицей. На этом же этапе нужно определиться с единицей счета: чем будет мерить? Обычно учитываются частота употребления смысловой единицы и такие ее количественные характеристики, как число строк, площадь газетной полосы или длительность вещания. Теперь мы имеем четкую систему правил для анализа материала.
3. Анализ может проводиться как вручную, так и с помощью компьютерных программ анализа текстовой информации. В компьютерном варианте инструментария достаточно отсканировать печатный лист, распознать отсканированное и обработать компьютерной программой анализа. На выходе вы получаете полную «картинку» материала с указанием его возможной направленности в ту или иную сторону и соответствующее обоснование — комментарии полученных выводов. Компьютерные программы хороши для обработки больших массивов информации и для отслеживания динамик и тенденции в сообщениях. Например, отдельный блок программы по мере поступления новой информации подшивает полученные выводы к общей композиции исследований данного объекта. Контент-анализ дополняется динамическими изменениями содержания информации. Специалисты выделяют в контент-анализе два направления.
1. Количественный контент-анализ в первую очередь интересуется частотой появления в тексте определенных характеристик (переменных) содержания.
2. Качественный контент-анализ позволяет делать выводы даже на основе единичного присутствия или отсутствия определенной характеристики содержания.
Различие двух подходов можно проиллюстрировать на примере работы «советологов» в 50-е годы. Проводя количественный анализ статей газеты «Правда», западные аналитики обнаружили резкое снижение числа ссылок на Сталина. На основании этого был сделан вывод о том, что преемники Сталина стремятся дистанцироваться от него.
Качественный анализ подтвердил этот вывод тем, что в публичной речи одного из партийных деятелей КПСС, посвященной победе СССР в Великой Отечественной войне, Сталин вообще не был упомянут. Ранее такое было просто немыслимо.
Методика количественного контент-анализ более легко поддается реализации в виде специального программного обеспечения.
Следует обратить внимание на то, что когда говорят о контент-анализе текстов, то главный интерес всегда заключается не в самих характеристиках содержания, а во внеязыковой реальности, которая за ними стоит, — личных характеристиках автора текста, преследуемых им целях, характеристиках адресата текста, различных событиях общественной жизни и пр.
Однако просто частота появления того или иного слова или темы мало что говорит. Гораздо более информативны не абсолютные, а относительные частоты, которые вычисляются как отношение абсолютной частоты к длине анализируемого текста. В зависимости от того, что является переменной содержания, под длиной текста может пониматься количество слов в нем, количество предложений, абзацев и пр.
В качестве реального примера такого анализа текстов можно привести анализ президентских посланий стране, с которыми обратился Б.Клинтон в 1994 и 1995 годах. Эти послания содержат от 7000 до 10 000 слов. Были сформированы категории слов, относящихся к экономике, бюджету страны, образованию, преступности, вопросам семьи, международным делам, социальной помощи и др. По изменению относительных частот в посланиях 1994 и 1995 годов были сделаны выводы об изменении политики государства в различных областях. То есть все эти темы нашли отражение в обоих посланиях, но в одном из них некоторым темам уделялось больше внимания, а в другом меньше. Например, в послании 1995 года больше внимания было уделено вопросам образования, семьи, но меньше внимания — преступности, международным делам, социальной помощи. Это дало основания для того, чтобы судить о приоритетах правительства США.
В приведенном выше примере было упомянуто понятие категории. В качестве категории может выступать набор слов, объединенных по определенному основанию. Можно сказать, что посредством категорий в контент-анализе представлены определенные концептуальные образования. Так, в случае с посланиями Б.Клинтона была образована категория ЭКОНОМИКА, в которую входили слова экономика, безработица, инфляция. В категорию СЕМЬЯ входили слова ребенок, семья, родители, мать, отец. Именно учет частот встречаемости категорий, а не отдельных слов, позволяет судить о внимании, уделенном в послании тем или иным вопросам.
Очевидно, что от качества составления таких категорий во многом зависит качество результатов анализа. Контент-анализ текстов с использованием категорий иногда называют концептуальным анализом. Сфера его применения довольно широка. Существует два основных типа задач, решаемых с его помощью.
Есть два или более текстов, которые необходимо сравнить в отношении нагрузки на определенные категории. Например, выяснить, какое внимание уделяют две разные газеты определенным темам. Если эти газеты рассчитаны на одну аудиторию, то существенное различие в частотах позволит судить о различиях в политике, проводимой людьми, стоящими за ними.
Вторая задача — отслеживание динамики изменения нагрузки на определенные категории. Например, выяснить частоту упоминания темы внешнего долга России в фиксированном наборе центральных газет на протяжении какого-то времени и соотнести ее с колебаниями курса доллара путем простого корреляционного анализа.
Из истории разведки известно, как по изменению в специальной литературе частоты упоминания определенных научных тем и фамилий ученых делались достоверные выводы об успехах, достигнутых в конкретных областях исследований.
Так, например, после того как в США был учрежден Консультативный комитет по урану, который стал наблюдать за ядерными исследованиями, была введена строгая цензура на все научные публикации в этой области. Последняя открытая работа американского ученого Макмиллана была напечатана в «Физикал ревью» 15 июня 1940 года.
На этот факт обратил внимание начальник научно-технической разведки СССР Леонид Романович Квасников. Вскоре этот факт подтвердил нью-йоркский резидент Г.Б.Овакимян. Предварительный вывод советской разведки был однозначен: американцы всерьез занялись созданием ядерного оружия, что впоследствии подтвердила агентурная информация.
Относительные частоты позволяют сравнивать два и более текстов, но иногда требуется сделать вывод на основе анализа лишь одного текста.
Например, имеется текст выступления депутата Думы, и требуется оценить, насколько оно агрессивно. Прежде всего для решения этой задачи должна быть составлена категория агрессивно окрашенной лексики. После этого мы можем сравнить текст выступления нашего депутата с выступлениями других и сказать, кто из них агрессивнее. Но от нас требуется не это, от нас требуется оценить степень агрессивности выступления. Очевидно, что для ответа на этот вопрос нам потребуется некоторая норма, своеобразная нулевая отметка агрессивности. Мы получим ее, если выясним относительную частоту употребления агрессивно окрашенных слов средним носителем русского языка. Помощь в этом могут оказать частотные словари. Сравнивая относительную частоту употребления агрессивно окрашенной лексики в выступлении депутата с частотой ее употребления средним носителем русского языка, мы как раз и можем сделать вывод о степени агрессивности. Но и это еще не все. Небольшие отклонения частот в большую или меньшую сторону могут быть следствием случайных колебаний. На вопрос о значимости отклонения частот позволяет ответить статистическая оценка, известная под названием z-score и вычисляемая по формуле
(N-Е)/(стандартное отклонение),
где N — количество слов данной категории, реально встретившихся в тексте, а Е — ожидаемое число вхождений слов данной категории в текст. Величина Е вычисляется путем умножения нормальной частоты категории на число слов в анализируемом тексте.
При аналитической обработке прессы применяется и так называемый метод «окон фактов». Его во время Второй мировой войны активно использовала американская разведка для изучения немецкой промышленности по открытым публикациям. Смысл метода состоит в том, чтобы из каждой конкретной публикации извлечь только несомненные факты, часто совершенно неинтересные и тривиальные. Сопоставление подобных «атомарных» фактов способно дать совершенно неожиданные новые знания.
В нашей стране еще с советских времен любят и умеют читать между строк, поэтому в качестве курьезного примера применения метода сопоставления фактов можно привести старый анекдот про землетрясение, когда средства массовой информации сообщают, что жертв и разрушений нет. А некоторое время спустя в центральной прессе под заголовком «Очевидное — невероятное» появляется статья о вернувшейся домой собаке, которая пропала во время последнего землетрясения со стадом овец и пятью пастухами.
В 70-80-е годы этот метод был применен для анализа развития американской промышленности, в результате чего на свет появилась весьма интересная книга Дж. Нэсбитта (Naisbitt, J. Megatrends. Ten New Directions Transforming our Lives), описывающая десять главных тенденций в развитии США того времени, которые не были видны простым глазом, но стали совершенно очевидны при обработке исходной фактуры по данной методике.
А теперь в качестве примера давайте рассмотрим следующее сообщение в прессе: «Новый директор Apple Стив Джобе заявил, что компания стала возрождаться и в 1999 год перейдет с прибылью 100 млн. долларов». Из этой фразы можно извлечь только тот несомненный факт, что в 1998 году директором Apple был некто Джобе. Далее по газетным публикациям о Джобсе можно составить описание его жизненного пути, а заодно провести анализ прибыльности возглавляемых им компаний в зависимости от его прихода и ухода.
Поскольку факты, собираемые подобным образом, имеют простую структуру, то по ним достаточно легко построить причинно-следственную цепочку, например «К — продукт компании „А“ 1997 г.», «Д — технический директор компании „А“ с 1996 по 1998 годы», следовательно, можно создать новый факт: «Д руководил выпуском продукта К в компании „А“. Или при наличии факта „Н — сотрудник компании „А“ с 1995 года“ можно автоматически создать факт „Н и Д знакомы“, имеющий определенную степень достоверности, и попробовать продлить цепочку знакомств дальше.
Системный подход (метод мозаики) к обработке прессы можно проиллюстрировать следующим примером. В 30-е годы в Лондоне вышла книга эмигрировавшего в Англию немецкого журналиста Бертольда Якоба. В ней он охарактеризовал 168 генералов и ведущих работников гитлеровского генерального штаба. По личному приказу Гитлера гестапо выкрало журналиста и доставило в Берлин с целью выяснения источников секретной информации Якоба. «Все, что опубликовано в моей книге, — заявил он на допросе, — я почерпнул из газет. Основание для утверждения, что генерал-майор Гаазе командует 17-й дивизией, расположенной в Нюрнберге, я извлек из некролога, помещенного в местной газете. В ней говорилось, что на похоронах присутствовал генерал Гаазе, командующий 17-й дивизией. В ульмской газете среди светских новостей я нашел данные о свадьбе дочери полковника Вирова с неким Штеммерманом. В заметке упоминалось, что Виров командует 30б-м полком 25-й дивизии. Майор Штеммерман был назван офицером службы связи этой дивизии. В газете сообщалось, что он приехал из Штутгарта, где расквартирована его дивизия…». На этом допрос закончился*. {Сергеев Ф.М. Тайное орудие агрессии: Подрывная деятельность США против СССР.-М.: Мысль, 1984.}
Еще один интересный пример можно найти в книге Г.Р. Берндорфа «Шпионаж». Накануне Первой мировой войны военную разведку Германии очень сильно интересовали данные об изменениях в итальянских береговых укреплениях. Для решения этой задачи в июле 1914 года в Милане было открыто бюро объявлений, которое выписывало практически все выходящие в Италии газеты, вплоть до самых мелких деревенских листков. Хозяйкой бюро являлась весьма эффектная дама — Анна Мари Лессер, больше известная под псевдонимом «Мадемуазель Доктор». Не тратя время на сон, она в течение нескольких суток, днем и ночью наносила на крупномасштабную карту Италии сведения из газетных объявлений военных комендатур о наборе персонала на земляные и бетонные работы. Более детально масштабы строительства оценивались по месту проведения работ агентами-маршрутниками.
Сегодня горячей порой сбора различной открытой информации являются предвыборные кампании кандидатов в законодательные и исполнительные органы власти. Интересен анализ публикаций «за» и «против» различных кандидатов, фиксация факта поддержки того или иного кандидата. При квалифицированном сборе и компьютерной обработке информации в ИБД можно выстроить очень интересные схемы, особенно четко это можно отследить в регионах, где вопросам оперативного легендирования уделяют значительно меньше внимания, чем в центре. Так, установление взаимосвязей по предвыборным штабам и партийным спискам позволяет заранее выявить возможный расклад групп «поддержки» того или иного хозяйствующего субъекта в органах законодательной или исполнительной власти. Пример приведен в приложении 2.
Приложение 1
Системы полнотекстного поиска
Сегодня рынок предлагает значительный перечень всевозможных поисковых утилит, программ и систем разного уровня. Программное обеспечение этого класса бывает двух типов*. {Градский П. Поисковые системы. // Санкт-Петербургские ведомости //, 26 июня 2002 года; Дериев И. Особенности национального поиска. // Компьютерное Обозрение // №15,17 — 23 апреля 2002. Уваров С. Ищущие да обрящут.
Программные продукты использующие технологию прямого поиска, просто перебирают файлы и выполняют поиск в каждом из них. Недостатком этой технологии являются значительные временные затраты. Аналогичные утилиты традиционно присутствуют во всех операционных системах, файловых менеджерах и инструментальных пакетах.
1. Поисковик AVSearch. Если у вас совсем нет денег, то вам может помочь бесплатная программа Анатолия Вознюка — AVSearch (
2. Поисковик SSScanner с достаточно высокой скоростью работает с документами Word, WordPerfect, PDF, HLP, а также с несколькими десятками языков и кодировок.
Имеется возможность нечеткого поиска (по контексту) с оценкой релевантности и формальный. Результаты отображаются в отдельном окне с выдержками из оригинальных документов. SSScanner стоит около $30, условно-бесплатная версия имеет ряд ограничений.
В настоящее время программы прямого поиска уходят на второй план, их активно вытесняют программные продукты, использующие технологию поиска с индексированием. Программное обеспечение этого типа просматривает и анализирует указанные текстовые файлы, создавая собственную базу данных («индекс»), по которой затем и осуществляется поиск. Индексирование -процесс достаточно длительный, но зато поиск занимает считанные секунды. До недавнего времени основными недостатками данного ПО считались продолжительность операции первичного создания индекса и дополнительный расход дискового пространства. Однако для мощных современных компьютеров это не существенно. Некоторое неудобство по-прежнему связано с необходимостью регулярного обновления индексов, однако и это не проблема.
Начнем свое рассмотрение этого сегмента рынка полнотекстовых поисковиков с западных образцов.
1. Поисковик Advanced Document Server
И если многие, кто работает с документами Word, используют само приложение (хотя у Microsoft есть и специальная программа просмотра), то для PDF этот принцип уже не подходит. Помимо этого, применение средств автоматизации OLE в данном случае крайне негативно сказывается на производительности.
2. Программное обеспечение Greenstone
3. Поисковик dtSearch Desktop (
По виду поиска используются: морфологический, фонетический, поиск синонимов, а также поиск в словах с орфографическими ошибками. Помимо этого, dtSearch Desktop предлагает пользователю словарь (построенный в процессе создания индекса) и при вводе запроса выполняет в нем автоматический поиск.
В качестве недостатка можно отметить только английский интерфейс программы. Стоит dtSearch Desktop около $200.
Российское программное обеспечение. По своим поисковым возможностям отечественные разработки имеют определенное преимущество перед западными, поскольку их разработчики априори лучше иностранцев разбираются во всевозможных лингвистических нюансах нашего государственного языка.
1. Поисковик "Ищейка"
«Ищейка» — это полнотекстовая персональная поисковая система, работа с которой напоминает работу в поисковых системах Интернета, таких как AltaVista, Yahoo, Rambler. При первом запуске она создает базу данных по имеющимся документам и индексирует ее. Каждая база данных представляет собой зону поиска — пространство на жестком диске, состоящее из каталогов, в пределах которого программа мгновенно находит документы и файлы. Тест-версия программы поддерживает возможность создания лишь двух зон поиска с индексированием в каждой максимально 500 файлов. Перед проведением поиска документов «Ищейке» необходимо указать зону поиска или создать новую, после чего ввести в окошке диалогового окна ключевые слова, которые должен содержать документ, и нажать кнопку Ищи!
Бесплатная версия «Ищейки» работает только с текстовыми и DOC-файлами, профессиональная ($15) еще с RTF и HTML. Помимо этого для профессиональной версии имеется набор дополнительных подключаемых фильтров — для текста во всех кодировках, документов других приложений Microsoft Office и PDF.
Поддержка PDF появилась в программе недавно, и пока этот модуль «не понимает» русского языка, хотя представители компании обещают устранить этот недостаток в самое ближайшее время. Зато модуль великолепно работает с защищенными документами — не только индексирует их содержимое, но и способен корректно определить название и даже извлечь текст.
2. Интеллектуальная поисковая система «Следопыт» (
По своей функциональности «Следопыт» напоминает dtSearch. В распоряжении пользователей несколько вариантов поиска: нечеткий, т.е. «на естественном языке», система сама отбросит «шумовые» слова, а остальные приведет к морфологической основе; строгий, при котором ищутся в точности те слова, что указаны в запросе; формальный — с логическими и другими операторами и возможностью комбинирования двух предыдущих.