Структура базы данных русского мата

1. Общие принципы
   База данных русского мата была задумана как источник для толкового словаря обсценной («грубо-непристойной») интердиалектной (т. е. над-диалектной, просторечной) лексики. Основная задача базы данных – предоставить исследователям материал, ранее не представленный в словарях. Предпринимается попытка описания обсценной лексики, зафиксированной в источниках XVII-XX веков. Если в поздних источниках обнаруживался более ранний материал (до XVIII века), то он также давался в базе данных. Соответственно, использовались современные издания источников XI-XIX веков. Базы данных неизбежно отразила динамику языковых форм в установленных пределах, являя ряд диахронических изменений в некоторых частях системы. В ней оказались объединены отдельные языковые элементы, разнородные в плане диахроническом. В то же время здесь могли оказаться рядом слова, употребляемые разными социальными группами, слова, относящиеся к функционально различным проявлениям мата. Избежать подобных недостатков, вероятно, удалось далеко не во всех случаях. Особенно это касается разных значений одного и того же, казалось бы, общеупотребительного выражения. В действительности это могут быть не два значения одной идиомы, а две разные идиомы. Применительно к лексике обычно говорят о случаях так называемой областной или социальной омонимии.
   Большая часть этих противоречий порождена особенностями самого объекта или ограниченностью сведений о данной области языка. Сложнейшая система табу, опутывающая сниженную экспрессивную часть языка, препятствует получению объективных данных даже применительно к современному материалу, который всегда в той или иной степени маркирован. К тому же просторечие попадает в письменные тексты зачастую лишь фрагментарно и строится в виде новой системы.
 
2. Источники
   Были использованы источники как художественные, так и нехудожественные; как прозаические, так и поэтические; как опубликованные, так и неопубликованные; как литературные, так и фольклорные (см. список источников).
   Культурные контексты бытования мата недостаточно прояснены. Мат в высокой литературе, в анонимной массовой литературе, в фольклоре, в русском роке, в устной речи и в переводных текстах представляет разные модификации подсистемы. Такая разнородность источников требует хотя бы краткой их типологии.
   2.1. Типология источников
   Материалы, на основе которых составлялась база данных, можно условно разделить на шесть основных групп: 1) устные источники; 2) фонограммы; 3) печатные источники; 4) переводные печатные источники; 5) рукописные источники; б) источники из Интернета. Устные источники делятся на записи анонимныхтекстов, сделанные автором, материалы, предоставленные информантами, и материалы, полученные в результате психолингвистического эксперимента. Фонограммы делятся на тиражированные и архивные записи. Печатные источники делятся на художественные и нехудожественные тексты, в частности словари. Рукописные источники делятся на архивные материалы и рукописи, предоставленные авторами. Среди рукописных источников обеих групп есть и словари, и художественные тексты и др. Словари всех типов (как рукописные, так и печатные, как собственно обсценные, так и жаргонные в широком смысле) анализируются отдельно в статье «Словарь русского мата как культурный феномен». Какявствуетиз сказанного, данная типология столь разнородных источников хотя и является условным исследовательским конструктом, но необходима в лексикографической работе.
   2.1.1. Устные источники и их обработка
   Фиксация устного материала производилась следующими способами. Во-первых, в словник базы данных включена лексика, зафиксированная автором в период с 1978 по 2000 год. в речи представителей различных социальных и возрастных групп. Материалы записывались в разных городах и населенных пунктах только от русскоязычных информантов[23] . Лексика, зафиксированная лишь в одном пункте, условно рассматривалась как диалектная и в словарь не включалась. Во-вторых, с информантами велась работа в виде опросов. Таким образом, факт функционирования лексики был зафиксирован в большинстве случаев трижды: 1) психолингвистическим экспериментом, 2) печатными источниками и 3) устными источниками. В словарь были включены все слова, факт существования которых подтверждался не менее чем двумя информантами, даже если они не были зафиксированы автором в устной речи и не встречались в письменных текстах.
   Кроме записей устной речи в качестве источников использовались авторские записи анонимных текстов. Такие примеры условно снабжены не ссылкой на источник, а пометой «Фольк». Разумеется, среди текстов, условно рассматриваемых в качестве анонимных, могут встречаться малоизвестные авторские тексты, усвоенные фольклором. Автор не занимался проблемами атрибуции текстов и не несет ответственности за проникновение авторских текстов в фольклор.
   Привлекались тексты самые разнообразные как в жанровом, так и в стилистическом отношении[24] . В список источников малые жанры из авторских записей, не имеющие заглавий, естественно, не выносились (паремии, другие языковые клише, загадки и частушки). В тексте базы данных они сопровождаются пометой «Фольк». Названия песен, басен, поэм и других крупных жанров вынесены в список источников.
   2.1.2. Фонограммы
   Обсценная лексика достаточно широко представлена в текстах отечественных рок-групп[25]. Иллюстративный материал был бы ущербным без использования этого материала. При цитировании мы приводили тексты в общепринятой орфографии и пунктуации. В тех случаях, когда альбомы были снабжены списками названий содержащихся в нихтекстов, ставилось сначала название группы, затем название альбома и уже потом название текста песни (например: АукцЫон. Птица. Спи, солдат). Если мы не располагали заглавиями текстов, то указы вались только название группы и альбома. Использовалисьтакже общеупотребительные сокращения названий групп. Например, «ГО» вместо «Гражданская оборона»: ГО. Молодежь. Для авторских альбомов сначала ставилось имя автора, затем сокращенное название альбома (например: Лаэртский. Зорька). Все сокращенные названия выносились в список источников. Рок-тексты цитировались по фонограммам из собрания автора.
   2.1.3. Печатные источники
   Важной группой печатных источников являются словари. Однако если оригинальность материалов, включенных, скажем, в Словарь московского арго (Елистратов), не может вызывает сомнений, то этого никак нельзя сказать о словаре Флегона и многих других. Следовательно, если наличие какого-либо языкового элемента в словаре Елистратова и одновременно в словаре Изнародова было достаточным подтверждением его существования, то, напротив, его наличие в словаре Флегона и одновременно в словаре Drummond-Perkins не было достаточным основанием для включения в нашу базу данных, поскольку составители последнего использовали некритически словарь Флегона в качестве источника (не говоря уже о словарях Н. Кабанова, А. Волкова, А. Н. и Н. Н. Кохтевых, которые попросту представляют собой плагиат). Если языковой элемент встретился в двух и более словарях, каждый из которых сделан на основе предыдущего, мы не включали его, при условии, что данный языковой элемент не был зафиксирован в других источниках. Таким образом, к использованию словарей в качестве источников мы подходили с известной осторожностью. Языковые элементы, встречающиеся в каком-нибудь одном из ранее вышедших словарей, но не найденные в других источниках (не зафиксированные хотя бы один раз в устной речи, не обнаруженные в литературных источниках, не подтвержденные информантами), в базу данных не вошли. Таким образом, в базу данных были включены материалы, зафиксированные как минимум дважды в устных и / или письменных источниках. Например: включавшиеся ранее хотя бы в один словарь и при этом зафиксированные хотя бы один раз в других источниках, или встречавшиеся не менее двух раз в независимо составленных словарях, или встречавшиеся не менее двух раз в письменных текстах. Цитаты из словарей вынесены в справочно-библио-графические разделы базы данных. В справочно-библиографических разделах были задействованы все словари, представляющие хоть какой-то научный интерес. Таким образом, данная база данных содержит в себе элементы справочно-библиографического словаря. Она включает в себя все наиболее интересные языковые факты, зафиксированные в ранее вышедших словарях, начиная с дополнений Бодуэна де Куртенэ к третьему изданию словаря В. И. Даля и заканчивая кратким и как бы шуточным, но тем не менее единственным научным словарем обсценностей, подготовленным А. Н. Барановым и Д. О. Добровольским (кстати, наша база данных была одним из источников словаря Баранова-Добровольского). Однако А. Н. Баранов и Д. О. Добровольский не ставили перед собой задачи максимального охвата материала. Их словарь содержал ограниченный набор фразеологизмов, но зато был сделан как экспериментально-лингвистический, снабжен научным аппаратом.
   В базу данных также вошла лексика из опубликованных сборников частушек, анекдотов, пословиц и т. п. Все они приводятся в списке источников.
   В текстах, опубликованных до 1992 года, обсценные слова печатались, как правило, с купюрами, отточиями, причем никакой единой системы цензурирования не существовало. Это распространялось даже на словари (Файн, Лурье 1991). Цитаты с купюрами использовались в качестве иллюстраций для словаря только в тех случаях, когда слово, несмотря на купюру, достаточно ясно реконструируемо. Купюры источников не расшифровываются.
   2.1.4. Переводные печатные источники
   Общепринятым является представление о том, что переводные тексты также представляют собой ценный языковой материал для всякого рода реконструкций. Вот что, к примеру, писал А. Н. Егунов применительно к переводам из Гомера: «Лексический… анализ переводов… может служить материалом по истории русского литературного языка»[26] . Не нуждается в аргументации представление о том, что «переводная литература органически входит в национальный литературный процесс»[27] . Конечно, не все уровни текста в равной степени автономны по отношению к оригиналу, однако лексический уровень, безусловно, представляется одним из наиболее независимых. Исходя из такого рода соображений, мы пытались представить в иллюстрациях по возможности и переводной обсценный материал. Однако к такого рода источникам мы подходили осторожно, используя переводные тексты только в качестве иллюстративного материала, не включая их в корпус письменных источников, используемых для составления словника нашей базы данных. Таким образом, обсценные материалы, встречающиеся только в переводных текстах и не подтвержденные другими источниками, в данную книгу не вошли. Названия всех переводных текстов, использованных для иллюстрирования значений, даны в списке источников.
   2.1.5. Рукописные источники
   Использованы рукописные источники двух последних столетий, содержащие как фольклорные, так и литературные тексты. Было обследовано несколько тысяч рукописных обсценных текстов XVIII – XX веков (в основном из собраний ГРБ и РНБ), и в числе прочих – «Словарь Еблематико-энциклопеди-ческий татарских матерных слов и фраз…» (1865), обнаруженный в 0Р РНБ. Этот текст дает уникальный материал для исторических реконструкций, поскольку почти все слова в нем приведены в контекстах. Анализ этого источника окончательно убеждает в том, что мат в его теперешнем виде сформировался, вероятнее всего, уже к первой половине XIX века. Цитаты из этой рукописи были использованы в качестве иллюстраций к данной базе данных. При составлении нашего словника данный словарь использовался как источник наравне с прочими словарями.
   Алфавитный указатель обследованных обсценныхтекстовбарковианы приложен к базе данных. Второй указатель – материалов собрания графа Зава-довского, содержащего несколько тысяч текстов, – еще не закончен, а потому остался за пределами данной публикации. Однако те тексты, которые цитируются в базе данных, имеют указание на том собрания Завадовского, которое вынесено в общий список источников.
   Были привлечены неопубликованные современные литературные тексты, предоставленные нам авторами: А. Бренером, Р. Кожухом, С. Левиным, И. Ма-левым, А. Машинным, Е. Мякишевым, Л. Рубинштейном, М. Чернолузским, В. Эрлем. Тексты Л. Аронзона любезно предоставил нам В. Эрль. Тексты В. Бобрецова, В. Васильева и В. Пугача были процитированы по спискам из архива Р. Кожуха. Свои книги любезно предоставил автору Т. Ю. Кибиров. Журнал «Мулета» автору подарил Толстый (Котляров). Сборник анекдотов 1857 года предоставлен А. Ф. Белоусовым. Уникальные обсценные материалы предоставлены А. И. Беликовым. Ценные источники предоставил автору А. К. Байбурин.
   Цитаты из рукописного рок-журнала «Время топить» представляют собой самый разнородный материал. Помимо бытовых рабочих записей кочегаров (Александра Башлачева, Дмитрия Винниченко, Андрея Машнина, Евгения Титова, Сергея Фирсова, Виктора Цоя и др.), законченных литературных текстов (преимущественно экспромтов, как, например, поэма Олега Григорьева и Олега Котельникова «Про гибкость») здесь встречаются даже записи или переработки фольклорных текстов и многое другое. «Время топить» – известный журнал музыкального андеграунда[28] .
   В качестве источника был также использован домашний рукописный альбом-альманах петербургского похабного поэта Е. Е. Мякишева[29].
   2.2. Принципы иллюстрирования
   Толкования значения слова, оттенки значения или значения и оттенки значения фразеологизма иллюстрируются примерами.
   Разнородность иллюстративного материала создает трудности при построении словарной статьи. Мы старались сделать цитаты максимально полными, синтаксически развернуто и семантически исчерпывающе иллюстрирующими употребление слова, его семантику и синтаксические особенности употребления.
   Один и тот же текст мог цитироваться по разным источникам, если они дают вариативный материал. Так, обсценная пародия «Горе от ума» цитируется и по рукописным спискам, и по печатному изданию начала века. По возможности, к одному слову даются цитаты из источников типологически разнородных. Контекст к хронологически первому употреблению лексемы приводится вне зависимости от характера контекста (изолированное употребление, неполный контекст, неопределенность значения). Если значение предположительно выводимо из такого контекста, то цитата ставится условно в «ломаных» скобках.
   Словари цитировались наравне с прочими источниками. Цитировались примеры, придуманные самими авторами словарей. Часто в словарях иллюстрация дает материал, не разработанный в самом словаре, то есть не вынесенный в нем в словник. Так, например, в словаре Флегона к слову спиздить приведена следующая иллюстрация: «Если кто-нибудь захочет спиздить – пусть спиз-дит. Много не напиздит\» При этом слова напиздить нет в словнике.
   Кроме того, в ряде случаев авторы сознательно цитируются не по первоисточнику, а по тому или иному словарю. Например, А. Солженицын в некоторых случаях цитируется по А. Флегону, поскольку последний, деэвфемизируя Солженицына, реконструирует там матерные слова, заменяя фуй на хуй, фу-яслице на хуяслице и т. д. Мы понимаем, что это не вполне корректно, но в данной ситуации частично оправдано лексикографической необходимостью.
   В «ломаные» скобки были взяты примеры, не вполне отчетливо поддерживающие сформулированное значение, однако по тем или иным причинам необходимые в базе данных. Также в «ломаные» скобки были взяты определения значений, сформулированные предварительно, не вполне отчетливо и предположительно.
   Объем цитат расширяется настолько, чтобы контекст употребления слова был достаточно прояснен. Если контекст не проясняет значения лексемы, то в словаре дается в «ломаных» скобках ограниченный контекст.
   Одной цитатой снабжаются слова только в том случае, когда второго контекста получить не удалось, но существование слова, к примеру, было подтверждено психолингвистическим экспериментом или другим источником, в котором оно было лишено контекста. Одновременно при помощи иллюстраций отмечаются исторические границы движения слова через столетия: дается, по возможности, самый ранний и самый поздний по времени создания пример, что заменяет в словаре традиционные пометы типа «устар.», слишком условные и недостаточно информативные.
   В тех словарных статьях, где в грамматической справке были указаны какие-либо дополнительные формы, варианты склонения, спряжения, сочетаемость, варианты вокабулы и т. п., стало необходимым подтвердить факт существования этих форм иллюстративно. Каждая форма, внесенная в грамматическую справку, подтверждается цитатами.
   Устойчивые сочетания, втом числе терминологического типа, даются в разделе «Сочетаемость» при соответствующем значении после иллюстраций (естественно, без определений значения).
   В современной лексикографии считается допустимым давать искусственные контексты, придуманные авторами. Полностью на таких иллюстрациях построен один из самых авторитетных словарей – однотомный Толковый словарь русского языка (Ожегов С. И., Шведова Н. Ю.[ред.]. М.: «АЗЪ», 1993). Однако мы отказались от такого способа иллюстрирования материала. К словам и значениям, зафиксированным в устной речи, полученным в результате тестирования или сообщенным информантами, но не обнаруженным в литературных или фольклорных источниках, приводятся иллюстрации, сформулированные информантами. Эти контексты снабжены индексами, указывающим на номер данного конкретного информанта (например, И7) в списке информантов, приложенном к словарю.
   В базе данных принят принцип читаемости сокращений при ссылках на источники. Фамилии авторов не сокращаются, названия произведений сокращаются до одного-двух слов.
   2.3. Орфографические и пунктуационные правила цитирования источников.
   Цитата начинается всегда с прописной буквы. Если начало и / или конец цитаты не совпадает с началом и / или концом предложения источника, то перед и / или после цитаты ставится многоточие. В цитатах из произведений Е. В. Харитонова, Д. А. Пригова, К. К. Кузьминского, В. Г. Сорокина, М. И. Волохова, А. Очеретянского и некоторых других сохраняется пунктуация и орфография источника, поскольку большинство текстов данных авторов демонстрируют либо принципиальный отказ от пунктуации, либо другие значимые авторские особенности графики текста. Осталась неизменной также пунктуация текстов анонимных авторов XVIII – XIX веков. Тексты фонограмм, примеры информантов приводятся к нормам современной орфографии и пунктуации. Тексты современных авторов, пунктуация и орфография которых не позволяет установить ту или иную систему отказа от общепринятых графических принципов, по мере возможности были приведены к современным нормам. Пропуск в цитатах обозначался троеточием.
 
3. Состав словника. Структурные и семантические особенности лексики, включенной в базу данных
   Из описанных источников в словник базы данных включены все грамматические формы лексемы хуй, ее сочетаемость, фразеология, а также ряд языковых клише, близких к фразеологии. Таким образом, никаких семантических критериев отбора материала не выдвигается[30] . Семантика включенных в базу данных материалов предельно разнородна: здесь оказались рядом материалы как имеющие обсценную семантику, так и не связанные семантически с сексуальной деятельностью человека. Такой строго формальный подход к отбору лексем представляется оправданным применительно к данному материалу.
   Бесконечная омонимическая местословность мата (сколько значений имеют наиболее частотные слова стеми же аффиксами в литературном языке, столько смыслов могут себе присвоить «матерные» лексемы), бесконечная дисфеми-стичность (сколько существительных в языке, столько матерных дисфемиз-мов потенциально может образовываться), бесконечная способность продуцировать сложносоставные бранные лексемы действительно позволяют мату, образующемуся из нескольких непроизводных основ, брать порой на себя функции интержаргона, становиться материалом для уникальных языковых игр. Эта особенность мата ставит лексикографа в трудное положение. Может показаться, что составление словаря мата абсурдно, как словаря местослов-ных образований. Тем не менее данные теста и опросов убедительно показывают, что в действительности подавляющее большинство «матерных» слов обычно употребляется в одних и тех же вполне определенных значениях (срав.: ебать, ёбнуть и ебнуть; пиздобол и хуеплёт и др.), и, таким образом, и восприятие мата как интержаргона, и его местословность в значительной степени свойственны внутренней точке зрения, нежели внешней, исследовательской.
 
4. Границы слова
   Поскольку нами фиксировалось не только письменное, но и устное слово, встает вопрос о его границах и написании. Условно приняты нормы членения речи, графические нормы, задаваемые письменными источниками. Для выявления графических норм использовались по возможности более поздние источники (чаще всего это источники XX века.). Если такая «кодификация» отсутствует или слово появляется в письменных текстах в различных графических вариантах, оно дается в словнике один раз с указанием вариативных форм фиксации. Так, в последующих выпусках базы данных в словник будут выноситься лексикализованные сочетания (образования), формально рассматриваемые нами как приобретающие статус слова, поскольку встречаются в письменных источниках в слитном написании: не-хуя, похую и некоторые другие. В данном томе лексикализованные сочетания условно помещались в раздел фразеологии. Конечно, такой формальный подход распространялся только на вокабулы, регулярно встречающиеся как в слитном, так и в раздельном написании. Условно лексикализованные сочетания, встречающиеся и в раздельном, и в слитном написании (и, видимо, воспринимаемые двояко), рассматривались как имеющие двойственный статус (слово-идиома). Например, не хуя как фразеологическое образование и нехуя каклексикализованное сочетание. Мы посчитали такой чисто формальный подход целесообразным, поскольку стремились избежать привнесения в поданный материал собственных корректив и интерпретаций в тех случаях, когда этого можно избежать.