О. М. Карпова, М. А. Кириллов
Из опыта составления частотного словаря рассказов Ф. С. Фицджеральда


В тексте, как результате речевой деятельности, проявляется вероятностная организация словаря человека. Этот словарный запас пополняется в течение жизни, он индивидуален, как «индивидуальны и правила, используемые в процессе речи. Рассмотрев детально любой текст, можно обнаружить, что он состоит из определенного количества повторяющихся в нем элементов. Поэтому писательская лексикография исследует не только качественную (семантическую), но и количественную сторону текста произведений того или иного автора. Лексикографическим выражением статистического анализа художественного текста является частотный словарь (ЧС) или индекс, который отличается от других справочников тем, что в нем каждая входная единица сопровождается указанием на частоту ее употребления в тексте-источнике (1).

Как показывает богатый исторический опыт англоязычной лексикографии, имеющей в своем распоряжении более 300 одноязычных и двуязычных лингвистических и энциклопедических справочников, конкордансы составляют большую часть авторских словарей (3), являясь самой популярной лексикографической формой в западноевропейской писательской лексикографии. Однако индекс также представлен значительным количеством весьма ценных словарей, главным образом, к произведениям Дж. Джойса, некоторым работам авторов XIX в. (6, 7, 8, 9). Кроме того, ЧС, не выходящие отдельными изданиями, служат инструментом фонетико-фонологических, морфологических, типологических и стилистических исследований в лингвистике и литературоведении (2, с. 10—15).

Статистическое исследование стиля писателя позволяет решать такую задачу, как определение авторства анонимных произведений. В то же время ЧС писателей, как и конкордансы, могут представить исходный материал для других типов словарей, и в первую очередь, толкового словаря (отборвходных единиц в словарь, введение таких информационных категорий, как абсолютная частота и т. д.). Обработка большого количества статистических данных производится на ЭВМ, которые способны автоматизировать основную часть процесса исследования.

Одна из основных особенностей ЧС к произведениям отдельного автора состоит в том, что они не требуют переводного эквивалента, т. е. составляются как одноязычные. Это не только значительно облегчает работу по их созданию, но и решает проблему экономии места в словаре. Общеизвестны случаи, когда объем словарей к английскому переводу Библии в несколько раз превышал объем самого источника (4, с. 10—11). Пользователи учебных ЧС, как правило, довольствуются лишь небольшим набором помет из добавочной семантико-функциональной характеристики и нуждаются лишь в данных об абсолютной частоте употребления слова в тексте выборки. В писательских же ЧС в лексикографическую обработку слов вовлекаются дополнительные статистические характеристики, например, абсолютная накопленная, относительная и относительная накопленная частоты, которые наиболее полно могут быть использованы лишь исследователем-лингвистом. В зависимости от проводимых исследований текста перед лексикографом также может быть поставлена задача включения в словарь разного рода этимологической, стилистической и другой информации.

Наряду с информативной ценностью индексов некоторые ученые отмечают их ограниченность, заключающуюся в отсутствии контекстуальных иллюстраций (4), введение которых, однако, значительно увеличило бы объем словаря.

Определение особенностей авторского стиля начинается с выделения из анализируемого текста конкретного количества параметров и обработки их разными статистическими методами. Для анализа стиля писателя имеют значение такие характеристики текста, как распределение частей речи по позициям в предложении, средняя длина слова и предложения, общее распределение длины слова, общее распределение длины предложения и др. В текстологических исследованиях применяется также метод синтаксических и фразеологических дублетов, метод речевых параллелей (2).

В ходе исследования важную роль играет как высокочастотная, так и низкочастотная лексика. Авторская склонность к употреблению той или иной лексической единицы неизбежно должна проявить себя в более высокой частоте этой единицы в тексте по сравнению с ее частотой в национальном языке. В то же время в ЧС авторского произведения особый интерес представляет низкочастотная лексика и индивидуальные словоупотребления писателя, т. к. такие слова могут с течением времени войти в состав национального языка, поскольку у каждого неологизма есть хотя бы один автор (10).

При составлении писательского ЧС материалом послужили короткие рассказы Ф. С. Фицджеральда «Bernice Bobs Her Hair», «Winter Dreams», «The Sensible Thing», «Absolution» как оригинальные, удобные в обработке произведения, принесшие, наряду с романами, великому американскому писателю мировую известность. Начало данному проекту было положено О. М. Карповой и Ф. И. Карташковой, составившими ЧС к рассказу «The Baby Party» (5). Базой для создания модели полного по словнику частотного словаря ко всем коротким рассказам явилось наиболее авторитетное издание «Bernice Bobs Her Hair and Other Stories», вышедшее в 1968 году в издательстве «Penguin Books». Предполагается, что планируемый словарь будет представлять полный по словнику частотно-алфавитный список словоформ четырех рассказов Ф. С. Фицджеральда. Он будет предназначен в первую очередь исследователю-лингвисту, который может получить информацию из достаточно широкого набора статистических данных, а также студентам-филологам для использования как в исследовательских целях, так и на занятиях по аналитическому и домашнему чтению при изучении творчества Скотта Фицджеральда.

Задача получения словаря словоформ, а не слов, позволяет вводить сплошной текст с клавиатуры лишь с незначительными изменениями. При анализе текста в первую очередь встают вопросы о границах слова, объеме сегментирования текста, необходимости учета вариантных пар, включения в словник имен собственных, сокращений и служебных слов, разграничения омонимов и т. п.

В нашем словаре принят порядок расчленения словосочетаний и фразеологических оборотов с тем, чтобы облегчить обработку данных на компьютере, сохранить однородностьсловника, обеспечить возможность отнесения входных единиц к определенной части речи. Последнее обусловило решение разбить писательские сокращения на составляющие, например: авторское — I'm, на вводимое — I am.

Для удобства поиска интересующей информации отсутствие контекстуальных иллюстраций в полученной модели авторского ЧС отчасти скомпенсировано приведением адресных отсылок к тексту произведения. Для этого программным путем массив текста был поделен на выборки по 1000 словоупотреблений каждая. Такое деление текста-источника выгодно отличается от страничного тем, что позволяет обращаться к каждому изданию Скотта Фицджеральда и сохраняет возможность создания распределительного словаря, а это весьма важно для данной лексикографической формы писательского справочника.

В результате пользователь получает полный по словнику ЧС, содержащий все слова текста рассказа, как знаменательные, так и служебные, исходные, словоизменительные, словообразовательные формы слов, имена собственные и аббревиатуры.

Структура словарной статьи включает: порядковый номер, который служит для упрощения отсылки к входной единице в частотно-алфавитном списке; заглавное слово, помету части речи, ранг, набор частот (абсолютная, абсолютная накопленная, относительная, относительная накопленная), адресную отсылку к источнику (первая цифра — номер выборки в 1000 словоупотреблений, вторая — количество употреблений слова в ней).

При статистическом исследовании четырех коротких рассказов Фицджеральда возникает теоретическая возможность составления более 100 отличных друг от друга частотных списков как ко всему массиву текстов, так и к каждому рассказу, по общей выборке, по частям речи, с расположением входных единиц списка в алфавитно-частотном или частотно-алфавитном порядке. Частотно-алфавитный список словоформ по общей выборке есть пример канонической формы индекса. Из него проще всего извлечь данные о статистическом распределении словоформ текста.

Алфавитно-частотный словарь — удобная форма для получения информации об интересующей входной единице.

По предварительным итогам данного исследования мы пришли к следующим выводам: при отборе материала для составления и анализа ЧС, подготовке текста к вводу в машину необходим целостный, системный подход; качественные характеристики результирующего ЧС и его возможности определяются во многом особенностями программного обеспечения, применяемого в исследовании; оптимизация процесса компьютерного составления словарей позволит сократить затраты времени и сил на работу такого рода, облегчит пользование справочником. Программное обеспечение, созданное для настоящего проекта, может быть использовано при составлении ЧС к любым текстам при соответствующей предварительной обработке.


Список использованной литературы

1. Алексеев П. М. Статистическая лексикография. Л., 1975.

2. Ермоленко Г. В. Анонимные произведения и их авторы. Минск, 1988.

3. Карпова О. М. Библиографический указатель словарей языка английских писателей (XVI—XX вв.). Иваново, 1993.

4. Карпова О. М. Словари языка писателей. М., 1989.

5. Карпова О. М., Карташкова Ф. И. О некоторых результатах составления частотных словарей Ф. С. Фицджеральда // Тез. конф. молодых ученых. Иваново, 1986.

6. Hancock L. Word Index to J. Joyce's Portrait of the Artist. N. Y., 1967.

7. Hanley M. Word Index to J. Joyce's Ulysses. Madison, 1953.

8. Lane G. Word Index to James Joyce's «Dubliners». N. Y., 1972.

9. Nakada O. A Word Index to Sir Philip Sidney's Astrophil and Stella. Tokio, 1970.

10. Sedelov S. Y. Computers in Language Research: Formal Methods. Mouton, 1979.


Опубликовано в издании: Теоретические и практические аспекты лексикографии. Иваново, 1997. (с. 138-142).


Яндекс.Метрика