Инструментальное средство историко-биографических исследований (просопографические базы данных по истории России)

Инструментальное средство историко-биографических исследований (просопографические базы данных по истории России)

Современная историография ориентируется на системный подход к изучению прошлого. При этом главная сложность состоит в необходимости переработки больших объемов информации, использования соответствующих методов ее анализа и синтеза. Тем самым информационные проблемы исследований выдвигаются на первый план. К их числу относится и создание на основе баз и банков данных более совершенных технических средств, позволяющих хранить и использовать информацию не только о самом объекте, но и все те «внешние» данные, которые можно агрегировать и синтезировать в пространстве и времени и осуществить на этой основе поиск новых интерпретаций.

Интеллектуальными площадками, на которых обсуждаются проблемы создания баз и банков данных, являются конференции и другие мероприятия ассоциации «История и компьютер» (национальное отделение международной ассоциации «History & Computing», существует с 1992 г.)[1]. Как отмечает И.М. Гарскова, если в 1990-е годы в клиометрике доминировали табличные базы данных, то в 2000-е годы сформировались и другие направления – полнотекстовые, просопографические, историографические базы данных; информационные системы на основе больших коллекций статистических и нарративных источников и т.д.[2]>

Изначально в историографии термин «просопография» обозначал источниковедческую дисциплину, цель которой заключается в том, чтобы раскрыть суть какого-либо исторически значимого социального явления или структуры через рассказ о лицах, судьбы и деяния которых тесно связаны с соответствующими явлениями и структурами. Становление современного просопографического исследовательского жанра в исторической науке связывают с именем британского историка Л. Стоуна (L. Stone). В 1971 году вышла его статья, в которой автор представил свое видение «старой» и «новой» просопографии. «Старая» просопография занималась изучением сравнительно немногочисленных социальных элит, в то время как «новая» (количественная) просопография призвана заниматься изучением гораздо больших выборок, причем изучение должно касаться не только элит, но и «обыкновенных людей». Согласно данному Л. Стоуном определению, просопография – это исследование общих характеристик группы действующих в истории лиц, которое касается путей осуществления ими политических акций, а также вариантов социальной мобильности и реализации карьерных устремлений[3].

С начала 1990-х годов просопография превратилась в жанр исследований, предполагающий изучение массовых источников в целях создания на основе статистического анализа динамических «коллективных биографий» определенных социальных групп, страт и т.п. при возможности сохранения и изучения биографий отдельных индивидуумов, составляющих данные социальные группы и страты. Уже к 2002 г., по подсчетам Ю.Ю. Юмашевой и Г.В. Ивановой, в отечественной историографии были разработаны более ста просопографических баз данных[4]. Резкий скачок в развитии просопографических исследований в начале 1990-х годов авторы объясняют появлением достаточно простых коммерческих СУБД, позволивших создавать базы данных и применять статистические методы их обработки даже пользователям, не имеющим специальной подготовки[5]. В ряде случаев разработчики даже не указывают в публикациях, на основе каких систем они создавали свои базы данных.

В период с 1990 по 1996 гг. наиболее популярной СУБД была dBASE III plus; одновременно в этот период использовались «Карат», FoxBase (в разных версиях) и FILE FORCE applicational program. В 1992–1998 гг. используются также СУБД KLEIO, а также программы различного назначения – СТАТИСТИКА, «ПРОСИС», АНАРХИСТ, СОЦИОЛОГ и др.[6] С 1997 г. большинство баз данных разрабатывается в среде MS Access (иногда можно встретить и исследования, выполненные на базе электронных таблиц MS Excel). Как правило, авторы таких разработок выбирают инструментальное средство, исходя из его доступности, совместимости с MS Windows, возможности управления (корректировки, пополнения) БД[7].

Примером такой «стандартной» разработки может служить БД Г.В. Дьячкова «Герои Советского Союза»[8]. Автор анализирует коллективный «портрет Героя», выделяя поколенческие, национальные и политические (членство в ВКП(б), ВЛКСМ) характеристики. При этом в исследовании отсутствуют динамические характеристики, что, по-видимому, объясняется ограниченными возможностями выбранной СУБД.

Другим примером просопографической базы данных, выполненной в СУБД Microsoft Access, можно считать БД «“Раскулаченные” крестьяне Южного Урала (1930–1934 гг.)» (БД «РКЮУ»)[9]. Она ориентирована в большей степени на статистический (БД содержит почти полторы тысячи записей), чем на биографический анализ.

Стандартные программные средства большей частью рассчитаны на обработку синхронных данных, что ограничивает возможности историков в работе с массовыми источниками. Нужна разработка новых технологий, более плотное сотрудничество историков и информатиков.

Примером создания инструментального средства под задачи конкретного просопографического исследования может служить база по личным делам рабочих нефтепромышленной фирмы «Товарищество бр. Нобель», созданная П. Аханчи (Институт истории АН Азербайджана) и И.М. Гарсковой (МГУ) для изучения рынка рабочей силы в нефтяной промышленности Баку и миграции рабочих в этот регион в конце XIX – начале XX вв. Она основана на сведениях 2000 личных дел, содержащих как статичную (или уникальную) информацию, так и динамические сведения о каждом рабочем по всему периоду его занятости в фирме. Статичная информация включает данные об имени, национальности, грамотности, возрасте, месте рождения и других показателях, которые фиксировались однократно, при первом поступлении на работу в фирму. Динамическая же информация включает данные, которые фиксировались при каждом их изменении и вносились в личное дело по мере необходимости (изменения уровня квалификации или семейного положения, перемещения с одного места работы на другое, изменения зарплаты и их причины, штрафы и поощрения, несчастные случаи и т. д.)[10].

Разработчики базы данных ставили перед собой не биографические, а статистические исследовательские задачи. Основной проблемой было построение динамических рядов по всем основным показателям для изучаемого периода, опирающееся на возможность извлекать из базы данных списки рабочих, занятых в «Товариществе бр. Нобель» в каждый момент времени, и подсчитывать на основе этих списков числовые значения количественных показателей и доли встречаемости отдельных категорий качественных показателей (например, средний возраст рабочих или долю грамотных рабочих). Для решения этой задачи был создан меню-управляемый пакет программ ATiSeP (Aggregated Time Series on Prosopography – Агрегированные Динамические Ряды Просопографических данных) на языке БД dBASE IV, предназначенный для извлечения информации из многофайловой базы данных и построения динамических рядов полей этой базы для каждого указанного пользователем периода времени. Система работает с несколькими файлами базы данных: основным файлом, содержащим статические сведения о персоналиях (число записей в этом файле равно числу персоналий в базе данных), справочным файлом, содержащим по крайней мере одну запись для каждого рабочего о датах каждого его поступления на работу и каждого увольнения, и несколькими дополнительными файлами, содержащими сведения об изменениях различных динамических показателей и их датах по всем персоналиям, о которых такие сведения имеются.

Пакет состоит из следующих модулей: 1) модуль, формирующий структуры указанных файлов; 2) модуль, формирующий динамические ряды погодовых или помесячных данных; 3) модуль, формирующий вспомогательные (выборочные) файлы, содержащие сведения о тех персоналиях, которые присутствуют в данном периоде; 4) модуль, экспортирующий эти выборочные файлы в графический или статистический пакет для дальнейшего анализа<[11].

Как видно, вышеуказанная база данных отвечает одному из важнейших требований для современных просопографических исследований – наличие «динамических характеристик» и оформление результатов изучения не в виде статичного «образа», характеризующего данную группу людей в конкретный момент времени, а «коллективной биографии», позволяющей проследить изменения, проходящие в жизни изучаемой группы на протяжении определенного периода[12].

Анализ биографических (в широком смысле) данных достаточно большой выборки представителей определенной социальной и профессиональной группы лиц может дать интересный историографический результат. Так, одним из самых удачных, на наш взгляд, является проект «Российские парламентарии начала ХХ в.». Созданная пермскими учеными информационная система отличается полно-текстовостью, источнико-ориентированностью, возможностью работы через web-интерфейс, ориентацией на многозадачность исследований. Она позволяет получать информацию о составе депутатского корпуса Государственной думы в 1906— 1917 гг., делать выборки депутатов по тем или иным параметрам и на этой основе осуществлять просопографические исследования[13]. В технологическом плане этот комплекс отличается использованием при программировании необходимых приложений языка PL/SQL и реализацией на базе программного комплекса Oracle Application Server, что обеспечивает кроссплатформенность созданной информационной системы[1].

Массовые источники (mass data) по своему происхождению имеют многофункциональное значение. Они могут представлять интерес для различных проблемных разработок. Задача историка состоит в том, чтобы максимально полно использовать информацию, содержащуюся в источнике. Обработка источников как информационных объектов включает в себя учет структуры содержания информации, ее классификацию, оценку полноты и представительности, анализ психологических и др. факторов, оказавших влияние на характер информации и др.

Специфика e-history заключается в том, что характеристики исследуемых объектов заранее не известны, а область значения изучаемых переменных практически невозможно предусмотреть. Трудности исследования заключаются в необходимости обработки большого объема неструктурированных данных, а также в определении требуемых количественных показателей, характеризующих определенные выборки этих данных. В исторических исследованиях необходимо не просто зафиксировать произвольное количество переменных, но и обосновать их выбор, установить иерархию, системно упорядочить относительно друг друга. Здесь сложность заключается и в том, что заданная в источнике структура признаков и показателей необязательно совпадает с целями и задачами исследования. В этом случае встает вопрос об отборе необходимых для него переменных. Правда, историк часто заранее не знает, какие именно из них представляют интерес, и на этой почве возникают и методологические сложности, и возможные альтернативы в дальнейшей работе. Поэтому проведение просопографических исследований требует как источниковедческих, методологических, так и технологических решений.

В качестве примера такого междисциплинарного поиска приведем оригинальный программный комплекс для хранения и статистической обработки данных об исторических персоналиях организации либо отрасли, разработанный в Санкт-Петербургском государственном политехническом университете.

Пространственно-временное структурирование сведений о творческой биографии представителей науки и высшего образования может дать ценный материал для формирования общей картины развития отечественного интеллектуального потенциала, формирования коллективного портрета российского ученого, профессора вуза. Анализ целого ряда источников (жизнеописаний ученых, их творческих биографий, воспоминаний современников и т.п.) показывает принципиальную возможность формализации описания персоны, ее творческой и общественной биографии. Дополнив такое описание достаточно гибким механизмом поиска и группирования, представляется возможным получить разнообразные количественные характеристики исследуемых групп.

Механизм реляционных баз данных является вполне адекватным и достаточно универсальным для создания современного инструмента подобных исследований. На его основе был создан программный комплекс для хранения и статистической обработки данных об исторических персоналиях организации, либо отрасли (промышленности, науки, образования, культуры и т.д.). Комплекс включает в себя реляционную базу данных, хранящуюся на SQL-сервере, и клиентское Web-приложение, позволяющее редактировать содержание базы данных (добавить, модифицировать, удалить записи); формировать поисковые запросы любой степени сложности; производить группировку результатов запросов; задавать вычисление требуемых количественных параметров выборок (распределение, среднее значение, дисперсия, коэффициенты корреляции). Такой подход позволил получить доступ к базе посредством обычного Web-браузера и избежать проблем, связанных с необходимостью установки и поддержки специализированного приложения на клиентских компьютерах. Следует отметить стремление создателей совместить два основополагающих принципа функционирования любых исторических баз данных – источнико-ориентированного и проблемно-ориентированного. От успешности и результативности соединения этих подходов напрямую зависит востребованность, актуальность той или иной базы данных, её научный потенциал в целом. Исследователь получает не просто доступ к большому массиву структурированных данных в машиночитаемом виде, но и возможность создавать в этой структуре в любой форме любое число своих структур, ориентированных на решение уже конкретных исследовательских задач.

Исходными данными приложения являются любые текстовые и графические данные, которые могут быть переведены в электронный формат. На основе таких источников формируется запись о персоне в БД, а все исходные документы (в их электронном представлении) логически связываются с записью о персоне и при необходимости могут быть использованы в исследовании.

В программном комплексе реализована возможность организации запросов к базе данных с целью получения выборок для дальнейшей статистической обработки информации и вычисления характеристических параметров. Основная операция приложения – запрос на отбор записей базы данных, удовлетворяющих указанному набору условий, и отображение распределения этих записей по группам, вычисление значений заданных критериев. Запрос формируется на основании задаваемых пользователем значений любого подмножества критериев поиска. Набор критериев поиска включает в себя любое сочетание атрибутов, характеризующих персону. Критериями поиска могут быть как критерии типа «диапазон», например родившиеся в заданном интервале лет, так и критерии типа «попадает-в-множество», например закончившие один из указанных вузов. В результате выполнения такого вида запросов вычисляется количество лиц, чьи данные в записях базы удовлетворяют заданным критериям, и отображается собственно список этих лиц.

Результаты выполнения запросов могут группироваться в соответствии с задаваемыми параметрами. При этом записи о лицах, удовлетворяющие заданным условиям поиска, разбиваются на группы по значениям заданных критериев группировки. Для каждой группы отображается количество записей и сами записи, попавшие в неё. Если задано два и более параметра группировки, то каждая группа разбивается на подгруппы, для которых также указывается количество записей и сами записи и так далее. Результаты таких запросов могут быть представлены в графическом виде в форме гистограмм.

При проектировании клиент-серверных систем хранения, передачи и отображения текстовой информации необходимо учитывать следующие особенности функционирования таких систем:

  1. Быстрый доступ к запрашиваемой информации и возможность работы с одними и теми же данными одновременно нескольким пользователям. Реализуется путем создания распределенной БД, расположенной на многопроцессорном сервере. Оптимизация поиска информации осуществляется с использованием возможности параллельного поиска в распределенной БД (на разных узлах многопроцессорного сервера, кластеризация информации). Кроме того, логично позиционировать такую систему как SourceSafe, то есть пользователь может скопировать данные с сервера, работать с ними, а потом синхронизировать свои измененные данные с базой данных. Во время захвата (check out) данных остальные пользователи могут только просматривать информацию без возможности модификации.
  2. Наличие сервиса обработки данных (как поступающей информации, так и хранимой). Применение механизма Data Mining – приобретение знаний из накопленной информации, а также Text Mining (анализ текста), статистический анализ лексикографических групп, поиск зависимых высказываний, выделение цепочек «причина-следствие» и пр.
  3. Разделение прав доступа для пользователей (групп пользователей), за которое отвечает модуль бизнеслогики. Он включает в себя функции определения доступа/запрета к запрашиваемой информации на чтение, изменение, удаление данных.
  4. Администрирование и модификация базы данных выполняется с помощью отдельного административного модуля системы. Это позволяет разделить функции просмотра и редактирования данных, что повышает уровень защищенности системы от сбоев и защиту от несанкционированного доступа.
  5. Организация доступа к данным посредством интернет-портала, реализующего доступ как через обычный Web-интерфейс, поддерживающий работу с данными с помощью программ просмотра (Webбраузеров), так и работу Web-служб, позволяющих создавать специализированные удаленные клиенты.

На основе «Инструментального средства историко-биографических исследований» коллективом авторов (В.С. Синепол , С.Б. Ульянова, И.В. Аладышкин, Н.В. Корнет) была создана база данных нового типа – «Профессора Санкт-Петербургского Политехнического университета, ХХ век» (ПСПбПИ, зарегистрирована в Госинформрегистре в 2009 г., номер гос. регистрации 0220913105).

Рассматриваемая База данных включает в себя развитые средства хранения и формализации информации. Работа с клиентским приложением разделена на три взаимосвязанные части: 1) регистрация персоналий – внесение общих данных биографий и дальнейшее их редактирование (включая поисковую систему по персоналиям); 2) обработка хранящегося в БД массива информации посредством запросов на отбор записей; 3) справочники (высших учебных заведений РФ, подразделений СПбГПУ, Почётных званий, Специальностей ВО и др.), облегчающие ориентацию пользователя в материалах БД.

Для облегчения процесса ввода материалов из источников, их дальнейшего редактирования были созданы 13 основных разделов распределения информации:

  1. «регистрация», где заносятся лишь самые общие биографические данные: период жизни, место рождения и социальное происхождение. Эти данные будут отражаться во всех последующих разделах формализации данных той или иной персоналии, объединённых на одном «поле»;
  2. данные о родственниках (включающие их фамилии, инициалы и степень родства);
  3. образование (указывается оконченный вуз, период обучения и полученная специальность);
  4. служебная карьера (вводятся данные о периоде работы, типе организации и её географическом расположении, занимаемых должностях, дополнительно приводится список почётных званий);
  5. работа в СПбГПУ (обозначаются, вместе с указанием периода работы, занимаемые должности на тех или иных факультетах, кафедрах, административная роль, названия поставленных курсов);
  6. научная карьера (предполагает данные о годе окончания аспирантуры и докторантуры, организации, датах защиты кандидатской и докторской диссертации, отрасли наук, научном руководителе и консультанте, учёное звание, область научных интересов и академические звания);
  7. награды (указываются годы получения, а также их наименования);
  8. документы (библиографические ссылки на опубликованные издания (заголовок, название сборника, авторы, место издания, издательство, год издания, страницы, ISBN) и архивные документы (название архива, номера фонда, описи, дела, листов);
  9. публикации (содержит данные об общем количестве патентов и авторских свидетельств, общем количестве публикаций, а также имеет место выборочное указание наиболее важных научных и методических работ (учитывается: соавторы, название, статус публикации, объём, год издания и тип издательства);
  10. работа в редколлегиях (включает информацию о периоде работы и названиях изданий);
  11. участие в выставках (указывается год участия и название выставки, награды);
  12. научно-общественная деятельность (обозначается период, категория совета, уровень членства);
  13. политическая деятельность (данные о членстве в той или иной политической партии и период членства, период участия в работе выборных органов).

В результате гибкой структуры введения, хранения и вариантов дальнейшей обработки информации в данной базе исследователь получает широкие возможности по формированию в ее структуре собственных запросов, ориентированных на решение конкретных исследовательских задач.

База данных «Профессора политехнического университета» является электронным ресурсом, предоставляющим широкие возможности для проведения просопографических исследований и, безусловно, значительно расширяет возможности реконструкции типов карьеры российского ученого и преподавателя высшей школы, анализа приоритетных направлений научной работы, изучения на личностном уровне интеграции отечественных ученых в европейскую и мировую науку. Разработанная база данных в перспективе может стать важным этапом в изучении становления научных школ, формировании синтетического представления о научном сообществе в целом. Включение же в ее записи динамической компоненты информации позволяет выявить тенденции развития исследуемой социально-профессиональной группы представителей научного сообщества. В перспективе на основе универсального инструментального средства историко-биографических исследований возможна реализация более масштабных баз данных, охватывающих целые отрасли промышленности, науки, образования, культуры и т.д.

Таким образом, использование методов digital history позволяет историкам осуществлять хранение и обработку текстовых, статистических, визуальных и иных исторических источников на качественно новом уровне, с учетом современных мировых тенденций в области вычислительных комплексов и информационных технологий.

Примечания.

1. Обзор тематики конференций АИК за последнее десятилетие см.: Гарскова И.М. Новые тенденции развития исторической информатики: по материалам конференций 2000-х годов // Вестник Челябинского государственного университета. 2011. № 9. С. 144–153.

2. Там же. С. 148.

3. Stone L. Prosopography // Daedalus. 1971. № 100. P. 46–79.

4. Юмашева Ю.Ю., Иванова Г.В. Историография просопографии // Круг идей: алгоритмы и технологии исторической информатики. М., 2005. С. 123.

5. Там же. С. 130.

6. Там же. С. 134.

7. Косенков А.Н. Региональные верхние социальные слои в 1918—1953 гг.: Методика создания и обработки электронной просопографической базы данных // Вестник Тамбовского государственного университета. 2013. Вып. 11. С. 2.

8. Дьячков Г.В. Герои Советского Союза: особенности коллективного облика // Вестник Тамбовского государственного университета. 2007. Вып. 1. С. 139–142.

9. Раков А.А. База данных «"Раскулаченные" крестьяне Южного Урала (1930-1934 гг.)»: новые результаты и эволюция выборки // Экономическая история. 2010. № 3. С. 64–75.

10. Гарскова И.М. От просопографии к статистике: Методика анализа баз данных по источникам, содержащим динамическую информацию // Источник. Метод. Компьютер. Барнаул, 1996. С. 124–126.

11. Там же. С. 125—126.

12. Целорунго Д.Г. Офицеры и солдаты российской армии – участники Бородинского сражения (от просопографической базы данных к историческому исследованию) // URL: http://mozhblag.prihod.ru/stranicy_istorii_razdel/view/id/1130392 (дата обращения 11.03.2014).

13. Корниенко С. Изучение истории государственного управления и самоуправления в дореволюционной России (на основе современных информационных технологий) // Власть. 2009. № 11. С. 44—46.

14. Поврозник Н.Г. Информационные системы для историков: основные тенденции развития // Вестник Пермского университета. Сер.: История и политология. 2009. № 3. С. 102.

Об авторе: Санкт-Петербургский государственный политехнический университет
Санкт-Петербург, Россия
oulianova@mail.spbstu.ru, sinepol@mail.spbstu.ru
Материалы международной конференции Sorucom 2014 (13-17 октября 2014)
Помещена в музей с разрешения авторов 27 декабря 2015