Инструкция для пользователей

I. Ссылка на ресурс
При использовании материалов корпуса просьба ссылаться на него следующим образом:
1. Для демо-версии в открытом доступе: Томский диалектный корпус [Электронный ресурс] // Лаборатория общей и сибирской лексикографии НИ ТГУ.  URL: http://losl.tsu.ru/corpus (дата обращения: ...). Режим доступа: свободный.
2.Для основной версии в закрытом доступе: Томский диалектный корпус [Электронный ресурс] // Лаборатория общей и сибирской лексикографии НИ ТГУ. – Электрон. дан. – Томск, [б. г.]. – URL: http://losl.tsu.ru/corpus (дата обращения: ...). Режим доступа: для зарегистрированных пользователей.
II.Объём корпуса
Корпус постоянно пополняется. Актуальную информацию о числе словоупотреблений можно узнать на вкладке «Количественные подсчёты».
III. Пояснения к расшифровке текста
Записи даются в орфографическом виде с отражением отдельных фонетических особенностей. Более подробно ознакомиться с особенностями передачи звучащей речи можно в приложенном файле.

 
IV. Типы поиска в корпусе

Доступны следующие типы поиска:
  1. По слову: поиск символьного соответствия, точной формы слова, всех форм слова.
  2. По информанту (социолингвистическим параметрам): пол, год рождения, возраст, уровень образования, тип говора.
  3. По экстралингвистическим параметрам записи: год, место (область, район населённый пункт).
  4. По текстовым параметрам: тема, тип текста.
  5. По источнику: номер архивной тетради.
1. Символьный и пословный поиск

Варианты данной разновидности поиска представлены в виде выпадающего списка в разделе «Поиск по слову»:

1) Поиск символьного соответствия.
Ищет простую последовательность символов.По запросу «конь» найдутся единицы «конь», «посконь», «браконьер», «коньяк» и др.
При необходимости количество результатов можно уменьшить, используя пробелы. Например, запрос « конь» отсекает из результатов выдачи варианты «посконь», «браконьер», но оставляет «коньяк»; запрос «конь », напротив, исключает из результатов выдачи «коньяк», но оставляет «посконь», «браконьер».
Следует помнить, что данный тип поиска чувствителен к регистру («коньяк» и «Коньяк» распознаются как разные единицы. При необходимости найти оба варианта нужно ввести отдельный запрос для каждого).
Ударения не распознаются («коньяк» и «конья'к» рассматриваются как разные единицы. При необходимости найти оба варианта нужно ввести отдельный запрос для каждого).
При данном типе поиска буквы е и ё рассматриваются как разные единицы (т.е. по запросу «ребенок» не будет найдено «ребёнок» и наоборот).
Этот тип поиска может использоваться:
а) для поиска сочетания «слово +символ» (слово перед точкой, слово после тире. Слово после точки с заглавной буквы и т.п.);
б) для поиска словосочетаний, фраз
(однако есть ограничения: если внутри фразы имеется тематический тег, она не будет обнаружена; по возможности мы не ставим теги внутри высказывания, но полностью устранить эту проблему пока не удалось);
в) для поиска однокоренных слов (в том числе для обнаружения ранее не зафиксированных диалектных лексем).


2) Поиск точной формы слова.
По запросу «конь» найдётся только данная форма слова.
Варианты написания с «е» и «ё» рассматриваются как разные единицы. 
Варианты написания с ударением и без него рассматриваются как разные единицы.
Обратите внимание: при данном типе поиска не различаются омонимы (по запросу «косу» будут найдены контексты На голове платок носили, косу заплетали; Говорят вот, косу купил, а не литовку; Ну, у них был стрежпесо'к. Туда вот, третью косу они вот... рыбачили), в том числе грамматические (по запросу «мыла» будут найдены контексты как с существительным: мыла пачечку купит, так и с глаголом: Поке'дова ноги мыла.)
3) Поиск по лемме.
По запросу «конь» будут найдены все словоформы («коня», «коню», «кони», «коней», «конями» и т.д.). Учитываются в том числе формы с чередованием в основе (по запросу «лить» будут найдены «лью», «льёшь» и т.п.) и супплетивные (по запросу «ребёнок» будут найдены формы слова «дети» и т.п.).  
Обратите внимание: слово следует вводить без ударения и с буквой ё (при этом в результаты выдачи попадут и варианты написания с ударением, и написания с буквой «е» на месте «ё»).
Запрос осуществляется на основе автоматической лемматизации. Грамматическая омонимия не снята (т.е. по запросу «мыла» будут найдены контексты как с существительным, так и с глаголом, а также с местоимением моя, совпадающим по форме с деепричастием).
Если лемматизировать слово не удалось, тип поиска будет автоматически изменён на поиск символьного соответствия и выведено сообщение об ошибке следующего вида:

Обратите внимание: при лемматизации диалектных и просторечных единиц возможны ошибки. Так, при поиске слова «титя» система выдаёт нулевой результат, т.к. возводит его к форме глагола *титить. Проверить, к какой лемме возведено слово, можно в строке «параметры поиска» под кнопкой «Поиск»:

Чаще всего ошибки возникают при лемматизации диалектных существительных. Имена прилагательные и глаголы, как правило, лемматизируются верно.

Выдача результатов пословного поиска
Обратите внимание: при всех типах поиска порядок выдачи результатов – по фамилии информанта, алфавитный.
Для сортировки иным способом необходимо выбрать этот способ из списка под кнопкой «Поиск». Доступные варианты: по году записи; по времени добавления в корпус (позволяет отследить появление новых текстов в базе. Может использоваться, например, если материал собирается в течение нескольких дней).

При пословном поиске пользователю выдаётся короткий фрагмент текста, включающий употребление данного слова. Искомое слово подсвечивается жёлтым. Если оно используется в одном и том же тексте несколько раз, каждое словоупотребление выводится отдельной строкой, в результате чего возможны повторы: 


 

Для получения более широкого контекста (просмотра текста целиком) нужно нажать на ссылку «подробней»:

По техническим причинам на данном этапе работы при количественных подсчётах учитывается использование слова как в речи информантов, так и в речи собирателей. Если короткий контекст не выводится, это значит, что слово зафиксировано только в речи собирателей или в их пояснениях.

 
2. Поиск по информанту
Позволяет выбрать социолингвистические параметры: пол, год рождения, возраст, уровень образования, тип говора информанта.

Пояснения: параметр «пол» имеет значение «не определён», если в коммуникативном эпизоде участвуют как мужчины, так и женщины.
Поиск по параметру «год рождения»: возможно ввести точную цифру (например, 1920) или интервал (1900-1920). Для поиска конкретного года записи необходимо ввести его в первую строку данного блока, а вторую оставить пустой. Аналогично осуществляется поиск по возрасту.
Уровень образования и тип говора при поиске выбираются из выпадающего списка.
Разработана унифицированная система образовательных уровней:
0 – неграмотный
1 – начальное образование (1-4 класса или ликбез)
2 – неполное среднее образование (5-9 классов, возможно, + курсы)
3 – полное среднее, начальное профессиональное и средне-специальное образование (10-11 классов либо 6/7/8/9 классов +училище/техникум).
4 – высшее образование.
Следует учитывать, что социолингвистическая информация представлена не для всех информантов и даётся лишь в том случае, если она есть в первоисточнике.
Тип говора характеризуется обобщённо: старожильческий/не старожильческий. Определение типа говора осуществлялось с опорой на лингвистические показатели (черты старожильческих говоров: [г] взрывной, аканье, долгие твёрдые шипящие, произношение сочетания звуков [ст] как [c], стяжение в формах прилагательных и глаголов; среди не старожильческих говоров, как правило, встречаются южнорусские, их особенности: г фрикативное (γод, γоворю), яканье (няужели, лятит, у мяни', яво'), мягкое т в глаголах 3 л. ед и мн. ч. (идёть, бяруть); в единичных случаях – северорусские говоры с характерным оканьем). Биографические данные учитывались в меньшей степен (т.е. тип говора информантов, переселившихся в Среднее Приобье, характеризовался как старожильческий, если в их речи обнаруживались типичные черты и наоборот – при наличии нетипичных языковых особенностей маркировался не старожильческий тип говора, даже если в биографической информации указано, что и сам говорящий, и его предки родились в среднеобском регионе). Для очень коротких текстов указывался тип говора «не определён».

3. Поиск по записи
Позволяет выбрать экстралингвистические параметры. К ним относятся: год записи, регион (Томская область/Кемеровская область), район (доступные для поиска районы представлены выпадающим списком) и населённый пункт.


Для поиска всех записей из конкретного населённого пункта необходимо ввести его название в строку «место записи» (без слов «город», «деревня», «село» или сокращений «д.», «с.» и т.п.).
Поиск по параметру «год записи»: возможно ввести точную цифру (например, 1950) или интервал (1950-1970). Для поиска конкретного года записи необходимо ввести его в первую строку данного блока, а вторую оставить пустой.
 

4. Поиск по текстовым параметрам
Позволяет выбрать следующие параметры: тип, тема, жанр текста.


Для всех разновидностей поиска в этом блоке доступен выбор из выпадающих списков.
Более подробно ознакомиться с принципами текстовой разметки, перечнем выделенных типов, тем и жанров текста можно в приложенном файле.

Результаты поиска по текстовым параметрам
При поиске по теме, типу текста выдаются все тексты, где есть фрагменты, маркированные данной темой/типом. Обратите внимание: по техническим причинам в короткий фрагмент в этом случае попадает начало текста, а не нужная тема/тип. Для чтения фрагмента, относящегося к искомой теме/типу необходимо перейти на страницу конкретного текста (кликнув на ссылку «подробней») и вторично выбрать тему/тип из списка.
 

Как и при пословном описке, стандартный порядок выдачи результатов – по фамилии информанта, алфавитный. Для сортировки иным способом необходимо выбрать этот способ из списка под кнопкой «Поиск». Доступные варианты: по году записи; по времени добавления в корпус (позволяет отследить появление новых текстов в базе, например, если материал собирается в течение нескольких дней).
5. Поиск по источнику
Позволяет найти все записи из определённой архивной тетради по её номеру. Для каждой тетради дана двойная нумерация: первый номер (основной) указывает место хранения тетради в настоящее время, номер в скобках (инвентарный) – порядковый номер, присвоенный тетради в момент сбора материала. Двойная нумерация введена в связи с тем, что среди инвентарных номеров были одинаковые, присвоенные разным тетрадям.
 
Сочетание нескольких типов поиска
Разные типы поиска могут комбинироваться между собой. С помощью таких комбинаций можно найти, например, все употребления конкретного слова за определённый промежуток времени; все употребления слова в мужских текстах; все употребления конкретного слова в текстах носителей старожильческого говора; все женские тексты на определённую тему; все тексты, записанные за конкретный год в конкретном месте и т.п. Проверить, по каким параметрам ведётся поиск, можно под кнопкой «Поиск»:

 
V . Страница текста. Дополнительная информация
На страницу конкретного текста можно перейти, нажав кнопку «подробней» в результатах поиска или выбрав текст из общего списка. Она выглядит так:

На странице текста можно получить следующую дополнительную информацию:
В поле «Год рождения» возможен комментарий «подсчитано системой». Это означает, что в первоисточнике указан только возраст, поэтому год рождения может быть неточен. Если же указан только год рождения, возраст считается автоматически и результат снабжается тем же комментарием.
Поле «Комментарий к образованию» уточняет данные об образовании информанта.
Поле «Комментарий» – как правило, здесь указывается место рождения и места
длительного проживания, информация о родителях и предках.
Поле «Собеседники» – представлены сведения об участниках коммуникации.
Поле «Ссылка» содержит ссылку на первоисточник – рукопись тетради (дорабатывается; сейчас представлена не во всех текстах).
Поля «Собиратели», «Расшифровщики», «Разметчики» содержат служебную
информацию, данные параметры недоступны для поиска.
При отсутствии информации против пунктов указывается «[Нет данных]».
Запись вида [Нет данных], 1978 в строке «Дата записи» означает, что указан год, но не указан месяц записи.
При наличии аудиофайлов они прикрепляются к тексту в разделе «Файлы».

Некоторые поля ("ФИО информанта", "Файлы", "Ссылка") видны только зарегистрированным пользователелям.

VI. Ошибки в корпусе
Если Вы обнаружили в корпусе ошибку, пожалуйста, сообщите об этом по электронному адресу optysmith@gmail.com (Земичевой Светлане Сергеевне).
На этот же адрес можно посылать вопросы и пожелания по работе ресурса.
 

 

 
 

Tags: