Опубликовано пользователем Svetlana Zemicheva
1. Для демо-версии в открытом доступе: Томский диалектный корпус [Электронный ресурс] // Лаборатория общей и сибирской лексикографии НИ ТГУ. URL: http://losl.tsu.ru/corpus (дата обращения: ...). Режим доступа: свободный.
2.Для основной версии в закрытом доступе: Томский диалектный корпус [Электронный ресурс] // Лаборатория общей и сибирской лексикографии НИ ТГУ. – Электрон. дан. – Томск, [б. г.]. – URL: http://losl.tsu.ru/corpus (дата обращения: ...). Режим доступа: для зарегистрированных пользователей.
IV. Типы поиска в корпусе
- По слову: поиск символьного соответствия, точной формы слова, всех форм слова.
- По информанту (социолингвистическим параметрам): пол, год рождения, возраст, уровень образования, тип говора.
- По экстралингвистическим параметрам записи: год, место (область, район населённый пункт).
- По текстовым параметрам: тема, тип текста.
- По источнику: номер архивной тетради.
Варианты данной разновидности поиска представлены в виде выпадающего списка в разделе «Поиск по слову»:
1) Поиск символьного соответствия.
Ищет простую последовательность символов.По запросу «конь» найдутся единицы «конь», «посконь», «браконьер», «коньяк» и др.
При необходимости количество результатов можно уменьшить, используя пробелы. Например, запрос « конь» отсекает из результатов выдачи варианты «посконь», «браконьер», но оставляет «коньяк»; запрос «конь », напротив, исключает из результатов выдачи «коньяк», но оставляет «посконь», «браконьер».
Следует помнить, что данный тип поиска чувствителен к регистру («коньяк» и «Коньяк» распознаются как разные единицы. При необходимости найти оба варианта нужно ввести отдельный запрос для каждого).
Ударения не распознаются («коньяк» и «конья'к» рассматриваются как разные единицы. При необходимости найти оба варианта нужно ввести отдельный запрос для каждого).
При данном типе поиска буквы е и ё рассматриваются как разные единицы (т.е. по запросу «ребенок» не будет найдено «ребёнок» и наоборот).
Этот тип поиска может использоваться:
а) для поиска сочетания «слово +символ» (слово перед точкой, слово после тире. Слово после точки с заглавной буквы и т.п.);
б) для поиска словосочетаний, фраз
(однако есть ограничения: если внутри фразы имеется тематический тег, она не будет обнаружена; по возможности мы не ставим теги внутри высказывания, но полностью устранить эту проблему пока не удалось);
в) для поиска однокоренных слов (в том числе для обнаружения ранее не зафиксированных диалектных лексем).
Обратите внимание: при лемматизации диалектных и просторечных единиц возможны ошибки. Так, при поиске слова «титя» система выдаёт нулевой результат, т.к. возводит его к форме глагола *титить. Проверить, к какой лемме возведено слово, можно в строке «параметры поиска» под кнопкой «Поиск»:
Чаще всего ошибки возникают при лемматизации диалектных существительных. Имена прилагательные и глаголы, как правило, лемматизируются верно.
Для сортировки иным способом необходимо выбрать этот способ из списка под кнопкой «Поиск». Доступные варианты: по году записи; по времени добавления в корпус (позволяет отследить появление новых текстов в базе. Может использоваться, например, если материал собирается в течение нескольких дней).
При пословном поиске пользователю выдаётся короткий фрагмент текста, включающий употребление данного слова. Искомое слово подсвечивается жёлтым. Если оно используется в одном и том же тексте несколько раз, каждое словоупотребление выводится отдельной строкой, в результате чего возможны повторы:
По техническим причинам на данном этапе работы при количественных подсчётах учитывается использование слова как в речи информантов, так и в речи собирателей. Если короткий контекст не выводится, это значит, что слово зафиксировано только в речи собирателей или в их пояснениях.
Пояснения: параметр «пол» имеет значение «не определён», если в коммуникативном эпизоде участвуют как мужчины, так и женщины.
Поиск по параметру «год рождения»: возможно ввести точную цифру (например, 1920) или интервал (1900-1920). Для поиска конкретного года записи необходимо ввести его в первую строку данного блока, а вторую оставить пустой. Аналогично осуществляется поиск по возрасту.
Уровень образования и тип говора при поиске выбираются из выпадающего списка.
Разработана унифицированная система образовательных уровней:
0 – неграмотный
1 – начальное образование (1-4 класса или ликбез)
2 – неполное среднее образование (5-9 классов, возможно, + курсы)
3 – полное среднее, начальное профессиональное и средне-специальное образование (10-11 классов либо 6/7/8/9 классов +училище/техникум).
4 – высшее образование.
Следует учитывать, что социолингвистическая информация представлена не для всех информантов и даётся лишь в том случае, если она есть в первоисточнике.
Тип говора характеризуется обобщённо: старожильческий/не старожильческий. Определение типа говора осуществлялось с опорой на лингвистические показатели (черты старожильческих говоров: [г] взрывной, аканье, долгие твёрдые шипящие, произношение сочетания звуков [ст] как [c], стяжение в формах прилагательных и глаголов; среди не старожильческих говоров, как правило, встречаются южнорусские, их особенности: г фрикативное (γод, γоворю), яканье (няужели, лятит, у мяни', яво'), мягкое т в глаголах 3 л. ед и мн. ч. (идёть, бяруть); в единичных случаях – северорусские говоры с характерным оканьем). Биографические данные учитывались в меньшей степен (т.е. тип говора информантов, переселившихся в Среднее Приобье, характеризовался как старожильческий, если в их речи обнаруживались типичные черты и наоборот – при наличии нетипичных языковых особенностей маркировался не старожильческий тип говора, даже если в биографической информации указано, что и сам говорящий, и его предки родились в среднеобском регионе). Для очень коротких текстов указывался тип говора «не определён».
Для поиска всех записей из конкретного населённого пункта необходимо ввести его название в строку «место записи» (без слов «город», «деревня», «село» или сокращений «д.», «с.» и т.п.).
Поиск по параметру «год записи»: возможно ввести точную цифру (например, 1950) или интервал (1950-1970). Для поиска конкретного года записи необходимо ввести его в первую строку данного блока, а вторую оставить пустой.
Для всех разновидностей поиска в этом блоке доступен выбор из выпадающих списков.
Более подробно ознакомиться с принципами текстовой разметки, перечнем выделенных типов, тем и жанров текста можно в приложенном файле.
Как и при пословном описке, стандартный порядок выдачи результатов – по фамилии информанта, алфавитный. Для сортировки иным способом необходимо выбрать этот способ из списка под кнопкой «Поиск». Доступные варианты: по году записи; по времени добавления в корпус (позволяет отследить появление новых текстов в базе, например, если материал собирается в течение нескольких дней).
Сочетание нескольких типов поиска
На странице текста можно получить следующую дополнительную информацию:
В поле «Год рождения» возможен комментарий «подсчитано системой». Это означает, что в первоисточнике указан только возраст, поэтому год рождения может быть неточен. Если же указан только год рождения, возраст считается автоматически и результат снабжается тем же комментарием.
Поле «Комментарий к образованию» уточняет данные об образовании информанта.
Поле «Комментарий» – как правило, здесь указывается место рождения и места
длительного проживания, информация о родителях и предках.
Поле «Собеседники» – представлены сведения об участниках коммуникации.
Поле «Ссылка» содержит ссылку на первоисточник – рукопись тетради (дорабатывается; сейчас представлена не во всех текстах).
Поля «Собиратели», «Расшифровщики», «Разметчики» содержат служебную
информацию, данные параметры недоступны для поиска.
При отсутствии информации против пунктов указывается «[Нет данных]».
Запись вида [Нет данных], 1978 в строке «Дата записи» означает, что указан год, но не указан месяц записи.
При наличии аудиофайлов они прикрепляются к тексту в разделе «Файлы».
Некоторые поля ("ФИО информанта", "Файлы", "Ссылка") видны только зарегистрированным пользователелям.