Essays.club - Получите бесплатные рефераты, курсовые работы и научные статьи
Поиск

Возникновение, функционирование и применение языковых корпусов в настоящее время

Автор:   •  Январь 22, 2019  •  Реферат  •  1,564 Слов (7 Страниц)  •  478 Просмотры

Страница 1 из 7


Содержание

Введение        3

История корпусной лингвистики        4

Виды языковых корпусов        6

Проблема разметки языковых корпусов        9

Применение текстовых корпусов в преподавании        10

Заключение        11

Использованные источники        12


Введение

Корпусная лингвистика − раздел лингвистики, занимающийся разработкой, созданием и использованием языковых корпусов.

Языковой корпус − собрание текстов, объединённое каким-то общим признаком (языком, автором, периодом создания текста), размеченное по определённым правилам и снабжённое определённой поисковой системой. В качестве корпуса может использоваться как набор текстов художественной и научной литературы, так и набор текстов из Интернета (веб-корпуса).

Цель данной работы – изучить возникновение, функционирование и применение языковых корпусов в настоящее время.

Для выполнения цели были поставлены следующие задачи:

  1. описать историю корпусной лингвистики;
  2. дать характеристику классификации языковых корпусов;
  3. описать разметку языковых корпусов;
  4. изучить, как корпуса применяются на практике.


История корпусной лингвистики

Первым большим компьютерным лингвистическим корпусом считается Брауновский корпус (англ. Brown Corpus), созданный в Университете Брауна в 1960-е годы. Он содержал 500 фрагментов текстов по 2000 слов в каждом, опубликованных на английском языке в 1961 году. На основе этого корпуса в 1967 году была опубликована работа «Computational Analysis of Present-Day American English», в которой материал корпуса подвергался различным анализам. Несмотря на то, что объём корпуса (приблизительно один миллион слов) задал стандарт для текстовых корпусов, этого всё ещё недостаточно для серьёзных лингвистических исследований: например, достаточно частотное для английского языка слово polite встречалось в нём всего семь раз, выражение polite letter − один раз, а выражения polite conversation, polite smile и polite request − ни одного раза, хотя все четыре выражения являются достаточно частотными для английского языка. Похожим проектом был созданный в 1988 году ICE (International Corpus of English) − корпус английского языка, содержащий около одного миллиона словоупотреблений для каждого компонента корпуса и разработанный исследовательским центром Survey of English Usage. На данный момент завершен и полностью размечен только британский компонент корпуса (ICE-GB). Сейчас самым известным и представительным корпусом британского английского языка является Британский Национальный Корпус (British National Corpus), созданный Издательством Оксфордского университета и содержащий 100 миллионов словоупотреблений, из которых 90% составляет письменная речь, а 10% − устная. Помимо теоретических исследований Британский Национальный Корпус используется при обучении английскому языку, разработке переводных словарей и оценке точности инструментов для автоматической обработки текста.

Для русского языка первым лингвистическим корпусом является русский Уппсальский корпус, созданный в Университете Уппсалы, Швеция. На данный момент самым известным, представительным и используемым корпусом русского языка является Национальный Корпус Русского Языка (НКРЯ), создаваемый при Институте русского языка имени В. В. Виноградова РАН и открытый в 2004 году. Корпус содержит в себе несколько разделов − основной (допускающий поиск по биграммам, триграммам и т. д. − сочетаниям двух, трёх, четырёх и пяти слов), синтаксический, газетный, параллельный, обучающий, диалектный, поэтический, устный, акцентологический, мультимедийный, мультипарк и исторический. Объём основного корпуса на данный момент составляет 283 миллиона словоупотреблений, а общий объём превышает 600 миллионов словоупотреблений.

...

Скачать:   txt (21.8 Kb)   pdf (175.4 Kb)   docx (19.7 Kb)  
Продолжить читать еще 6 страниц(ы) »
Доступно только на Essays.club