Возникновение, функционирование и применение языковых корпусов в настоящее время
Автор: annaandriyanova • Январь 22, 2019 • Реферат • 1,564 Слов (7 Страниц) • 470 Просмотры
Содержание
Введение 3
История корпусной лингвистики 4
Виды языковых корпусов 6
Проблема разметки языковых корпусов 9
Применение текстовых корпусов в преподавании 10
Заключение 11
Использованные источники 12
Введение
Корпусная лингвистика − раздел лингвистики, занимающийся разработкой, созданием и использованием языковых корпусов.
Языковой корпус − собрание текстов, объединённое каким-то общим признаком (языком, автором, периодом создания текста), размеченное по определённым правилам и снабжённое определённой поисковой системой. В качестве корпуса может использоваться как набор текстов художественной и научной литературы, так и набор текстов из Интернета (веб-корпуса).
Цель данной работы – изучить возникновение, функционирование и применение языковых корпусов в настоящее время.
Для выполнения цели были поставлены следующие задачи:
- описать историю корпусной лингвистики;
- дать характеристику классификации языковых корпусов;
- описать разметку языковых корпусов;
- изучить, как корпуса применяются на практике.
История корпусной лингвистики
Первым большим компьютерным лингвистическим корпусом считается Брауновский корпус (англ. Brown Corpus), созданный в Университете Брауна в 1960-е годы. Он содержал 500 фрагментов текстов по 2000 слов в каждом, опубликованных на английском языке в 1961 году. На основе этого корпуса в 1967 году была опубликована работа «Computational Analysis of Present-Day American English», в которой материал корпуса подвергался различным анализам. Несмотря на то, что объём корпуса (приблизительно один миллион слов) задал стандарт для текстовых корпусов, этого всё ещё недостаточно для серьёзных лингвистических исследований: например, достаточно частотное для английского языка слово polite встречалось в нём всего семь раз, выражение polite letter − один раз, а выражения polite conversation, polite smile и polite request − ни одного раза, хотя все четыре выражения являются достаточно частотными для английского языка. Похожим проектом был созданный в 1988 году ICE (International Corpus of English) − корпус английского языка, содержащий около одного миллиона словоупотреблений для каждого компонента корпуса и разработанный исследовательским центром Survey of English Usage. На данный момент завершен и полностью размечен только британский компонент корпуса (ICE-GB). Сейчас самым известным и представительным корпусом британского английского языка является Британский Национальный Корпус (British National Corpus), созданный Издательством Оксфордского университета и содержащий 100 миллионов словоупотреблений, из которых 90% составляет письменная речь, а 10% − устная. Помимо теоретических исследований Британский Национальный Корпус используется при обучении английскому языку, разработке переводных словарей и оценке точности инструментов для автоматической обработки текста.
Для русского языка первым лингвистическим корпусом является русский Уппсальский корпус, созданный в Университете Уппсалы, Швеция. На данный момент самым известным, представительным и используемым корпусом русского языка является Национальный Корпус Русского Языка (НКРЯ), создаваемый при Институте русского языка имени В. В. Виноградова РАН и открытый в 2004 году. Корпус содержит в себе несколько разделов − основной (допускающий поиск по биграммам, триграммам и т. д. − сочетаниям двух, трёх, четырёх и пяти слов), синтаксический, газетный, параллельный, обучающий, диалектный, поэтический, устный, акцентологический, мультимедийный, мультипарк и исторический. Объём основного корпуса на данный момент составляет 283 миллиона словоупотреблений, а общий объём превышает 600 миллионов словоупотреблений.
...