Парсинг веб-страниц с динамическим и со статическим контентом
Автор: Gigins Jokin • Октябрь 10, 2020 • Курсовая работа • 4,257 Слов (18 Страниц) • 434 Просмотры
МИНОБРНАУКИ РОССИИ
Федеральное государственное бюджетное образовательное учреждение
высшего образования
«Горно-Алтайский государственный университет»
(ФГБОУ ВО ГАГУ, ГАГУ, Горно-Алтайский государственный университет)
Физико-математический и инженерно-технологический институт
Кафедра математики, физики и информатики
КУРСОВАЯ РАБОТА
ПАРСИНГ ВЕБ-СТРАНИЦ С ДИНАМИЧЕСКИМ И СО СТАТИЧЕСКИМ КОНТЕНТОМ
Выполнил: Ярушкин А.И.,
студент 627 группы
Научный руководитель:
Беликова М.Ю., старший преподаватель
Работа защищена «____»__________ 2020 г.
с оценкой _____________
Горно-Алтайск 2020
СОДЕРЖАНИЕ
ВВЕДЕНИЕ ……………..………………………………………………………3
1 ПАРСИНГ WEB-САЙТОВ …………………………………………………..4
1.1 Что такое Web-сайт? ………………………………………………………..4
1.2 Основные виды Веб-сайтов ………………………………………………..4
1.3 Методы изъятия сторонней информации ………………………………....7
1.4 Парсинг ……………………………………………………………………...8
2 МЕТОДЫ ПАРСИНГА ……………………………………………………...10
2.1 Парсинг при помощи готовых программных решений ………………...10
2.2 Использования облачных сервисов для парсинга ………………………14
2.3 Упрощенные виды парсеров ……………………………………………...17
2.4 Парсеры на основе языков программирования …………………………21
3 ПРИМЕНЕНИЕ ПАРСИНГА В РЕАЛЬНЫХ ЗАДАЧАХ ………………..23
3.1 Постановка задачи ………………………………………………………...23
3.2 Решение задачи …………………………………………………………....25
ЗАКЛЮЧЕНИЕ ………………………………………………………………..29
СПИСОК ЛИТЕРАТУРЫ ……………………………………………………..30
ВВЕДЕНИЕ
В современном обществе технологии преобладают над любыми остальными сферами жизнедеятельности. Среди них особенно выделяется развитие Интернета. Для большинства организаций такое развитие помогает оптимизировать свою работу за счет использования интернет-магазинов, образовательных сайтов, социальный сетей и т.д. С каждым годом количество информации неуклонно растет, а следовательно находить ее, выделять и структурировать становиться все сложнее. Многим компаниям требуется узнавать коммерческую, контактную, новостною и т.д. информацию в большом объеме, но делать такое вручную очень трудозатратно. Именно для этого были придуманы программные решения для того, чтобы эту задачу решить.
Основной задачей выступает рассмотрение существующих методов сбора информации с веб-сайтов. Также нужно выделить один из них и описать его работу на практике. Стоить также коротко рассказать о веб-сайтах для лучшего понимания материала.
1 ПАРСИНГ WEB-САЙТОВ
1.1 Что такое Web-сайт?
Веб-сайт, сокращенно сайт – это совокупность документов с гипертекстовой информацией, объединенных по смыслу, обладающих своей структурой, доменным именем или URL-адресом. На сайте содержится информация, которую размещает его владелец (администратор), а в свою очередь пользователь или посетитель страницы может ее воспринять. Вместе все общедоступные веб-сайты представляют собой всемирную паутину.
Любой сайт представляет собой страницу, обладающую своим оформлением (дизайном). Каждый сайт
...