Новый подход к веб-анализу данных на основе облачных вычислений
Автор: roxana.mclovin • Март 19, 2022 • Статья • 2,415 Слов (10 Страниц) • 238 Просмотры
Новый подход к веб-анализу данных на основе облачных вычислений
Аннотация. Веб-анализ данных направлен на получение полезных знаний из различных веб-ресурсов. Среди компаний, организаций и частных лиц наблюдается растущая тенденция сбора информации с помощью веб-анализа данных для использования этой информации в своих интересах.
В этой статье мы предлагаем новую системную структуру, основанную на платформе Hadoop, для реализации сбора полезной информации о веб-ресурсах. Структура системы основана на модели программирования Map/Reduce облачных вычислений. Мы предлагаем новый алгоритм интеллектуального анализа данных, который будет использоваться в этой системе. Наконец, мы доказываем целесообразность этого подхода с помощью имитационного эксперимента.
Ключевые слова: Веб-анализ данных; Облачные вычисления; Hadoop; Модель программирования Map/Reduce.
Мы живем и работаем в мире вычислительной техники и компьютеров. Интернет радикально изменил компьютерный мир от концепции параллельных вычислений к распределенным вычислениям, к сетевым вычислениям, а теперь и к облачным вычислениям [1].
С быстрым развитием интернет-технологий объем данных в Интернете растет в геометрической прогрессии, поэтому поиск и добыча ценной информации стали актуальной областью исследований. Интеллектуальный анализ веб-данных [2] направлен на поиск полезной информации или знаний из веб-гиперссылок, содержимого страниц и журналов использования.
На основе основных видов данных, используемых в процессе интеллектуального анализа, задачи интеллектуального анализа веб-данных можно разделить на три основных типа: интеллектуальный анализ веб-структуры, интеллектуальный анализ веб-контента и интеллектуальный анализ использования веб-ресурсов.
Интеллектуальный анализ веб-структуры обнаруживает знания из гиперссылок, которые представляют структуру Сети. Интеллектуальный анализ веб-контента извлекает полезную информацию или знания из содержимого веб-страницы. Майнинг веб-использования извлекает шаблоны доступа пользователей из журналов использования, в которых записываются клики, сделанные каждым пользователем. В основном, в веб-майнинге используется технология интеллектуального анализа данных.
Но есть некоторые различия. В традиционном интеллектуальном анализе данных данные часто уже собраны и хранятся в хранилище данных. Для интеллектуального анализа веб-данных сбор данных может быть существенной задачей, особенно для анализа веб-структуры и контента, и включает в себя обход большого количества целевых веб-страниц. Веб-интеллектуальный анализ данных - это расширенная версия интеллектуального анализа данных.
Как мы уже отмечали, Интернет теперь превратил вычисления в облачные вычисления. Map/Reduce - отличная модель программирования в облачных вычислениях [3], которая была представлена Google. Он хорошо подходит для выполнения больших распределенных заданий в облачной инфраструктуре.
Вкратце, вычисление Map/Reduce [4] выполняется следующим образом: некоторым задачам отображения предоставляется один или несколько фрагментов из распределенной файловой системы. Каждая из этих задач сопоставления превращает фрагмент в последовательность пар ключ-значение, и эти пары записываются на локальный диск в виде промежуточных файлов, разделенных на области R (количество задач сокращения) с помощью функции разделения. Местоположения этих регионов передаются обратно ведущему, который отвечает за перенаправление этих местоположений в задачи сокращения.
Каждая из задач сокращения R отвечает за один из этих регионов, применяющих сокращение. Таким образом, все пары ключ-значение с одним и тем же ключом заканчиваются одной и той же задачей сокращения. Задачи сокращения работают с одним ключом за раз и объединяют все значения, связанные с этим ключом, определенным пользователем способом. В этой статье мы предлагаем подход Map/Reduce для реализации веб-анализа данных.
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ВЕБ-ДАННЫХ
Методы веб-анализа данных являются результатом длительного процесса исследований и разработки продукта. Интеллектуальный анализ веб-данных основан на знаниях из Интернета; он направлен на обнаружение полезной информации или знаний из структуры веб-гиперссылок, содержимого страниц и данных об использовании [5].
...