Труды КарНЦ РАН :: Публикации
Труды КарНЦ РАН :: Публикации

Труды КарНЦ РАН :: Публикации
Карельский научный центр РАН
ISSN 1997-3217
Труды КарНЦ РАН :: Публикации
Редакционный совет Редакция Положение Авторам Рецензентам Инструкции English version
Труды КарНЦ РАН :: Публикации

Электронный журнал OJS



Серии

Биогеография

Экспериментальная биология

Математическое моделирование и информационные технологии

Геология докембрия

Экологические исследования

Лимнология

Гуманитарные исследования (2010-2015)

Регион: экономика и управление (2012-2015)



Выпуски

2017 год

2016 год

2015 год

2014 год

2013 год

2012 год

2011 год

2010 год

2009 год

1999-2008 годы

1947-1964 годы


ПУБЛИКАЦИИ
А.А. Печников, А.В. Ланкин.
Разработка программы сбора данных о структуре веб-сайтов
// Труды КарНЦ РАН. No 8. Сер. Математическое моделирование и информационные технологии. 2016. C. 81-90
Ключевые слова: веб-сайт; гиперссылка; краулер; веб-граф
Наиболее распространенной математической моделью веб-сайта является веб-граф. Для построения веб-графа реального сайта требуются сведения о его структуре: html-страницах и/или документах сайта (в частности, об URL – адресах веб-ресурсов) и связывающих их гиперссылках. Веб-серверы часто используют псевдонимы и перенаправления, а также динамически генерируют одни и те же страницы по разным URL-запросам. Отсюда возникает проблема, которая заключается в наличии различных URL, имеющих один и тот же контент. Таким образом, мы можем получить веб-граф, у которого некоторые вершины соответствуют страницам сайта с одним и тем же контентом. В работе описывается поисковый робот (краулер) RCCrawler, основной задачей которого является сбор информации о веб-сайтах для построения их веб-графов, во многом решающий указанную проблему, что подтверждается проведенной серий экспериментов.
Индексируется в РИНЦ


  Последние изменения: 15 сентября 2016