Труды КарНЦ РАН :: Публикации
Труды КарНЦ РАН :: Публикации

Труды КарНЦ РАН :: Публикации
Карельский научный центр РАН
ISSN (печатн.): 1997-3217
ISSN (онлайн): 2312-4504
Труды КарНЦ РАН :: Публикации
История Редакционный совет Редакция Положения Авторам Рецензентам English version
Труды КарНЦ РАН :: Публикации

Электронный журнал OJS



Серии

Биогеография

Экспериментальная биология

Математическое моделирование и информационные технологии

Геология докембрия

Экологические исследования

Лимнология и океанология

Гуманитарные исследования (2010-2015)

Регион: экономика и управление (2012-2015)



Выпуски

2024 год

2023 год

2022 год

2021 год

2020 год

2019 год

2018 год

2017 год

2016 год

2015 год

2014 год

2013 год

2012 год

2011 год

2010 год

2009 год

1999-2008 годы

1947-1964 годы


ПУБЛИКАЦИИ
А.А. Печников, А.В. Ланкин.
Разработка программы сбора данных о структуре веб-сайтов
Ключевые слова: веб-сайт; гиперссылка; краулер; веб-граф
Наиболее распространенной математической моделью веб-сайта является веб-граф. Для построения веб-графа реального сайта требуются сведения о его структуре: html-страницах и/или документах сайта (в частности, об URL – адресах веб-ресурсов) и связывающих их гиперссылках. Веб-серверы часто используют псевдонимы и перенаправления, а также динамически генерируют одни и те же страницы по разным URL-запросам. Отсюда возникает проблема, которая заключается в наличии различных URL, имеющих один и тот же контент. Таким образом, мы можем получить веб-граф, у которого некоторые вершины соответствуют страницам сайта с одним и тем же контентом. В работе описывается поисковый робот (краулер) RCCrawler, основной задачей которого является сбор информации о веб-сайтах для построения их веб-графов, во многом решающий указанную проблему, что подтверждается проведенной серий экспериментов.
Индексируется в РИНЦ


  Последние изменения: 15 сентября 2016