Полезная информация

Оптимизация страниц с динамическим контентом

Оптимизация страниц с динамическим контентом

31 мая 2021

Динамически формируемый контент - это контент страниц, которые создаются динамически с помощью специальных технологий (Active Server Pages (.asp), Cold Fusion Pages (.cfm), Java Server Pages (.jsp), Hypertext Preprocessor (.php) и т.д.).

Созданные динамически сайты содержат несколько шаблонов страниц, а их содержимое хранится в базе данных. Когда страница запрашивается браузером, шаблон автоматически обращается к базе за нужным содержимым.

Чтобы отобразить требуемую страницу, шаблон смотрит на указания, заключенные в URL, и запрашивает у базы соответствующее содержание. Эти указания называют параметрами или переменными, а часть URL, содержащую их, - строкой запроса (query string).

Ознакомившись немного с принципом действия динамических сайтов перейдем к взаимодействию данных сайтов с поисковыми машинами.

Многие символы, содержащиеся в URL динамической страницы относятся к стоп-символам и информируют поисковую машину о том, что данная страница формируется динамически. Вот некоторые из стоп-символов, которые могут помешать индексированию страниц: амперсанд (&), доллар ($), равенство (=), плюс (+), процент (%), вопросительный знак (?).

Когда поисковый робот встречает URL с несколькими параметрами, который он не может понять, или со стоп-символами, показывающими наличие нескольких параметров, он, скорее всего, откажется следовать по этому URL.

Также нужно быть очень осторожными с ID-сессиями. ID-сессии - это уникальные идентификаторы, часто вкладываемые в URL, которые позволяют сайту отслеживать перемещения пользователя со страницы на страницу.

Для спайдеров поисковых машин ID-сессии могут создать очень большие трудности, потому что они способны непроизвольно сформировать очень много ссылок для посещения спайдера. Опасность заключается в том, что спайдер может повторно индексировать одну и ту же информацию снова и снова. Он попадает в ловушку, т.к. каждая посещенная страница мгновенно производит еще больше ссылок для следования спайдера.

Если вы всетаки хотите использовать ID-сессии, то храните их в cookies вместо ваших URL.

На данный момент все поисковые машины могут индексировать сайты, URL которых содержит строки запроса, но чаще всего индексирование в этом случае ограничивается главной страницы.

Что же делать в таком случае? Для начала нужно убрать параметры из URL и сделать станицы статическими, а не динамическими. Если это невозможно, то следует уменьшить число параметров или использовать специальное программное обеспечение, которое автоматически удаляет стоп-символы и делает URL дружественным поисковым машинам.

Есть и другой вариант решения данной проблемы. Применение файла Robots.txt. В этом файле можно задать страницы, которые не следует индексировать. Таким образом, на сайтах с динамически формируемым содержанием можно проинструктировать робота опускать дублируемые или препятствующие индексированию страницы.

Еще одно решение - техника "переговоров" ("content negotiation"). Основная идея этой техники в следующем: браузер посылает серверу информацию о ресурсах, которые он поддерживает (язык, кодировки и т.д.). Эта информация (вместе с текущими настройками сервера) используется, чтобы определить, какой контент и в каком формате лучше всего отправить пользователю.

Существует так же несколько специальных приемов, обеспечивающих уверенную индексацию динамически созданных сайтов. Их основной принцип - удаление стоп-символов из URL.