Динамически формируемый контент - это контент страниц, которые создаются динамически с помощью специальных технологий (Active Server Pages (.asp), Cold Fusion Pages (.cfm), Java Server Pages (.jsp), Hypertext Preprocessor (.php) и т.д.).
Созданные динамически сайты содержат несколько шаблонов страниц, а их содержимое хранится в базе данных. Когда страница запрашивается браузером, шаблон автоматически обращается к базе за нужным содержимым.
Чтобы отобразить требуемую страницу, шаблон смотрит на указания, заключенные в URL, и запрашивает у базы соответствующее содержание. Эти указания называют параметрами или переменными, а часть URL, содержащую их, - строкой запроса (query string).
Ознакомившись немного с принципом действия динамических сайтов перейдем к взаимодействию данных сайтов с поисковыми машинами.
Многие символы, содержащиеся в URL динамической страницы относятся к стоп-символам и информируют поисковую машину о том, что данная страница формируется динамически. Вот некоторые из стоп-символов, которые могут помешать индексированию страниц: амперсанд (&), доллар ($), равенство (=), плюс (+), процент (%), вопросительный знак (?).
Когда поисковый робот встречает URL с несколькими параметрами, который он не может понять, или со стоп-символами, показывающими наличие нескольких параметров, он, скорее всего, откажется следовать по этому URL.
Также нужно быть очень осторожными с ID-сессиями. ID-сессии - это уникальные идентификаторы, часто вкладываемые в URL, которые позволяют сайту отслеживать перемещения пользователя со страницы на страницу.
Для спайдеров поисковых машин ID-сессии могут создать очень большие трудности, потому что они способны непроизвольно сформировать очень много ссылок для посещения спайдера. Опасность заключается в том, что спайдер может повторно индексировать одну и ту же информацию снова и снова. Он попадает в ловушку, т.к. каждая посещенная страница мгновенно производит еще больше ссылок для следования спайдера.
Если вы всетаки хотите использовать ID-сессии, то храните их в cookies вместо ваших URL.
На данный момент все поисковые машины могут индексировать сайты, URL которых содержит строки запроса, но чаще всего индексирование в этом случае ограничивается главной страницы.
Что же делать в таком случае? Для начала нужно убрать параметры из URL и сделать станицы статическими, а не динамическими. Если это невозможно, то следует уменьшить число параметров или использовать специальное программное обеспечение, которое автоматически удаляет стоп-символы и делает URL дружественным поисковым машинам.
Есть и другой вариант решения данной проблемы. Применение файла Robots.txt. В этом файле можно задать страницы, которые не следует индексировать. Таким образом, на сайтах с динамически формируемым содержанием можно проинструктировать робота опускать дублируемые или препятствующие индексированию страницы.
Еще одно решение - техника "переговоров" ("content negotiation"). Основная идея этой техники в следующем: браузер посылает серверу информацию о ресурсах, которые он поддерживает (язык, кодировки и т.д.). Эта информация (вместе с текущими настройками сервера) используется, чтобы определить, какой контент и в каком формате лучше всего отправить пользователю.
Существует так же несколько специальных приемов, обеспечивающих уверенную индексацию динамически созданных сайтов. Их основной принцип - удаление стоп-символов из URL.