Немного слов о Яндексе. (о ТиЦе, ВиЦе и прочем)

Страница: 1

Сообщений 1 страница 4 из 4

Поделиться12009-01-21 11:31:21

Автор: Bashik
Откуда: Новосибирск
Зарегистрирован: 2008-12-20
Приглашений: 0
Сообщений: 192
Уважение: +8
Позитив: +5
Пол: Мужской
Возраст: 47 [1978-08-16]
Провел на форуме:
6 часов 32 минуты
Последний визит:
2009-07-26 12:02:28

ТиЦ

Что это такое?
Индекс цитирования (или ИЦ) — принятая в научном мире мера «значимости» трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) в других источниках. Однако для действительно точного определения значимости научных трудов важно не только количество ссылок на них, но и качество этих ссылок. Так, на работу может ссылаться авторитетное академическое издание, популярная брошюра или развлекательный журнал. Значимость у таких ссылок разная.

Наш тематический индекс цитирования (тИЦ) определяет «авторитетность» интернет-ресурсов с учетом качественной характеристики ссылок на них с других сайтов. Эту качественную характеристику мы называем «весом» ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Само по себе количество ссылок на ресурс также влияет на значение его тИЦ, но тИЦ определяется не количеством ссылок, а суммой их весов.

тИЦ как средство определения авторитетности ресурсов призван обеспечить релевантность расположения ресурсов в рубриках каталога Яндекса. тИЦ не является чисто количественной характеристикой, поэтому мы показываем некоторые округленные значения, которые помогают ориентироваться в «значимости» («авторитетности») ресурсов в каждой области (теме).

Что такое интернет-ресурс
тИЦ рассчитывается для интернет-ресурсов. Под интернет-ресурсом может пониматься как сайт (хост), так и некоторый раздел сайта (физически это директория). Раздел сайта (директория) считается самостоятельным ресурсом, если она описана в каталоге Яндекса. Если для сайта в каталоге описаны несколько директорий, тИЦ будет обсчитываться для каждой из них, в противном случае весь сайт будет считаться одним интернет-ресурсом.
Поскольку в тИЦ учитывается только вес внешних интернет-ресурсов, ссылающихся на заданный, тИЦ не может быть увеличен ни за счет «внутренних» ссылок (с одних страниц ресурса на другие), ни за счет расположения нескольких ссылок на одной или нескольких страницах одного и того же «внешнего» ресурса. При расчете тИЦ одного из разделов сайта (директорий) ссылки на раздел сайта из других разделов этого сайта будут считаться внутренними и, следовательно, не будут увеличивать его тИЦ. При этом ссылки на каждый из разделов сайта учитываются (объединяются) при подсчете тИЦ всего сайта.

По каким данным измеряется тИЦ
При измерении тИЦ берутся ссылки только с тех ресурсов, которые Яндекс проиндексировал и по которым он ищет
Почему тИЦ может измениться

тИЦ пересчитывается два раза в месяц. За это время какие-то сайты появляются, а какие-то исчезают. Соответственно, веса ссылок изменяются, и изменяется тИЦ ресурса. Мы не занимаемся расследованием ситуаций, когда тИЦ вырос или упал на несколько пунктов, так же как мы не отвечаем на вопросы, почему сайт поднялся или упал в результатах поиска.
__________________________________________________________________________________________________________________________

вИЦ

вИЦ - взвешенный индекс цитируемости, рассчитывается для каждой страницы сайта отдельно и представляет собой (в какойто мере) аналог понятия PageRank в поисковой системе Google. вИЦ напрямую влияет на положение сайта по определенным запросам в поисковых системах. Здесь очень важную роль играет грамотно составленная внутристраничная перелинковка.
__________________________________________________________________________________________________________________________

Релевантность

Релевантность не является чем-то, что живет в HTML-документе само по себе. Релевантность это коэффициент соответствия HTML-документа запросу. Релевантность, рассчитываемая поисковыми машинами вещь очень субъективная, вследствие несовершенства алгоритмов и ограничений самих поисковых машин.
Каждая поисковая система определяет релевантность HTML-документа, к запросу пользователя, в соответствии с заложенной в нее концепцией поиска. И хотя концепции у всех разные, ищут поисковые машины примерно одинаково, так как алгоритмы поиска построены на общих принципах. Основные отличия поисковых машин заключаются не в алгоритмах определения релевантности, в их реализации.
В каталогах релевантность оценивают живые люди (модераторы), в их задачу так же входит сортировка ресурсов по разделам и отсечение спама. При запросе пользователя поисковая машина каталога рассчитывает релевантность, так же как и машина поисковой системы, но уже с учетом оценок модераторов.
На оценку поисковой системы влияют десятки различных факторов, начиная с имени домена и заканчивая качеством каналов связи. Далее перечисляются поддающиеся оценке и управлению факторы, влияющие на релевантность HTML-документов.
__________________________________________________________________________________________________________________________

После того как вы прочли вышенаписанное, у вас может возникнуть вполне нормальный вопрос “Каким способом вычисляется положения вашего ресурса при выдачи определенном запросе в Яше? ”.

Положения вашего ресурса при выдаче определенного запроса определяется двумя факторами, релевантность + индекс цитирования.
Разберемся с индексом цитирования.

Индексом цитирования делиться на два различный показателя тИЦ и вИЦ, они по разному рассчитываются и никогда не пересекаются друг с другом не при каких обстоятельствах. Запомните это раз и навсегда, в Интернете существуют множество статей на тему Индекса цитирования но мало где упоминается про второй показатель вИЦ, про него мало что известно и как точно рассчитывается этот показатель знают только технические специалисты Яши. Давайте разберемся с этими показателями по подробней.

тИЦ
Существует ошибочное мнения что этот показатель влияет на положения ресурса при выдаче по определенному запросу, в help яндекса четко написано “ тИЦ как средство определения авторитетности ресурсов призван обеспечить релевантность расположения ресурсов в рубриках каталога Яндекса ”, хочу подчеркнуть слово КАТАЛОГА. Теперь думая всем ясно что тИЦ не влияет на выдачу в поисковике.

вИЦ
Вот этот показатель как раз таки влияет на выдачу, но тут есть подвох. В отличии от тИЦ у которого показатель рассчитывается на весь сайт, вИЦ показатель рассчитывается на каждую страницу. Давайте будем смотреть логически для чего это сделано, для каталога яндекса нет логического смысла рассчитывать показатель тИЦ для каждой странички ресурса, по той причине что в каталоге при входе на определенный ресурс вы попадаете на главную страницу и не как иначе, а поисковой системе при определенном запросе в выдаче отображаются не только главные страницы сайта но и любые другие все зависит от того на какой странице отображена информация нужного запроса. Вот для этого и подбираются разные ключевые слова для каждой страницы .

Показатель вИЦ рассчитываться так, учитывается число страниц, ссылающихся на сайт, и собственный вИЦ этих страниц.

Поделиться22009-01-21 11:35:40

Автор: Bashik
Откуда: Новосибирск
Зарегистрирован: 2008-12-20
Приглашений: 0
Сообщений: 192
Уважение: +8
Позитив: +5
Пол: Мужской
Возраст: 47 [1978-08-16]
Провел на форуме:
6 часов 32 минуты
Последний визит:
2009-07-26 12:02:28

Список фильтров Яндекса и сведения как их обойти

Непот фильтр
Данный фильтр накладывается за ссылочный спам, за продажу ссылок с сайтов, за неестественные ссылки, накладывается как на отдельные ссылки на странице, так и на отдельные страницы сайта в целом, так и полностью на весь сайт.
Действие фильтра:
Полное отключение влияния текстов исходящих ссылок с сайта.
Как обойти:
Не продавать ссылки с сайтов или продавать ссылки, но очень осторожно.

ExceedDensityKeywords filter
Данный фильтр накладывается на страницы, содержащие слишком большую плотность ключевых фраз или слов(Нормой считается 5-7%, хотя на практике бывает всякое).
Действие фильтра:
Страницы выкидываются из индекса Яндекса.
Как обойти:
Писать тексты для людей, понизить плотность.

Редирект фильтр
Данный фильтр накладывается за использование javascript редиректов.
автоматически отлавливает сайты и не пропускает их в индекс. Как правило используется на дорах.
Действие фильтра:
Бан.
Как обойти:
НЕ использовать javascript редиректы (не всякий js палится , а вообще используйте flash, ajax и события в js и будет Вам счастье).
Кстати говоря, к мета редиректам яндекс тоже относится плохо, но ничего страшного не сделает, проверено.

Фильтр “Ты последний”
Данный фильтр накладывается на страницу, которая имеет дубль в индексе.
Действие фильтра:
1. Посещаемость с Яндекса падает до нуля.
2. Сайт отсутствует в выдаче по ВЧ.
Как обойти:
Писать уникальный контент. Запрещать и пресекать копирование своего контента на другие сайты.

LinksText
Данный фильтр накладывается на сайты, в контенте и заголовке которых, нет поискового запроса.
Действие фильтра:
Яндекс наделяет их фразой текст ссылок: слова в анкоре и рядом с анкором.
Как обойти:
Добавить в содержимое сайта ключевой запрос.

Поделиться32009-01-21 11:41:03

Автор: Bashik
Откуда: Новосибирск
Зарегистрирован: 2008-12-20
Приглашений: 0
Сообщений: 192
Уважение: +8
Позитив: +5
Пол: Мужской
Возраст: 47 [1978-08-16]
Провел на форуме:
6 часов 32 минуты
Последний визит:
2009-07-26 12:02:28

Словарь терминов

Анкор (anchor). Текст ссылки.

Апдейт (update). Обновление результатов поиска в поисковой системе, связанное с изменением алгоритма ранжирования либо с учетом изменившейся ситуации с цитированием сайтов.

Бан (банить, забанить). Жаргонное выражения веб-мастеров. Ban – запрещать. Означает способ наказания поисковой машиной за применения спамерских приемов, который состоит в запрещении сайта к индексации удалении его из базы.

Зона видимости. Первые 30 позиций в поисковой выдаче.

Индекс. База данных поисковой машины, так называемый инвертированный индекс. Обычно напоминает индекс терминов в учебниках и научных изданиях. Содержит словарь слов, встречающихся на интернет-страницах, с приписанными к ним списками адресов интернет-страниц, содержащих эти слова. Служит для поиска страниц с вхождениями заданных ключевых слов. Индекс пополняется поисковым роботом во время периодических обходов Интернета.

Индексация. Процесс обхода страниц сайта и помещения их в базу поисковой машины. Только после индексации страницы, она может быть найдена в поисковой машине.

Контент. Содержание страницы или сайта – текст, изображения, звуки, видео и другие файлы.

Мониторинг позиций (проверка видимости, снять видимость, чекер позиций). Проверка позиций ссылок на продвигаемый сайт в результате поиска.

Оптимизатор (промоутер, сеошник, SEO-специалист). Индивидуум или компания, занимающиеся продвижением сайта в Интернете.

Оптимизация (продвижения сайта, поисковая оптимизация, оптимизация сайта, сео, seo). Набор действий по изменению сайта и элементов его внешней среды с целью получения высоких мест в результатах поиска по заданным запросам.

Поисковая машина (поисковая система, поисковик, искалка, se). Программно-аппаратный комплекс, предназначенный для осуществления поиска в Интернете и реагирующий на запрос пользователя, задаваемый текстовой фразой, выдачей набора ссылок на страницы и сайты, соответствующего запросу.

Поисковый робот (паук). Программа, являющаяся составной частью поисковой машины и предназначенная для обхода страниц Интернета с целью занесения их в базу поисковика.

Поисковый спам (спамдексинг). Различные методы обмана поисковиков и их посетителей с целью повышения ранга страницы в результатах поиска.

Продажная морда. Жаргонизм. Означает главную страницу сайта, на которой можно разместить ссылку на свой сайт за деньги.

Ранжирование (сортировка). Процесс выбора страниц из базы поисковой машины, соответствующих запросу пользователя, и упорядочение их по степени убывания соответствия (релевантности) запросу.

Релевантность. Обозначает соответствие найденного документа запросу, сделанному пользователем поисковой
системы.

В дальнейшем буду понемногу дополнять сей словарик. Буду благодарен и за помощь в этом деле..

Поделиться42009-01-26 03:13:03

Автор: Bashik
Откуда: Новосибирск
Зарегистрирован: 2008-12-20
Приглашений: 0
Сообщений: 192
Уважение: +8
Позитив: +5
Пол: Мужской
Возраст: 47 [1978-08-16]
Провел на форуме:
6 часов 32 минуты
Последний визит:
2009-07-26 12:02:28

Роботы поисковой системы Яндекс

Говоря об индексации, прежде всего, следует рассказать о том, кто ее осуществляет непосредственно, то есть о роботах поисковых систем. На вопрос: “а что такое робот поисковой системы и что он делает?”. Яндекс отвечает следующим образом: «Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса».

Обладая знаниями о них, вы с легкостью сможете подготовить ваш сайт для успешной индексации. Индексация сайта происходит следующим образом: роботы-индексаторы посещают страницы и вносят их содержимое в базу документов, доступных для поиска.

Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

1. Yandex/1.01.001 (compatible; Win16; I) – основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех SEO-специалистов важно отслеживать появление на своих сайтах в первую очередь этого робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.

2. Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны в поиске Яндекс. Картинки (http://images.yandex.ru). Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на лотосы на странице (http://en.npftravel.ru/news/issue_117.html). Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg.

3. Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс, скорее всего, покажет только один сайт, в этом собственно и заключается процесс зазеркаливания. То есть сайт-зеркало представляет собой ничто иное, как полную копию сайта.

4. Yandex/1.03.003 (compatible; Win16; D) – робот, определяющий доступность страницы для индексации при добавлении ее через форму «Добавить URL».

5. Yandex/1.03.000 (compatible; Win16; M) – робот, посещающий страницу при ее открытии по ссылке «Найденные слова», ниже сниппета.

6. YaDirectBot/1.0 (compatible; Win16; I) – робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса.

7. Yandex/1.02.000 (compatible; Win16; F) – робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.

Процесс индексации документа

Процесс индексации документа роботами поисковых систем, как правило, начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница http://webmaster.yandex.ru/. Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. В Рамблере, например, требуется указывать еще название сайта, дать краткое описание регистрируемого сайта и контактное лицо.

Если сайт добавляется впервые, то Яндекс выдаст сообщение:
«Адрес http://example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска».

Если сайт уже посещался роботом-индексатором, то появится сообщение:
«Документ http://example.com/ уже проиндексирован и доступен для поиска.
Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц)».

После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является «русскоязычность» ресурса. Поэтому, как пример, может возникнуть такая ситуация:
«Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст».

Если же все хорошо, то в логах сайта можно будет обнаружить строку:
213.180.206.223 -- [18/Jul/2006:10:22:08 +0400] "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
213.180.206.223 -- [18/Jul/2006:10:22:08 +0400] "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"

Видно, что сначала робот обратился к файлу robots.txt (его в данном случае просто не существует) чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

После добавления сайта на странице http://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

Управление индексацией

То что Ваш сайт проиндексировался – это еще полдела, гораздо важнее научиться грамотно управлять индексацией. Подумайте, какие бы вы хотели видеть страницы вашего сайта в выдаче поисковых систем: какие из них будут полезны пользователю, а какие из них не несут никакой смысловой нагрузки и используются исключительно как техническая информация, к примеру. Желательно закрыть от индексации административный раздел сайта, директории /images/ (если она названа таким образом), где хранится графическая информация. Владельцам интернет-магазинов следует закрыть служебные станицы, например, те страницы сайта, через которые осуществляется непосредственная покупка того или иного продукта и т.д. Приняв данные меры, во-первых, вы будете уверены в том, что роботы проиндексируют именно ту информацию, которая на самом деле важна, во-вторых, облегчите роботу роботам, которые не будут посещать все страницы сайта.

1. Управление индексацией при помощи файла robots.txt
Файл robots.txt является самым популярным инструмент, посредством которого вы сможете эффективно управлять индексацией вашего сайта. Крайне прост в эксплуатации, не требует специальных навыков. По большому счету, нужен только для того, чтобы запрещать индексацию страниц или разделов сайта для той или иной поисковой системы.

2.Основная информация по файлу robots.txt
Файл /robots.txt предназначен для указания всем поисковым роботам, как индексировать информационные сервера.
Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов.
К файлу robots.txt предъявляются специальные требования, не выполнение которых может привести к неправильному считыванию информации роботом поисковой системы или вообще к недееспособности данного файла.
Основные требования:
• все буквы в названии файла должны быть прописными, т. е. должны иметь нижний регистр: robots.txt – правильно, Robots.txt или ROBOTS.TXT – не правильно;
• файл robots.txt должен создаваться в текстовом формате. При копировании данного файла на сайт, ftp-клиент должен быть настроен на текстовый режим обмена файлами;
• файл robots.txt должен быть размещен в корневом каталоге сайта.

2.1. Содержимое файла robots.txt
Файл robots.txt обязательно включает в себя две директивы: «User-agent» и «Disallow». Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система Яндекс использует директиву «Host» для определения основного зеркала сайта.
Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.
Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.
Директива «User-agent»
Запись «User-agent» должна содержать название поискового робота. Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»:
User-agent: *
Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Яндекс:
User-agent: Yandex
Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать эти названия:
1. На сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру» (на Яндексе он тоже есть http://webmaster.yandex.ru/faq.xml), в котором часто указываются названия поисковых роботов.
2. При просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt.
Названия основных роботов популярных поисковых систем:
Google – «googlebot»;
Яндекса – «Yandex»;
Рамблера – «StackRambler»;
Yahoo! – «Yahoo! Slurp»;
MSN – «msnbot».
Директива «Disallow»
Директива «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено.
Рассмотрим различные примеры записи «Disallow».
Пример1.Сайт полностью открыт для индексирования:
Disallow: /
Пример 2. Для индексирования запрещен файл «page.htm», находящийся в корневом каталоге и файл «page2.htm», располагающийся в директории «dir»:
Disallow: /page.htm
Disallow: /dir/page2.htm
Пример 3. Для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, всё содержимое данной директории:
Disallow: /cgi-bin/
Disallow: /forum/
Возможно закрытие от индексации ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты.
Пример 4. Для индексирования запрещены директория «dir», а так же все файлы и директории, начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1», «directory2» и т. д:
Disallow: /dir
Некоторые поисковые системы разрешают использование регулярных выражений в записи «Disallow». Так, например, поисковая система Google поддерживает в записи «Disallow» символы «*» (означает любую последовательность символов) и «$» (окончание строки). Это позволяет запретить индексирование определенного типа файлов.
Пример 5. Запрет индексации файлов с расширением «htm»:
Disallow: *.htm$
Директива «Host»
Директива «Host» необходима для определения основного зеркала сайта, то есть, если сайт имеет зеркало, то с помощью директивы «Host» можно выбрать url того сайта, под которым проиндексируется ваш сайт. В противном случае поисковая система выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.
В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять ее непосредственно после записей Disallow.
Пример 6. wwwsite.ru – основное зеркало:
Host: wwwsite.ru
Оформление комментариев в файле robots.txt
Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку.
Пример 7. Комментарий находится на одной строке вместе с директивой:
Disallow: /cgi-bin/ #комментарий
Желательно размещать комментарий на отдельной строке.

Проблемы при индексации страниц

Работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров. Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче поисковых систем. Далее будет рассмотрен список проблем, с которыми Вы можете столкнуться при индексации.

3.1 Динамические страницы, идентификаторы сессий.
Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы. Тоже самое происходит и с динамическими страницами.
Описание. На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php?id=3&show=for_print и index.php?show=for_print&id=3. Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати».
Схожая проблема возникает при использовании, по умолчанию, ссылок на директорию и на файл в директории, например /root/ и /root/index.htm. Для пользователей она решается использованием директивы «DirectoryIndex /index.htm» файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.
Один из видов динамических страниц – страницы с идентификаторами сессий. На сайтах, где принято использовать идентификаторы сессий, каждый посетитель при заходе на ресурс получает уникальный параметр &session_id=. Это парамет добавляется к адресу каждой посещаемой страницы сайта. Использование идентификатора сессии обеспечивает более удобный сбор статистики о поведении посетителей сайта. Механизм сессий позволяет сохранять информацию о пользователе при переходе от одной страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в куки или добавляется как параметр в адрес страницы.
Однако, так как роботы поисковых систем не принимают куки, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.
Известно, что поисковые системы имеют алгоритмы «склейки» страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена. В некоторых случаях она может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.
Решение.
Что касается динамических страниц, то нужно закрывать страницы «версия для печати» и другие дубликаты в файле robots.txt, либо с помощью атрибута мета-тега noindex. Другое решение - заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.
Что касается идентификаторов сессий, то решение данной проблемы простое - прописать с .htaccess следующие команды:
php_flag session.use_trans_sid Off
php_flag session.use_only_cookie On
php_flag session.auto_start On

3.2 Неверная обработка 404 статуса
Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.
Описание. Обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.
Решение. Выход из данной проблемы таков: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

3.3 Плагиат
Проблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.
Описание. Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.
Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, хостеру сайта-плагиатора, предварительно предупредив, конечно, виновного в том, что он поступает незаконно.

3.4 Другие проблемы
Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:
1. Текст заключен в тег . Это специальный тег, запрещающий индексацию текста роботу Яндекса.
2. Текст расположен в скрипте, т.е между тегами
3. Текст расположен в комментариях
4. Очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб)
5. Ресурс не содержит русский текст (опять же, это касательно Яндекса)

Заключение

Каждому, кто ведет в Интернете серьезный проект, необходимо понимать, как роботы поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

Знание основ индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

Страница: 1

Money-Cool Форум

Меню навигации