"Поисковой робот
Yandex индексирует страницы и на основании информации на
них формирует поисковый индекс.Поисковая
система Yandex содержит в своем индексе
следующие сведения о каждом слове текста:
- Номер документа
- Номер предложения
- Номер слова в предложении
- Вес каждого слова
Вся эта информация используется при поиске. При каждом запросе ищутся (и
получают более высокий ранг) фразы, точно совпадающие с запросом, затем
предложения, содержащие все слова запроса, итд. Важную роль играет
относительное положение слов. Так например если запрос из четырех слов
не имеет точного ответа в базе данных, будут отранжированы выше
предложения, содержащие три слова из запроса, в которых слова стоят
точно в той же последовательности, что и в запросе. Это дает возможность
решить типичную поисковую задачу - искать документ по неточному
цитированию.
Yandex подсчитывает ТИЦ - тематический индекс
цитирования сайта. Однако этот параметр влияет не на результат выдачи, а
только на позицию сайта в каталоге Yandex. При
ранжировании результатов поиска используется ВИЦ - взвешенный индекс
цитирования, учитывающий тематический вес ссылающихся сайтов.
Yandex хорошо умеет определять кодировку документа, а
также индексировать следующие форматы документов HTML, PDF, DOC,
RTF, и FLASH.
![]()