Яндекс: Почему находится все

image

Теги: Яндекс, поисковик, поиск, приватность, новость

Сейчас в рунете широко обсуждается появление в открытом доступе СМС и других данных, которые не должны были стать публичными. Чтобы в дальнейшем не происходило подобных вещей, представитель Яндекса решил рассказать владельцам сайтов и вебмастерам, что нужно сделать и на что обратить внимание.

Сейчас в рунете широко обсуждается появление в открытом доступе СМС и других данных, которые не должны были стать публичными. Вокруг этой темы возникла даже легкая паника. Чтобы в дальнейшем не происходило подобных вещей, представитель Яндекса Владимир Иванов решил рассказать владельцам сайтов и вебмастерам, что нужно сделать и на что обратить внимание.

Прежде всего личную информацию посетителей сайта необходимо защитить, например, закрыть паролем. Если же такая информация никак не защищена, она запросто может стать доступна всем пользователям сети. Для этого достаточно оставить где-нибудь в интернете ссылку на страницу пользователя — хоть на страницу заказа, хоть на страницу регистрации.

Вторая важная вещь — необходимо запретить поисковым роботам индексировать страницы сайтов с информацией, которая не должна стать публичной. Для этого существует файл robots.txt. Это текстовый файл, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности. То есть владелец сайта или вебмастер всегда может позаботиться о том, чтобы поисковые роботы обходили стороной страницы, содержимое которых не должно попасть в поисковые системы. Проверить, какие страницы сайта проиндексированы Яндексом, можно с помощью сервиса Яндекс.Вебмастер.

Чтобы все понимали, как данные попадают в поисковики, давайте проследим, что происходит с веб-страницей от момента ее создания до попадания в результаты поиска.

Итак, страница появилась на сайте. Не важно, статический ли это html или динамически созданная серверным приложением страница. Важно, что у нее есть текстовое содержимое, которое могут читать пользователи и индексировать поисковые системы.

Разместив в интернете свою страницу, вебмастер ждет посетителей. Как он может рассказать людям о ней? Конечно, он отправит запрос на индексирование страницы поисковым системам. Возможно, отправит ссылку друзьям и знакомым, сократит ее и выложит в Твиттер, другие блоги и соцсети. Он может поставить ссылку на эту страницу и в других местах, уже известных поисковым системам, чтобы роботы быстрее ее нашли.

Итак, на страничку не зашел еще ни один живой человек, но про нее уже могут знать тысячи программ по всему интернету:

• поисковые системы, куда вебмастер отправил ссылку вручную;

• блог-платформы и сокращатели ссылок;

• поисковые системы, которые переиндексировали страницы с ссылками на эту (а зачастую это происходит очень быстро);

• всевозможные анализаторы и подписчики RSS (если на сайте есть RSS), причем не только через RSS сайта, где расположена страничка, но и через RSS блогов, агрегаторов, блогов агрегаторов, агрегаторов блогов, агрегаторов агрегаторов и так далее;

• компании-владельцы интернет-мессенджеров и провайдеры почтовых сервисов.

Если у странички стандартное имя, например, /admin или /login, ее быстро найдут всевозможные сканеры уязвимостей, которые постоянно обходят интернет. Про нее могут знать интернет-провайдеры всех тех систем, которые мы перечислили выше, провайдер самого сайта и все провайдеры по пути. Не в последнюю очередь про нее могут знать сотрудники спецслужб, использующие системы СОРМ. Иначе говоря, к этому моменту про новую страницу знает уже половина «роботной» части мирового интернета.

И только теперь на страницу заходит первый пользователь. Например, сидя в интернет-кафе, человек кликнул по ссылке в Твиттере и перешел на страницу. Конечно, этот клик зафиксировал javascript системы статистики сайта — в данном случае Твиттера. Как правило, пользователь попадает на страницу через сервис сокращения ссылок, и переход осядет в логах этого сервиса. Дальше браузер открывает страницу и начинает загружать объекты — картинки, анимацию, скрипты, css, рекламу, коды счетчиков и систем статистики. Если в браузере установлен антифишинговый или антивирусный плагин (собственный есть почти во всех браузерах и почти везде включен, а некоторые антивирусные компании еще добавляют свой), он отправляет адрес посещенной страницы на проверку. В браузер могут быть встроены и другие плагины. Например, Яндекс.Бар или Google.Бар показывают ранг страницы, для чего передают ее адрес на сервер. Бывает так, что трафик пользователей в публичных местах пропускается через прокси-сервер — для защиты от атак, экономии IP-адресов или ускорения загрузки страниц. В этом случае все указанные взаимодействия пройдут через прокси-сервер, и он тоже узнает о странице.

Если на страничке есть картинки или flash-объекты с других ресурсов, то о странице будут знать все эти ресурсы. При наличии на странице iframe о ней будет известно системе показа рекламы или сервисам других систем, загруженных через iframe. Если вебмастер использовал скрипты из внешней библиотеки, счетчики и системы сбора статистики, то о новой страничке будут знать все эти сервисы и их провайдеры. Данные получат прокси-серверы и серверы антивирусной и антифишинговой систем, встроенных в браузер. А также юноша, сидящий в кафе за соседним столиком и недавно прочитавший в молодежном журнале, как просматривать чужой трафик в публичных wifi-сетях.

Итак, теперь можно сказать, что почти весь мировой интернет знает про существование этой ссылки. Дальше информация о таких ссылках анализируется и проверяется, сравнивается и обсчитывается, агрегируется и консолидируется многими-многими системами. Происходит это довольно быстро. Бывает — всего за несколько секунд. В конечном итоге многие такие ссылки так или иначе становятся известными поисковым системам.

В этом месте хочу еще раз обратить внимание: поисковая система получает из разных источников только ссылки, а не содержимое страницы. Сколько может быть этих ссылок? Очень много. Например, еще в 2008 году Google сообщил, что их поисковой машине известно более одного триллиона (это тысяча миллиардов) уникальных ссылок. Разумеется, с той поры мировой интернет стал еще больше. И это при том, что индексируются только страницы, которые доступны всем пользователям.

Все ссылки поисковая система пропускает через фильтры, чтобы определить, нужно индексировать конкретную ссылку или нет. Некоторые ссылки отфильтровываются. Из полученного списка формируется очередь для обхода поисковым роботом. Порядок обхода может быть разным, он зависит от многих факторов. Важно, что робот старается отобрать и проиндексировать в первую очередь самые востребованные ссылки.

Дальше система управления поисковым роботом идет по списку ссылок и готовится индексировать содержимое страниц. Но прежде чем поисковый робот обращается к конкретной странице сайта, он обязательно проверяет файл robots.txt. И если владелец сайта не желает, чтобы новая страница индексировалась поисковой системой, он может попросить поискового робота этого не делать. И поисковый робот не будет этого делать. Конечно, злоумышленники, желающие украсть важный файл, не обратят внимание на содержимое robots.txt, но все крупные поисковые системы в обязательном порядке выполняют директивы этого файла.

Только если поисковый робот убедился, что robots.txt не запрещает индексирование странички, он будет ее индексировать. Это — единственный путь, по которому содержимое страницы попадает в поисковую систему. Другого способа нет.

Когда робот получил контент страницы, он снова применяет фильтры — отсекает мусор и спам. После того, как страницы отфильтрованы, можно приступать к ранжированию. Все страницы, доступные поисковой системе на этом этапе, могут появиться в результатах поиска. Таким образом, в поиске находится всё, что открыто всем и не запрещено вебмастером.


или введите имя

CAPTCHA
Страницы: 1  2  
Вячеслав
26-07-2011 09:49:39
Перекладывать ответственность с себя на администратора сайта удобно. На http://www.securitylab.ru/analytics/406414.php Рассказано, что не мешает посмотреть на работу устанавливаемых на компьютере пользователя плагинов и очень обрадоваться, что часть из них начинает рассказывать о ВАС всему интернету. Наличие или отсутствие файла robots.txt никоим образом не защищает данные от индексирования (как и надпись о наличии злой собаки за охраняемой дверью), а только содержит просьбу к поисковику не размещать проиндексированные данные в результатах поисковых запросов. (а как в России относятся к просьбам видно по статьям, появившимся в последнее время...) Стоит отметить, что данная информация собиралась Яндексом всегда, но вдруг после начала бурной дискуссии о 19 статье 152 ФЗ "О персональных данных" и о большой стоимости их защиты, пошли планомерные сливы информации (а может и специально организованные заинтересованными сторонами) об утечках персональных данных. При этом ВАЖНО, что использование сертифицированных средств защиты никоим образом не защищает те самые персональные данные, т.к. любое средство защиты можно настроить неправильно, но существенно удорожает стоимость защиты, а следовательно и цену, которую будут платить все пользователи Интернета и других информационных систем (телефон,SMS и т.д.). Причем Россия как всегда идет своим путем - не устанавливается ответственность за утечку данных (в том числе и материальная), а вводится по сути требование заплатить регуляторам и связанным с ними структурам за факт обработки персональных данных, при этом (после оплаты) НИКТО (ни оператор ни регулятор) не отвечает за факты утечки персональных данных.
0 |
Имя
27-07-2011 10:10:29
А при чем тут утечка данных. Вы выложили в интернет информацию, никак не позаботились о её защите и кричите о какой–то утечке данных. Вы еще на заборе напишите свои данные, а потом кричите об утечке.
0 |
Сергей
28-07-2011 17:25:16
Наличие или отсутствие файла robots.txt никоим образом не защищает данные от индексированияОтсюда вывод: нужны другие способы защиты - например, по паролю. И если любой посторонний пользователь (включая поисковый робот) может без всякого пароля спокойно прочитать приватное содержимое, то виноват именно администратор сайта.
0 |
Nemo
03-08-2011 09:00:51
А как вводить пароль? Через ЯндексБар? Не смешите. Это расширения может иметь возможности КейЛогера для вашего приложения без подозрений антивируса (а если и антивирус возразит вы же его добавите в список разрешенных расширений-приложений)
0 |
Ух
04-08-2011 16:35:28
Интересно, сам-то понял, что брякнул? Зачем писать комментарий по теме, где сам несмышленыш?? Попробуй удалить яндекс-бар из своего браузера и сделай открытие - при авторизации на сайтах - то бишь при вводе пароля - ничего для тебя не изменится
0 |
Сергей
28-07-2011 17:33:28
часть из них начинает рассказывать о ВАС всему интернету.Ничего он о вас не рассказывает, а передает ссылки поисковому роботу. Ссылки, попавшие в работу поисковому роботу, - тоже не беда (поисковый робот к вам лично их никак не привязывает). А вот почему совершенно постороннему поисковому роботу сайт выдает как на духу всю приватную информацию - об этом надо спрашивать как раз с администратора сайта. P.S. Строить всю секретность на ссылках в ПУБЛИЧНОЙ СЕТИ - это маразм.
0 |
Nemo
03-08-2011 08:58:45
Достаточно присвоить ID каждому из экземпляров установленного (выдавать через сервер) и "привязать" этот ID к собранной инфе (почта, смс, форумы, соц сети). В результате получил информацию о человеке.
0 |
26-07-2011 12:16:23
Яндекс отжигает http://news.yandex.ru/yandsearch?cl4url=www.ria.ru%2Fsociety%2F20110725%2F407118103.html
0 |
Смотрящий со стороны
26-07-2011 12:36:49
Очень хитро завернули в яндексе своё оправдание. Но есть один момент на котором не сделан акцент, а именно: получив посещённую неким пользователем ссылку через свой я-бар яндекс должен не только проверить файл robots.txt, а также ведёт ли какая-либо ссылка на самом сайте на индексируемую страницу. Последний момент не проверяется и естественно страница попадает в индекс.
0 |
Сергей
28-07-2011 17:20:51
...а также ведёт ли какая-либо ссылка на самом сайте на индексируемую страницу.С чего это вдруг?
0 |
Nemo
26-07-2011 13:38:23
А что мешает поисковым роботам игнорировать файл robot.txt?
0 |
06268
26-07-2011 13:48:19
Ничего кроме честности и порядочности.
0 |
Nemo
27-07-2011 21:25:52
А это что за слова? "честности и порядочности"
0 |
Alexey
26-07-2011 14:26:43
В одной из прошлых новостей о "сливах" Яндекса рекомендовалось в поисковой строке указать "site:Sexyz.Ru Статус заказа Получатель" и увидеть много интересного. Так вот если набрать то же самое в поисковой строке на Googl'е - интересное тоже будет предъявлено во всей своей красе! Возникает вопрос: а причем здесь Яндекс, если и другие поисковики по тому же самому запросу выдают практически те же результаты? Значит дело не в поисковой системе, а всё-таки в криворукости веб-дизюгнеров и уэб-админов
0 |
qw
26-07-2011 17:15:30
ага только в гугле выдатся страничка без данных. а в Я в кеше вываливается ВСЯ страница со всей персональной перепиской
0 |
qw
26-07-2011 17:16:31
включая ип клиента, адрес доставки и пр http://www.securitylab.ru/news/406470.php
0 |
47787
26-07-2011 17:30:10
в бинге, кстати, такая же выдача была?
0 |
Страницы: 1  2