2 Августа, 2011

В утечке "Яндекса"виноваты пользователи.

Вася Иванов
Шумиха вокруг утечек пользовательских данных, секретных документов и забавных смсок набирает обороты.Все считают виноват Яндекс,виноват в том,что хорошо индексирует интернет страницы,а тупые пользователи оставившие конфиденциальную информацию в открытом для индексации доступе нет.Государственные органы которые по моему вообще не знают как работает интернет строят теории заговора "данные извлекали из поисковиков".Яндексу инкреминируют в вину,что она оказалась слишком хорошей поисковой системой.Самое интересное сколько видел малограмотных пользователей интернета,а это не только поколение пепси со своими айфонами и айпадами,но и руководители различных уровней,у них всегда виноват комп,интернет,программа,хакеры,но только (упаси Боже)не они сами со своими познаниями в области высоких технолгий.Большинство компаний до сих пор ставит во главу угла гипертрофированную экономию и жадность. «Мы купили скрипт для интернет-магазина у школьника за $60 — мы сэкономили, мы молодцы! А наши конкуренты наняли программистов с опытом и вложили $6000 — они ничего не понимают в бизнесе, потому что клиент все равно не заметит разницы». Не узнаете, нет? А ведь так везде: и в оффлайне, и в онлайне в основе бизнеса лежат совсем не те ценности, о которых пишут в книжках умные западные менеджеры.Экономят на всем на оборудовании, на специалистах,на програмном обеспечении,а потом удивляются чего это их данные оказались в свободном поиске,отвечу ,так вам и надо крохоборам недоумкам,вините только себя.Это как надо не уважать себя и свой разум и умение вести дела чтоб обвинять РОБОТА,у меня это не укладывается в мозгах.При желании веб-мастер может закрыть любую страницу своего сайта от индексации. Тогда Ваша ссылка, даже если она прямая, невзаимная и тематическая, даже если к странице с вашей ссылкой есть прямой переход с главной страницы, даже если Ваша ссылка одна единственная внешняя ссылка на всей странице - даже в этом случае она не принесет Вам никакой пользы и не будет проиндексирована.Помимо прочего ниже привожу скрипт для определения проиндексированных Яндексом страниц вашего сайта.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
  <title>Проиндексированные Яндексом страницы сайта</title>
  <meta http-equiv="content-type" content="text/html; charset=windows-1251">
  <meta http-equiv="content-language" content="ru">
</head>

<body>
  <form method="post">
    <textarea name="urls" rows="5" cols="50"><?=$_POST["urls"]?><br>
    <input type="submit" value="yes">
  </form>

  <?
  // Убираем пробелы из начала и конца строк
  $urls = trim($_POST["urls"]);

  // Разделяем входые данные (URLs) по строкам
  $url = explode ("
", $urls);

  // Количество введенных URLs
  $count = count ($url);

  function getPage($url)
  {
   // Открывает сокет соединения указанного домена/страницы
   $fp = fsockopen ("www.yandex.ru", 80);

   // Формируем запрос для указанного домена
   // Используем метод GET
   $headers = "GET ".$url." HTTP/1.1r
";
   $headers .= "Host: www.yandex.rur
";
   $headers .= "Connection: Closer
r
";

   // Отправляем домену запрос
   fwrite ($fp, $headers);

   // Получаем ответ от www.yandex.ru (по 1024 байт)
   while (!feof ($fp))
   {
    $str .= fgets($fp, 1024);
   }

   // Закрываем соединение
   fclose($fp);

   return $str;
  }

  if (trim($urls) != "")
  {
   echo "";

   for ($i = 0; $i < $count; $i++)
   {
    // Удаляем "http://", если $url[$i] содержит данную подстроку
     if (substr(trim($url[$i]), 0, 7) == "http://")
    {
     $url[$i] = substr (trim($url[$i]), 7);
    }
    // Удаляем завершающий "/", если $url[$i] содержит данную подстроку
    if (substr(trim($url[$i]), -1) == "/")
    {
     $url[$i] = substr (trim($url[$i]), 0, -1);
    }

    // Переменная $str содержит результат запроса
    $str = getPage("/yandsearch?stype=www&nl=0&text=&numdoc=50&surl=".urlencode($url[$i]));

    // Начало поиска подстроки
    $start = strpos ($str, 'Результат поиска: страниц');
    // Конец поиска подстроки
    $end = strpos ($str, 'Область поиска');
    // Найденная подстрока
    $result = substr ($str, $start, $end - $start);

    // Выделяем количество проиндексированных страниц сайта
    preg_match_all("/<[s]*b[s]*>([^<]*)<[s]*/b[s]*>/i", $result, $match);

    // Выводим результат
    echo $iterac = $match[1][0];

    // Выделяем все проиндексированные страницы сайта
    preg_match_all("/[*]";
   }

   echo "
".$url[$i]."";

    // Выводим каждую проиндексированную страницу сайта
    foreach ($result[2] as $a)
    {
     echo $a."<br>";
    }

    // Повторяем предыдущие действия для каждой очередной страницы выдачи Яндекса
    for ($j = 0; $j < $row; $j++)
    {
    // Выделяем адрес следующей страницы в выдаче Яндекса
     preg_match_all('/<as+ids*=s*"next_page"s+hrefs*=s*"([^"]+)"/i', $str, $test);
     $str = getPage($test[1][0]);

    // Выделяем все проиндексированные страницы сайта на текущей странице выдачи Яндекса
     preg_match_all("/[*]";
     }
    }

    echo "
";
  }
  ?>
</body>

</html>
В результате скрипт выводит количество проиндексированных страниц, url заданного сайта (т.к. может задаваться несколько URL в текстовом поле) и список проиндексированных страниц. Данный скрипт удобно использовать, если приходится анализировать индексацию одного и нескольких сайтов сразу.
comments powered by Disqus