2 Августа, 2011

В утечке "Яндекса"виноваты пользователи.

Вася Иванов
Шумиха вокруг утечек пользовательских данных, секретных документов и забавных смсок набирает обороты.Все считают виноват Яндекс,виноват в том,что хорошо индексирует интернет страницы,а тупые пользователи оставившие конфиденциальную информацию в открытом для индексации доступе нет.Государственные органы которые по моему вообще не знают как работает интернет строят теории заговора "данные извлекали из поисковиков".Яндексу инкреминируют в вину,что она оказалась слишком хорошей поисковой системой.Самое интересное сколько видел малограмотных пользователей интернета,а это не только поколение пепси со своими айфонами и айпадами,но и руководители различных уровней,у них всегда виноват комп,интернет,программа,хакеры,но только (упаси Боже)не они сами со своими познаниями в области высоких технолгий.Большинство компаний до сих пор ставит во главу угла гипертрофированную экономию и жадность. «Мы купили скрипт для интернет-магазина у школьника за $60 — мы сэкономили, мы молодцы! А наши конкуренты наняли программистов с опытом и вложили $6000 — они ничего не понимают в бизнесе, потому что клиент все равно не заметит разницы». Не узнаете, нет? А ведь так везде: и в оффлайне, и в онлайне в основе бизнеса лежат совсем не те ценности, о которых пишут в книжках умные западные менеджеры.Экономят на всем на оборудовании, на специалистах,на програмном обеспечении,а потом удивляются чего это их данные оказались в свободном поиске,отвечу ,так вам и надо крохоборам недоумкам,вините только себя.Это как надо не уважать себя и свой разум и умение вести дела чтоб обвинять РОБОТА,у меня это не укладывается в мозгах.При желании веб-мастер может закрыть любую страницу своего сайта от индексации. Тогда Ваша ссылка, даже если она прямая, невзаимная и тематическая, даже если к странице с вашей ссылкой есть прямой переход с главной страницы, даже если Ваша ссылка одна единственная внешняя ссылка на всей странице - даже в этом случае она не принесет Вам никакой пользы и не будет проиндексирована.Помимо прочего ниже привожу скрипт для определения проиндексированных Яндексом страниц вашего сайта.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head>
<title>Проиндексированные Яндексом страницы сайта</title>
<meta http-equiv="content-type" content="text/html; charset=windows-1251">
<meta http-equiv="content-language" content="ru">
</head>

<body>
<form method="post">
<textarea name="urls" rows="5" cols="50"><?=$_POST["urls"]?><br>
<input type="submit" value="yes">
</form>

<?
// Убираем пробелы из начала и конца строк
$urls = trim($_POST["urls"]);

// Разделяем входые данные (URLs) по строкам
$url = explode ("
", $urls);

// Количество введенных URLs
$count = count ($url);

function getPage($url)
{
// Открывает сокет соединения указанного домена/страницы
$fp = fsockopen ("www.yandex.ru", 80);

// Формируем запрос для указанного домена
// Используем метод GET
$headers = "GET ".$url." HTTP/1.1r
";
$headers .= "Host: www.yandex.rur
";
$headers .= "Connection: Closer
r
";

// Отправляем домену запрос
fwrite ($fp, $headers);

// Получаем ответ от www.yandex.ru (по 1024 байт)
while (!feof ($fp))
{
$str .= fgets($fp, 1024);
}

// Закрываем соединение
fclose($fp);

return $str;
}

if (trim($urls) != "")
{
echo "[table]";

for ($i = 0; $i < $count; $i++)
{
// Удаляем "http://", если $url[$i] содержит данную подстроку
if (substr(trim($url[$i]), 0, 7) == "http://")
{
$url[$i] = substr (trim($url[$i]), 7);
}
// Удаляем завершающий "/", если $url[$i] содержит данную подстроку
if (substr(trim($url[$i]), -1) == "/")
{
$url[$i] = substr (trim($url[$i]), 0, -1);
}

// Переменная $str содержит результат запроса
$str = getPage("/yandsearch?stype=www&nl=0&text=&numdoc=50&surl=".urlencode($url[$i]));

// Начало поиска подстроки
$start = strpos ($str, 'Результат поиска: страниц');
// Конец поиска подстроки
$end = strpos ($str, 'Область поиска');
// Найденная подстрока
$result = substr ($str, $start, $end - $start);

// Выделяем количество проиндексированных страниц сайта
preg_match_all("/<[s]*b[s]*>([^<]*)<[s]*/b[s]*>/i", $result, $match);

// Выводим результат
echo $iterac = $match[1][0];

// Выделяем все проиндексированные страницы сайта
preg_match_all("/[*][td]".$url[$i]."[/td][td]";

// Выводим каждую проиндексированную страницу сайта
foreach ($result[2] as $a)
{
echo $a."<br>";
}

// Повторяем предыдущие действия для каждой очередной страницы выдачи Яндекса
for ($j = 0; $j < $row; $j++)
{
// Выделяем адрес следующей страницы в выдаче Яндекса
preg_match_all('/<as+ids*=s*"next_page"s+hrefs*=s*"([^"]+)"/i', $str, $test);
$str = getPage($test[1][0]);

// Выделяем все проиндексированные страницы сайта на текущей странице выдачи Яндекса
preg_match_all("/[*]";
}
}

echo "[/td][/tr]";
}

echo "[table]";
}
?>
</body>

</html>
В результате скрипт выводит количество проиндексированных страниц, url заданного сайта (т.к. может задаваться несколько URL в текстовом поле) и список проиндексированных страниц. Данный скрипт удобно использовать, если приходится анализировать индексацию одного и нескольких сайтов сразу.
или введите имя

CAPTCHA