» » » » Евгений Ющук - Интернет-разведка. Руководство к действию


Авторские права

Евгений Ющук - Интернет-разведка. Руководство к действию

Здесь можно купить и скачать "Евгений Ющук - Интернет-разведка. Руководство к действию" в формате fb2, epub, txt, doc, pdf. Жанр: Интернет, издательство Вершина, год 2007. Так же Вы можете читать ознакомительный отрывок из книги на сайте LibFox.Ru (ЛибФокс) или прочесть описание и ознакомиться с отзывами.
Евгений Ющук - Интернет-разведка. Руководство к действию
Рейтинг:
Название:
Интернет-разведка. Руководство к действию
Издательство:
неизвестно
Жанр:
Год:
2007
ISBN:
5-9626-0290-0
Вы автор?
Книга распространяется на условиях партнёрской программы.
Все авторские права соблюдены. Напишите нам, если Вы не согласны.

Как получить книгу?
Оплатили, но не знаете что делать дальше? Инструкция.

Описание книги "Интернет-разведка. Руководство к действию"

Описание и краткое содержание "Интернет-разведка. Руководство к действию" читать бесплатно онлайн.



Согласно расхожему мнению, человек, владеющий информацией, владеет миром. Интернет – гигантская информационная база современности, и необходимость освоения тонкостей работы в сети скоро станет насущной для всех – от специалистов по конкурентной разведке, маркетингу и PR, в жизни которых Интернет уже играет не последнюю роль, до рядовых служащих.

Как найти в Интернете информацию о конкретных людях, компаниях и товарах? Как организовать продвижение собственного предприятия в Сети? Как уберечься от хакеров и спрятать информацию на своем компьютере от посторонних? Как бороться с вирусами и вредоносными программами? Ответы на эти и многие другие вопросы вы найдете в нашей книге – подробном путеводителе по миру Интернета. Представленные здесь практические советы помогут вам не просто выстоять в конкурентной или информационной борьбе, но и победить в ней, изучив неизвестные рядовому пользователю возможности Всемирной паутины.

Издание представляет практический интерес для специалистов по бизнес-разведке, маркетингу, рекламе и PR, а также для директоров и менеджеров, желающих эффективно продвигать свое предприятие на современном рынке.






По своей сути, никаких технических препятствий для индексирования содержимого ресурса этот способ не создает. Однако большинство поисковых машин с уважением относится к подобному способу защиты контента, который, как правило, не попадает в информационные системы. Наиболее близким аналогом столь действенного ограничения доступа в реальном мире можно считать таблички «м» и «ж» на дверях общественных уборных.

На наш взгляд, метод ограничения индексирования с помощью файла robots. txt или метатега <noindex> потому получил столь большое распространение, что он препятствует работе пауков, но не мешает людям просматривать содержимое страниц без каких-либо ограничений.

Второй способ охраны контента значительно надежнее первого и заключается в том, что страница защищается паролем. Паук технически неспособен вводить пароль. Однако и человек, прежде всего, должен этот пароль знать, а кроме того, ему необходимо потратить время и приложить усилия для того, чтобы его ввести. При такой защите ресурса работает уже не этический, а технический способ ограничения индексирования.

После того, как паук попал на страницу, которая не защищена паролем и не внесена в список запрещенных, события развиваются по-разному, в зависимости от того, что на этой странице находится. Рассмотрим возможные их варианты, а также попытаемся понять, к видимому или к невидимому Интернету эти варианты относятся (по Крису Шерману и Гэри Прайсу).

Вариант 1. Паук обнаруживает страницу, написанную в HTML и содержащую графические элементы.

В таком случае паук может проиндексировать лишь название графического файла, и тогда такой документ будет найден при поиске картинок по ключевому слову, совпадающему с тем, которое есть в названии. Если имя файла не имеет ничего общего с его наполнением, он не сможет быть найден поисковой машиной, даже если будет содержать фотографию с изображением ключевого слова.

Вариант 2. Паук внутри сайта столкнулся со страницей, которая написана на HTML, но содержит поля, требующие заполнения пользователем – например, ввода логина и пароля.

В этом случае есть техническая возможность индексирования содержимого, но только того, к которому имеется доступ. Спрятанная под пароль часть страницы не может быть просмотрена и, как следствие, не может быть проиндексирована спайдером.

Здесь наиболее часто встречаются два варианта. Первый: допустим, на сайте лежат готовые к просмотру страницы, на которые существуют ссылки в Интернете (например, фраза: «Я недавно интересную статью прочитал, она находится здесь:» – и далее следует прямой адрес статьи). В этом случае страница с формой, требующей заполнения, создана лишь для того, чтобы пользователь мог выбрать нужный ресурс из имеющихся. Текст на странице с формой будет виден пауку и проиндексируется, а сами страницы, на которые ведет форма, индексируются «в обход» процедуры ее заполнения, в другое время и, возможно, другим пауком, за счет ссылок на внутренние страницы сайта из других источников. В таком случае и страница с формой, и внутренние страницы будут относиться к видимому Интернету.

Во втором варианте форма собирает информацию, на основании которой впоследствии создается необходимая пользователю страница. То есть, никакой внутренней страницы просто не существует до тех пор, пока форма не будет заполнена. Паук этого сделать не может. Данные, которые находятся внутри такого сайта, не могут быть получены никаким иным путем, кроме как посредством заполнения формы, а потому всегда относятся к невидимому Интернету.

Вариант 3. Паук приходит на сайт, содержащий динамические данные, меняющиеся в реальном масштабе времени.

К таким сайтам относится биржевая информация или, скажем, сведения о прибытии авиарейсов (рис. 2). Эти ресурсы обычно причисляют к невидимому Интернету, но не потому, что их технически нельзя проиндексировать, а потому, что их индексация не имеет практического смысла.



Рис. 2. Пример мониторинга движения рейсов на сайте www.airagency.ru


Вариант 4. Паук попадает на страницу, которая содержит текст в формате, не поддерживаемом данной поисковой машиной.

Например, Рамблер, как мы уже говорили, не поддерживает документы Power Point (.ppt). Ряд поисковых машин не индексируют документы в Postscript-файлах (это формат, в котором могут сохраняться для передачи в типографию файлы, созданные в программе Microsoft Publisher). До недавнего времени к таким форматам относился и PDF, однако сначала Гугл, а за ним и остальные поисковые машины стали индексировать подобные документы. Первоначально ограничение в работе с PDF-файлами было обусловлено тем, что на каждый новый формат приходилось расходовать дополнительные средства, распространенность же PDF-файлов вначале была невелика. Однако, по мере того, как правительственные организации многих стран стали выкладывать в Интернет документы именно в этом формате, поисковые машины начали с ним работать.

Вариант 5. Паук находит базу данных, запрос в которую выполняется через веб-интерфейс.

Причины, по которым такая база не может быть проиндексирована спайдером, следующие:

– страницы генерируются динамически, в ответ на запрос;

– протокол базы данных может не стыковаться с протоколом поисковой машины;

– доступ к базе требует введения логина и пароля (особенно, если дело касается платных ресурсов).

Четыре типа невидимости в Интернете

Традиционно выделяют четыре типа невидимости содержимого Всемирной Паутины, сформулирванные Крисом Шерманом и Гэри Прайсом.

1. Невидимость, обусловленная настройками пауков и их естественными особенностями (так называемый, «серый Интернет»). «Серый Интернет» имеет несколько возможных вариантов.

Ограничение глубины проникновения паука на сайт, настроенное владельцами поисковой машины.

Изменения страниц, происходящие уже после посещения страницы пауком.

Ограничение максимального количества показанных в выдаче страниц.

Если, например, Яндекс в выдаче представил пять тысяч страниц, то посмотреть более одной тысячи не удастся – он их просто не покажет. Во всяком случае, так обстояло дело на момент написания книги. Исправить ситуацию можно за счет использования операторов запросов. В результате, количество страниц в выдаче уменьшится, с одновременным увеличением релевантности.

1.4.Страницы, не прописанные в форме «Добавить страницу» и не имеющие ссылок с других адресов.

В мае 2000 г. IBM провела исследования, показавшие, что количество таких страниц, неизвестных поисковым системам, достигает 20 % от общего числа адресов, которые могли бы быть проиндексированы с технической точки зрения.[5]

2. Страницы, намеренно исключенные вебмастером из индексации.

К ним как раз и относятся ресурсы, защищенные паролем или включенные в файл robots.txt либо убранные под тег <noindex>.

3. Страницы, которые требуют регистрации.

В Интернете есть ресурсы, доступные бесплатно любому человеку, который для входа на страницу должен нажать кнопку «Я согласен»: это свидетельствует о его согласии с условиями посещения сайта. Иногда вместо такого выражения согласия требуется заполнить какие-то регистрационные формы. Паук не умеет выполнять подобные действия, и потому не попадает на сайт.

4. Действительно невидимый Интернет.

Страница содержит данные в формате, недоступном поисковым машинам.

Страницы намеренно не обслуживаются поисковыми машинами по тем или иным причинам.

Информация хранится в базе данных и доступ к ней возможен лишь при условии заполнения определенной формы.

Особенности построения адресов некоторых страниц Интернета

Советуем разобраться в данном вопросе, поскольку это позволит лучше ориентироваться в Интернете, а также эффективно обходить проблемы, которые нередко возникают при попытке поставить некоторые страницы на мониторинг, с целью автоматического обнаружения изменений их содержания.

Нередко ресурс может включать одновременно и элементы видимого, и невидимого Интернета.

Иногда веб-мастера принимают меры к тому, чтобы заведомо исключить попадание своего сайта в разряд невидимых, с точки зрения некоторых поисковых машин, сохранив при этом ресурс удобным в использовании и внешне привлекательным для пользователей. Для этого в ряде случаев сайты, написанные, например, на Flash, имеют HTML-копии. Такие копии называют «зеркалами» страницы, они позволяют увидеть ее содержимое с помощью тех информационных систем, которые имеют какие-то затруднения в работе с форматом основного варианта сайта.

Прямой и непрямой URL. Динамические страницы.Еще недавно в специальной литературе, изданной за рубежом, говорилось о том, что страницы, имеющие непрямой URL, как правило, относятся к невидимому Интернету.


На Facebook В Твиттере В Instagram В Одноклассниках Мы Вконтакте
Подписывайтесь на наши страницы в социальных сетях.
Будьте в курсе последних книжных новинок, комментируйте, обсуждайте. Мы ждём Вас!

Похожие книги на "Интернет-разведка. Руководство к действию"

Книги похожие на "Интернет-разведка. Руководство к действию" читать онлайн или скачать бесплатно полные версии.


Понравилась книга? Оставьте Ваш комментарий, поделитесь впечатлениями или расскажите друзьям

Все книги автора Евгений Ющук

Евгений Ющук - все книги автора в одном месте на сайте онлайн библиотеки LibFox.

Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.

Отзывы о "Евгений Ющук - Интернет-разведка. Руководство к действию"

Отзывы читателей о книге "Интернет-разведка. Руководство к действию", комментарии и мнения людей о произведении.

А что Вы думаете о книге? Оставьте Ваш отзыв.