Internet. Web-серфинг. Поиск информации в Интернет Теоретические сведения
Интернет (от international (международный) и net (сеть)) — это всемирная, кооперативно управляемая совокупность компьютерных сетей разного уровня и подчиненности, равноправно обменивающихся информацией посредством базовых протоколов TCP/IP. Ин-тернет включает локальные сети, шлюзы, серверы и компьютеры, расположенные по всему миру. Структура интернета напоминает паутину, в узлах которой находятся серверы, объединенные между собой различными линиями связи. Эти узлы, соединенные высокоскоростными информационными каналами, и составляют базис интернета.
Становой хребет интернета составляют его опорные сети (Core Backbone Network) провайдеров высшего уровня, наиболее крупными из которых в мире являются UUNet, AT&T и т.д. Эти сети напоминают основные русла крупных многоводных рек, в которые на разных этапах вливаются реки притоки — информационные каналы местных провайдеров. Все опорные сети без ограничений обмениваются между собой интернеттрафиком. Весь же остальной мир получает доступ к хребту интернета уже через провайдеров первого (транснационального) уровня, имеющих выход в различные страны. Следом за провайдерами первого уровня расположены сетевые провайдеры уже второго уровня — национальные и третьего — региональные, соединенные между собой высокоскоростными каналами передачи данных, которые, в свою очередь, предоставляют доступ к интернету местным провайдерам — Internet Service Provider.
Провайдер (от англ. provider «снабжающий») — компания, которая обеспечивает выход в интернет, то есть «снабжающая» вас этой услугой. Именно провайдер на локальном уровне (город, поселок и т.д.) и обеспечивает выход в интернет индивидуальных пользователей. Каждый провайдер на своем уровне решает все организационные, технические и финансовые вопросы, представляя в своем лице перед вами всю всемирную сеть. Благодаря такой распределенной структуре сеть интернет сравнительно легко наращивается и масштабируется, приспосабливаясь к постоянно изменяющимся техническим, информационным и политическим условиям, что наглядно и демонстрируется все годы ее существования.
Протокол передачи данных – специальные наборы правил, обеспечивающие обмен информацией, как между отдельными устройствами, так и между целыми сетями
Интернет-трафик — количество передаваемой информации, измеряемое в байтах (а учитывая ее огромный объем — скорее в гигабайтах и терабайтах).
Шлюз (gateway) — это компьютер или система компьютеров со специальным программным обеспечением, позволяющим связываться двум сетям с разными протоколами. Чаще всего шлюзы связывают локальные вычислительные сети LAN (Local Area Network) с глобальной сетью WAN (Wide Area Network) или две разнородные WAN.
Маршрутизатор (router) – устройство, которое связывает сети с одинаковыми прото-колами, но разными типами сетевого оборудования. Маршрутизаторы уменьшают трафик, пропуская в присоединенную LAN только те данные, которые предназначены именно для нее.
Протоколы TCP/IP. Весь интернет цементируют протоколы семейства TCP/IP. В этой паре TCP (Transmission Control Protocol – протокол управления передачей) отвечает за то, как будет проходить информация по всемирной сети. Он обеспечивает установление надежного соединения между компьютерами и непосредственную пересылку данных, контролируя оптимальный размер пакета данных, возобновляя повторную передачу при сбое и т.д.
В свою очередь, IP (Internet Protocol – межсетевой протокол) отвечает за то, куда будет посылаться по сети информация, то есть он заведует адресацией пакетов. Согласно протоколу TCP происходит нарезка пересылаемых файлов на пакеты, каждый со своим точным адресом размещения в структуре файла. По месту прибытия полученные фрагменты собираются в единое целое. Такой пакет называется дейтаграммой. При этом если какой-либо фрагмент не дошел до места назначения, то по нему посылается встречный повторный запрос до тех пор, пока фрагмент не будет получен. При нарезке файлов на дейтаграммы TCP создает для каждой части информации конверт, содержащий сопутствующую информацию. Получившийся TCP-пакет, в свою очередь, помещается в отдельный IP-конверт, и получается окончательный IP-пакет, с которым сеть вполне умеет обращаться. Хотя в реальности пакеты не только теряются, но и искажаются при передаче из-за помех и сбоев на линиях связи, TCP призван решать и эту проблему. В простейшем случае к каждому пакету добавляется код с контрольной суммой. При помещении фрагмента в TCP-конверт вычисляется его контрольная сумма, которая отображается в заголовке конверта. Если при получении вычисленная сумма не совпадает с той, что указана на конверте, значит, где-то в пути были или искажения, или частичная потеря, или несанкционированное вмешательство и надо переслать этот пакет заново, что и делается автоматически.
Если дейтаграмма по какой-либо причине не может быть доставлена в пункт назначения, то она уничтожается. При этом компьютеру-источнику этого IP-пакета отправляется уведомление об ошибке.
У межсетевого протокола (IP) свои задачи:
– адресация;
– маршрутизация;
– фрагментация дейтаграмм;
– передача данных.
При этом служебная часть каждой дейтаграммы содержит:
– IP-адрес получателя;
– IP-адрес отправителя;
– общую длину пакета;
– идентификатор пакета, который используется для распознавания пакетов, образовавшихся путем деления исходного пакета;
– время жизни пакета;
– идентификатор протокола верхнего уровня, который указывает, к какому протоколу верхнего уровня принадлежит данный пакет (например, TCP, UDP);
– другую служебную информацию.
Главные особенности протоколов TCP/IP:
– открытость стандартов, разрабатываемых независимо от программного и аппаратного обеспечения сети;
– независимость от непосредственной физической среды передачи;
– уникальность адресации;
– стандартизованность протоколов высокого уровня, используемых в сервисах.
TCP/IP делится на четыре уровня:
1) прикладной – взаимодействие непосредственно с сервисами разного назначения;
2) транспортный – основной уровень для передачи потока данных;
3) межсетевой – взаимодействие с сетями различного уровня (локальных сетей, территориальных сетей, линий специальной связи и т.п.);
4) физический и канальный – подбор определенных протоколов уровня доступа к физической среде передачи данных (например, локальных сетей Ethernet). Если рассмотреть принцип работы транспортного протокола более детально, то необходимо отметить, что он выполняет доставку информации не между двумя компьютерами вообще, а только между прикладными процессами, например запущенной на вашем компьютере почтовой программой и почтовым сервером. А для того чтобы информация нашла нужную программу (ведь на компьютере одновременно работает множество различных программ разного назначения) и существует система портов.
Порт – специальный номер, который присваивается каждому процессу на компьютере и который, выполняет роль адреса отправителя и адреса получателя на транспортном уровне. При этом некоторые номера портов присваиваются определенным процессам постоянно. Например, веб-сервер работает через порт 80.
Служба World Wide Web (WWW). Аббревиатура WWW (повсеместно протянутая паутина), по мере развития мировой сети и ее сервисов, для многих новых пользователей понятие «интернет» и WWW прочно стали словами синонимами и полностью взаимозаменяемыми понятиями. Произошло это в силу различных причин, одной из которых было совпадение бурного роста числа пользователей компьютеров с рождением и расцветом технологии WWW, которая из-за своей наглядности и сравнительной простоты, а также из-за универсальности взаимодействия с другими сервисами стала олицетворять собой весь интернет в целом. А программы просмотра WWW стали соответственно самыми главными, а порой и единственными программами для общения с интернетом. О том, что интернет гораздо шире и разнообразнее сервиса WWW, многие и не догадываются.
Итак, прежде всего, WWW (the Web, или – 3W) – это далеко не весь интернет, а только распределенная информационная система мультимедиа, основанная на гипертексте, которая является составной частью более емкого понятия интернет. WWW – информационный сервис, которому достаточно трудно дать краткое и корректное определение. Система World Wide Web предназначена для гипертекстового объединения документов из разных сетей и установления легкодоступных и независимых от физического размещения информации универсальных гипермедийных связей между этими документами. Основа всемирной паутины – это WWW-серверы, которые разбросаны по всему миру и доступны пользователям, имеющим выход в интернет, при помощи программ-клиентов – браузеров. Браузер (от англ. browse – «просматривать») – программа, отображающая веб-страницы, написанные кодом HTML, JavaScript, PHP и др. Термин появился еще при становлении языков программирования (таких, как FORTRAN и Pascal), но стал по-настоящему популярным только с развитием сервиса WWW. Идея всемирной паутины – World Wide Web – была впервые высказана Тимом Бернерс-Ли (Tim Berners-Lee) в марте 1989 года. Но только 17 мая 1991 года стандарт WWW, включающий возможность просмотра сайтов и обмена сообщениями электронной почты, был утвержден консорциумом разработчиков. В это же время Тим Бернерс-Ли разработал и первый интернет-браузер – программу для просмотра и редактирования электронных документов, называемых веб-страницами, а также первый интернет-сервер как основу будущей паутины. Веб-страница (web-page, home page, WWW-page) – это файл гипертекстового документа, созданный при помощи языка HTML и расположенный на сервере для просмотра с помощью браузера. Как правило, он имеет расширение .htm или .html. Это – основная единица хранения информации в WWW cо своим уникальным адресом. Обычно веб-страница создается частным лицом или небольшой компанией где-нибудь на бесплатном сервере с использованием многочисленных шаблонов оформления, имеет при этом небольшие размеры и посещаемость.
Веб-сайт (Web_site, site) – совокупность логически связанных между собой веб-страниц, размещенных на одном сервере со всем массивом информации.
Портал (от англ. portal – «главный вход») — конгломерат связанных между собой раз-личных сервисов (электронная почта, форумы, чаты, интернет-магазины, голосования, рас-сылка и т.д., и т.п., собственная поисковая система), расположенный на одном сайте. Как правило, портал – это большой и часто посещаемый сайт. В большинстве случаев порталы строятся вокруг поисковых машин и каталогов, например, Google.com, Yandex.ru, Yahoo.com Часто веб-страницу или веб-сайт называют веб-узлом.
Интернет-сервер – компьютер, предоставляющий свои ресурсы (услуги, информацию, файлы, диски, принтеры и т.д.) для совместного использования в сети. Один компьютер может выполнять одновременно функции нескольких серверов, например, Web-сервера, FTP-сервера, DNS-сервера.
От обычных текстовых документов Web-страницы отличаются тем, что они оформлены без привязки к конкретному носителю. Электронные Web-документы предназначены для просмотра на экране РС, причем заранее неизвестно на каком (неизвестны размеры экрана, параметры цветового и графического разрешения и ОС РС клиента). Поэтому Web-документы не могут иметь жесткого форматирования. Оформление выполняется непосредственно во время их воспроизведения на РС клиента и происходит в соответствии с настройками программы, выполняющей просмотр. Браузер выполняет отображение документа на экране, руководствуясь командами, которые автор внедрил в его текст. Такие команды называются тегами. Правила записи тегов содержатся в спецификации особого языка разметки близкого к языкам программирования. Он называется языком разметки гипертекста - HTML (HyperText Markup Language). Таким образом, Web-документ представляет собой обычный текстовый документ, размеченный тегами HTML. Такие документы называются также HTML-документами или документами в формате HTML. При отображении HTML-документа на экране монитора с помощью браузера, теги не показываются, и мы видим только текст, составляющий документ. Однако оформление этого текста (выравнивание, цвет, размер и начертание шрифта) выполняются в соответствии с тем, какие теги имплантированы в текст документа. Существуют специальные теги для внедрения в HTML-документ графических и мультимедийных объектов (графика, звук, музыка, видеоклипы). Встретив такой тег, обозреватель делает запрос к серверу на доставку файла, связанного с тегом и воспроизводит его - мы видим иллюстрацию или слышим звук. Наиболее важной чертой Web-страниц с точки зрения WWW, реализуемой с помощью тегов HTML, являются гипертекстовые ссылки (link). С любым фрагментом текста или рисунком можно связать иной Web-документ, то есть установить гиперссылку. В этом случае при щелчке левой кнопкой мыши на тексте или рисунке, являющемся гиперссылкой, отправляется запрос на доставку нового документа. Этот документ, в свою очередь, тоже может иметь гиперссылки на другие документы. Таким образом, совокупность огромного числа гипертекстовых электронных документов, хранящихся на серверах WWW, образует своеобразное гиперпространство документов, между которыми возможно перемещение. Произвольное перемещение между документами в Web-пространстве называют Web-серфингом (выполняется с целью ознакомительного просмотра). Целенаправленное перемещение между Web-документами называется Web-навигацией (выполняется с целью поиска нужной информации). Гипертекстовая связь между Web-документами, хранящимися на физических серверах Internet, является основой существования логического пространства WWW. Такая связь не могла бы существовать, если бы каждый документ в этом пространстве не обладал уникальным адресом. Адрес любого файла в масштабах сети Internet определяется унифицированным указателем ресурсов - URL. Адрес URL состоит из трех частей: 1) указание службы, которая осуществляет доступ к данному ресурсу (обычно обозначается именем прикладного протокола, соответствующего данной службе). Так, например, для службы WWW прикладным протоколом является протокол HTTP - HyperText Transfer Protocol - протокол передачи гипертекста. После имени протола ставится двоеточие (:) и два знака "/" косая черта (slash): http://...; 2) указание доменного имени РС (сервера), на котором хранится данный ресурс: http://www.youtube.com/?gl=RU&hl=ru; 3) указание полного пути доступа к файлу на данном РС. В качестве разделителя используется символ косая черта / http://www.bntu.by/ru/scientwork/journals/. Именно в URL и связывают адрес ресурса с гипертекстовыми ссылками на Web-страницах. При щелчке на гиперссылке браузер посылает запрос для поиска и доставки ресурса, указанного в ссылке, на соответствующий Web-сервер. Если по каким-либо причинам искомый ресурс не найден, выдается сообщение о том, что ресурс не доступен (возможно, что сервер временно включен или изменился адрес ресурса).
Служба имен доменов (DNS). Адрес любого компьютера или любой локальной сети в Internet задается четырьмя байтами с целым содержимым, например, так: 195.28.132.97 - так называемый IP-адрес. Однако, такой числовой адрес неудобен для пользователей, а буквенное доменное имя запоминается легко. С другой стороны, автоматическая работа Web-серверов сети Internet организована с использованием числового IP-адреса. Благодаря чему, промежуточные серверы могут осуществлять передачу запросов и ответов в нужном направлении, не зная, где конкретно находится отправитель и получатель. Поэтому необходим перевод доменных имен в связанные с ними IP-адреса. Этим и занимаются серверы службы имен доменов DNS. Запрос на получение одной из страниц сервера http://www.youtube.com/?gl=RU&hl=ru сначала обрабатывается сервером DNS, а далее он направляется по IP-адресу, а не по доменному имени.
Информация, переданная с одного PC на другой, должна быть, во-первых, правильно принята, а во- вторых, правильно интерпретирована обоими PC. Поэтому расположение, назначение и содержание каждого байта информации должны соответствовать особым соглашениям, которые известны всем взаимодействующим в сети PC и которым они обязаны подчиняться. Протоколы в сети Internet и исполняют роль таких соглашений. Для адресации удаленных PC при использовании прикладных программ Internet достаточно знать IP-адрес, однако пользоваться им неудобно. Кроме того, IP-адрес несет информацию о расположении конкретного PC, но не ресурса, который наиболее интересен пользователям сети. Поэтому на прикладном уровне обычно пользуются другой системой адресации - по доменным признакам. Вся сеть представляется разбитой на участки по названиям доменов, различающихся, в основном по географическому или организационному признаку. Домен (domain) - в переводе область, район - определяет множество PC, принадлежащих какому-либо участку сети Internet, в пределах которого эти PC объединены по одному признаку. Уникальность в пределах всей сети Internet названий доменов для этих участков сети позволяет однозначно определить тот участок, к которому принадлежит PC и, тем самым, определить его полный адрес. Полный доменный адрес PC складывается из названия PC в пределах участка сети, к которому он принадлежит, и доменного адреса (domain address) или имени домена (domain name) этого участка. Доменный адрес PC представляет собой группу иерархически связанных доменов, все более локализующихся от самого верхнего уровня до нижнего уровня, который в общем случае может быть представлен одним PC. Доменное имя состоит из списка названий доменов, разделенных точками. Самый верхний уровень представлен в правой части адреса, а крайняя левая часть обозначает название PC на этом участке сети, например myhost.myprovider.by. В этом примере PC, называющийся myhost, входит в группу PC сети myprovider, которая расположена на территории Беларуси (by). Домены различаются по географическим и организационным признакам:
Названия доменов, классифицированных по организационному уровню:
Домен | Тип организации |
org | Некоммерческая организация |
edu | Образовательное учреждение |
com | Коммерческая организация |
net | Информационная сеть |
gov | Правительственное учреждение |
mil | Военная организация |
Классификация доменов по географическому признаку
Домен | Государство | Домен | Государство |
at | Австрия | it | Италия |
jp | Япония | au | Австралия |
by | Беларусь | ca | Канада |
de | Германия | ru | Россия |
uk | Великобритания | us | США |
Следует заметить, что в последнее время данной классификации уже не придерживаются жестко. Особенно, когда появилась возможность давать доменные имена на русском языке.
Доменные адреса удаленных PC могут использоваться прикладными программами для адресации данных точно так же, как и IP адреса. Однако протоколы IP оперируют IP-адресами. Для преобразования доменных имен в IP-адреса используется служба определения доменного имени - DNS, которая представляет распределенную базу данных по адресам, расположенную на большом количестве серверов сети. Первое, что происходит, когда прикладная программа обращается к этой базе, - получает пользовательский запрос на обращение к удаленному PC по доменному адресу, - это обращение к службе DNS для получения IP-адреса. Причем IP-адрес PC, предоставляющего доступ к службе имен, должен быть предварительно известен протоколам, работающим на вашем PC, поэтому его приходится вводить самостоятельно при настройке протоколов. Доменное имя позволяет также определить тип ресурса, предоставляемого PC по этому адресу, так как системными администраторами сетей принято давать название PC по названию ресурса, который представлен этим PC. Иными словами, левая часть полного доменного адреса PC часто бывает названа по имени типа серверной программы, которая на нем установлена, например www.microsoft.com или ftp.ncsa.uiuc.edu. Следует помнить, что в действительности эти адреса могут принадлежать одному и тому же PC с различными серверными программами, установленными на нем. При разработке средств WWW была разработана универсальная система адресации ресурсов по доменным именам узлов, получившая название URL (Uniform Resource Locators). Она предполагает обязательное указание в начале адреса типа ресурса. При этом, если тип ресурса не указан, по умолчанию для входа на такой сервер используется протоколы WWW.
Web-серфинг
Рассмотрим некоторые методы определения свойств браузеров, работы с этими программами. Для наиболее эффективного просмотра сайтов Internet на примере браузера Google Chrome. Основные функции Chrome приведены в меню Справка из Настройка и управление Google Chrome.
Просмотр страниц в Google Chrome. Каждый документ Internet имеет название и уникальный адрес (называется URL), в котором указан тип документа, компьютер и каталог где находится документ. Адрес документа отображается в адресной строке браузера, расположенной ниже панели вкладок, а название документа на вкладке окна документа. Если документ больше одного экрана, то справа и снизу появляются линейки прокрутки, с помощью которых можно просматривать большие документы.
Листать страницы (экраны) большого документа можно также с помощью клавиш PageDown и PageUp или клавиш управления курсором (клавиш со стрелками). Вы можете распечатать текущий документ, нажав команду Печать (Print) из меню настройка панели инструментов.
Механизм функционирования WWW основывается на том, что все страницы Web описываются в виде текстовых файлов на специальном языке HTML (Hyper Text Markup Language – язык разметки гипертекстов). Команды этого языка могут указывать вид и рас-положение надписей, рисунков, ссылки на другие ресурсы Web, соответствующие надписям-ссылкам и т.д. При обращении к Web-серверу он передаёт программе просмотра (Web-браузеру) описание страницы Web на языке HTML, а Web-браузер построит изображение этой страницы и показывает его пользователю. Для поиска текста внутри текущего документа нажмите клавиши CTRL+F или команду Найти (Find) меню Настройка панели инструментов. Чтобы сохранить текущую страницу на диске вашего компьютера нажмите Ctrl-S или выберите команду Сохранить страницу как… (Save Page As...) меню Настройка. Важно, что собственно сам гипертекст содержит только текст и ссылки (на другие документы и на графические вставки), поэтому открыв сохраненный документ вы увидите только сам текст без фотографий рисунков. Чтобы сохранить на диске понравившийся рисунок нужно указать на него курсором, нажать правую кнопку мышки и выбрать пункт меню Сохранить картинку как… (Save Image As...).
Навигация.
Кроме текста и графики гипертекстовые документы могут содержать ссылки. Ссылками на другие документы могут быть как отдельные слова или фразы, так и рисунки или фотографии. Если в качестве ссылки используется текст он обычно выделяется другим цветом и подчеркиванием. Когда вы подводите курсор мышки к ссылке, он изменяет свою форму на руку с указательным пальцем. Если в этот момент нажать кнопку мышки программа перейдет по ссылке к другому документу. При этом, если вы нажимаете правую кнопку мыши можно выбрать в контекстном меню команду Открыть ссылку в новой вкладке или Открыть ссылку в новом окне. Когда загружается документ, становится активной кнопка Остановить загрузку этой страницы (Stop). Если в это время нажать кнопку Stop (или клавишу ESC), загрузка страницы будет прервана. Перезагрузить документ можно нажав кнопку Обновить эту страницу (Reload). Когда вы просматриваете документы Internet, программа запоминает ход вашей работы. Вы можете быстро вернуться к ранее просмотренным страницам, выбрав на панели инструментов кнопки Стрелка влево (Back), и Стрелка вправо (Forward), а затем название документа из списка. Все ссылки в документах Internet также содержат адреса, они не видны в документе, но, когда вы подводите мышку к ссылке, адрес на который она указывает отображается в строке статуса. Зная точный адрес документа (или сервера) его можно посмотреть нажав ссылку или введя адрес в адресную строку (не забудьте нажать клавишу Enter). Программа Google Chrome позволяет опускать префикс http:// в названии адреса.
Закладки. Хотя в программе Google Chrome предусмотрено несколько способов перехода по адресу, было бы очень утомительно каждый раз набирать длинную строчку для просмотра нужного документа. Тем более запоминать или записывать адреса. К счастью, в этом нет необходимости. В программе предусмотрена функция хранения закладок (ссылок) на нужные страницы. В любой момент, путешествуя по Internet, вы можете занести адрес понравившейся страницы в картотеку ссылок. В следующий раз вам не придется вспоминать адрес страницы и набирать его - достаточно ажать на звездочку в конце адресной строки (или набрать Ctrl+D), когда активной является нужная вам страница. При этом вы можете создать или выбрать нужную папку для сохранения ваших закладок. Вся работа с закладками сосредоточена в меню Другие закладки (Bookmarks). Теперь название выбранной страницы появится в списке закладок Другие закладки, из которого вы в любой момент можете ее загрузить, выбрав из списка или папки. Особо актуальные для вас страницы могут быть выведены на панель закладок, которая расположена под адресной строкой. Для этого на сайте, который хотите добавить в закладки, наведите мышь на символ планета в левом краю адресной строки и тащите на панель закладок. Кроме того, можно закрепить любую активную вкладку, чтобы при последующих загрузках браузера она присутствовала в открытом окне браузера (щелкнув на вкладке страницы правой кнопкой мыши и выбрав команду Закрепить вкладку в контекстном меню).
В качестве примера посетите сайты:
http://elibrary.ru/defaultx.asp
www.gmail.com
http://www.livejournal.ru/
www.blogger.com
Поиск информации в Интернет
После установки и настройки всего необходимого программного обеспечения вы можете путешествовать по узлам Интернета. Однако для того, чтобы найти конкретную информацию нужно изучить основные приемы поиска информации на серверах Web. Для этого в Интернете существует большое число поисковых серверов и рубрикаторов. На поисковых серверах хранится информация о миллионах узлов, расположенных в разных странах. Когда в Интернете появляется новый сервер Web, он регистрируется на нескольких поисковых системах. При этом с каждым сервером Web связывается некоторый набор ключевых слов, по которому его можно найти. Ключевые слова выбирает разработчик регистрируемого сервера Web. Что нужно знать, прежде чем начинать поиск? Главное – четко представлять, что конкретно необходимо найти. Обычно поисковые серверы предлагают пользователю ввести одно или несколько ключевых слов, по которым и выполняется отбор информации. Иногда дополнительно можно указать предметную категорию поиска, а также срок давности появления информации в сети. Существуют, как правило, два режима поиска – стандартный и расширенный. В первом, ключевые слова надо просто перечислить в форме запроса. Расширенные режимы поиска позволяют указывать, какие ключевые слова должны появляться в найденных документах, а какие – нет. Кроме того, в расширенных режимах можно задавать дополнительные параметры поиска. При неудачном выборе ключевых слов вы получите в результате поиска либо слишком много, либо слишком мало ссылок. В некоторых случаях найденные ссылки не имеют никакого отношения к искомым сведениям. Поэтому для более удачного поиска необходимо изменить ключевые слова или их комбинацию, конкретизировав поиск. По рубрикатору вы найдете главную страницу сервера, содержащего информацию по выбранной теме. Далее вам придется исследовать содержимое страниц сервера, чтобы обнаружить нужную информацию. Поисковые серверы, напротив, предоставляют вам список ссылок на страницы серверов Web, содержимое которых удовлетворяет условиям поиска.
Современные поисковые машины представляют собой комплекс специальных программ, предназначенных для поиска информации в Интернете. Принцип их работы состоит в следующем: время от времени они просматривают веб-страницы и регистрируют появившиеся там изменения. На этой основе создается база данных ссылок на веб-страницы. При ее формировании поисковые машины обращают внимание на некоторые дополнительные элементы, например: как часто встречается слово на странице, выделено ли оно, сколько ссылок на данный документ есть на других сайтах и др. Все эти сведения также будут учитываться при поиске. Из-за необходимости постоянного обновления информации поисковые машины время от времени возвращаются к просмотренным ранее веб-страницам, чтобы найти и зарегистрировать возникнувшие там изменения. Например, когда робот поисковой машины Google посещает сайт, он обращает внимание на две характеристики: слова на странице и место их расположения, то есть в какой именно части страницы они находятся.
Обнаружив список адресов и соответствующих им ключевых слов, робот-поисковик сохраняет эту информацию в своей базе данных. При этом сохраняется информация о количестве (частоте) упоминаний слова на странице с использованием некой величины — «веса» слова. Как раз на основе этих данных поисковая машина формирует списки ссылок, упорядоченные по весу слов поискового запроса, а также с учетом его местонахождения (в ссылках, метатегах, заголовке страницы и т. п.). Следует заметить, что у каждого коммерческого поисковика есть своя формула для вычисления веса ключевых слов при индексации. Это одна из причин, почему по одному и тому же запросу поисковики выдают разные результаты. Пользователь, работая с поисковой машиной, задает запрос, в результате которого машина формирует список ссылок, упорядоченных по релевантности. Релевантность — это степень соответствия найденной страницы поисковому запросу. Поисковые механизмы на первых местах списка располагают документы, которые содержат максимум слов из поискового запроса. Найденные ссылки сортируются в зависимости от местоположения ключевых слов (в заголовке, в начале текста или в первых параграфах) и частоты их использования в тексте. Таким образом, вверху размещены ссылки на сайты, в которых искомые слова встречаются чаще всего. Поэтому основная задача пользователя во время поиска в Интернете — получить список ссылок, которые соответствуют поисковому запросу.
Основную смысловую нагрузку в поисковом запросе несут имена существительные, гораздо реже — имена прилагательные, а вот использование глаголов почти бесполезно. Таким образом, для эффективного поиска информации в первую очередь необходимо подобрать для запроса именно те слова, которые действительно несут основную смысловую нагрузку. У каждой поисковой машины своя уникальная методика поиска, от эффективности которой зависит успех поисковика: чем больше релевантность полученного списка ссылок, тем выше успех на рынке поисковых машин. Механизм поиска не только хранится в секрете, но и регулярно меняется. В настоящее время все поисковые механизмы ищут документы не только по строгому соответствию введенному запросу — все поисковые машины, которые работают с русскоязычными запросами, умеют проводить морфологический поиск. Это означает, что поиск осуществляется по всем формам слов, заданных в запросе, а также с учетом синонимов (то есть не только в определенном падеже и числе, но и в других). Согласно общей классификации, поиск разделяют на простой, расширенный и сложный. Чаще всего большинство пользователей используют первый вариант. Принцип его использования состоит в формулировании запроса и получении списка ссылок, соответствующих ему. Самая важная задача этого этапа — правильно подобрать слова для поискового запроса. Они должны быть, во-первых, характерны для документов, которые вы ищете, а во-вторых, не характерны для нерелевантных документов.
При использовании нескольких слов в поисковом запросе нужно знать, как именно будет производиться поиск — по каждому из слов в отдельности или же по всему запросу в целом. Ответ на этот вопрос зависит от того, какой логический оператор используется по умолчанию при обработке запроса. Это может быть один из двух операторов: AND (поиск по всем словам) или OR (по каждому в отдельности). Обычно поисковые машины по умолчанию используют первый вариант. Это означает, что в ответ на запрос “вариационные методы механики” (например в браузере Google Chrome это словосочетание можно ввести непосредственно в адресную строку или строку поиска главного окна Google рис.8.1.) поисковик будет искать сайты, в которых это словосочетание встречается полностью. Для использования других логических связей необходимо применить другие логические операторы. Их синтаксис обычно уникален в каждой поисковой машине.
Рис. 8.1. Главное окно поисковика Google
Расширенный поиск (Advanced Search) позволяет получить меньше ссылок, чем простой, но при этом их релевантность значительно повышается. В большинстве поисковых машин эта функция реализована. Для этого предназначена специальная ссылка на главной странице, по которой переходят на страницу расширенного поиска. В данном режиме с помощью специальных средств можно задать более точные критерии отбора и уточнить область поиска. В этом случае расширенным является только набор критериев, а вот область поиска в большинстве случаев существенно сужается.
Расширенный поиск в Google позволяет следующие значения для поиска (рис. 8.2.):
со всеми словами — в этом режиме поиска формируется список всех индексированных страниц, содержащих все ключевые слова в произвольном порядке. При этом сохраняется вероятность получения результатов, не соответствующих поисковому запросу.
с точной фразой — в данном режиме поиска составляется список страниц, содержащих фразу, точно совпадающую с ключевой, знаки препинания при этом игнорируются. Обычно поиск точной фразы будет проводиться, если поисковый запрос взять в кавычки.
с любым из слов — в результате поиска составляется список всех индексированных страниц, содержащих любое из слов поискового запроса. Нередко в этом случае число полученных ссылок огромно. Поиск по любому слову может быть удобен в случаях, когда пользователь не уверен в правильности подбора ключевых слов. Например, если вы точно не знаете, как называется какой-то термин, введите оба названия.
без слов — если вы хотите исключить некоторые слова из результатов поиска, укажите их в данном поле.
Рис. 8.2. Окно расширенного поиска Google
Большинство поисковых машин в параметрах расширенного поиска позволяют ограничить найденные ссылки рядом других параметров. Например, вы можете задать поиск страниц только на одном языке (параметр язык), ограничить сайты определенным диапазоном дат обновления (параметр Показывать страницы за). Кроме этого, можно задать поиск документов определенного типа (HTML, DOC, RTF, PPT или PDF-файлов) — параметр результаты с файлами в формате. Многие поисковые машины позволяют ограничить поиск фрагментом страницы. Например, вы можете указать, что фраза поискового запроса может встречаться только в заголовке страницы или в основной части, в адресе или в любом месте страницы — это можно сделать с помощью параметра Показывать ре-зультаты, содержащие слова запроса. Еще одно удобное решение, доступное среди параметров расширенного поиска, — возможность искать фразу поискового запроса на определенном сайте, позволяющая получить список документов с одного сайта, соответствующих запросу.
Сложный поиск в Google предусматривает возможность использования особенностей языка поисковых запросов. Он является уникальным по своему синтаксису для каждой поисковой системы, но его возможности схожи. Вот наиболее популярные задачи, которые можно решить с помощью сложного поиска. Если вы хотите, чтобы найденные ссылки содержали точную фразу поискового запроса, то ее следует заключить в кавычки. Если в найденных документах должно быть несколько слов из поискового запроса, то необходимо применить логический оператор И (AND). При работе в Google ему соответствует знак +. Таким образом, запись: электронный + магазин, в строке поиска, будет означать поиск сайтов, в состав которых вошли оба слова поискового запроса. Если в полученных ссылках должно быть хотя бы одно слово поискового запроса, то необходимо использовать оператор ИЛИ (OR). В Google для этого необходимо указать слово or. Если вы хотите из результирующего списка ссылок исключить документы с определенными словами, то для этого вам необходимо применить логический оператор НЕ. В Google используют символ –. Оператор НЕ нужно вводить после слова через пробел слитно с необязательным словом. Например: запрос карта Парижа – агентство|тур позволит найти карту, а не туры по Франции.
С подробностями использования поиска в Google можно познакомиться по адресу http://www.google.ru/support/?ctx=web.
Для поиска в Интернете можно использовать следующие поисковые системы: http://www.google.com.ru; http://www.yandex.ru; http://www.aport.ru; http://www.excite.com; http://www.yahoo.com.
Подробно узнать о поисковых возможностях каждого из серверов можно, загрузив главную страницу сайта, и обратившись к системе помощи (help).
- Министерство образования Республики Беларусь
- Введение
- Лабораторная работа № 1 математические основы компьютерной техники
- Теоретические сведения
- Содержание отчета
- Контрольные вопросы
- Варианты заданий Вариант 1
- Вариант 2
- Вариант 3
- Вариант 4
- . Вариант 5
- Вариант 6
- Вариант 7
- Вариант 8
- Вариант 9
- Вариант 10
- Лабораторная работа № 2 Устройство персонального компьютера
- Теоретические сведения
- Содержание отчета
- Контрольные вопросы
- Лабораторная работа № 3 Основные объекты и приёмы управления работой оборудования и приложений операционной системы ms Windows Основные объекты и приемы управления ms Windows
- Теоретические сведения
- Порядок выполнения работы
- Содержание отчета
- Контрольные вопросы и задания
- Лабораторная работа № 4 Текстовый процессор Word
- Теоретические сведения
- Практическая часть
- Теоретические сведения
- Практическая часть
- Практическая часть
- Практическая часть
- Практическая часть
- Содержание отчета
- Контрольные вопросы
- Варианты заданий Вариант 1
- Вариант 2
- Вариант 3
- Вариант 4
- Вариант 5
- Вариант 6
- Вариант 7
- Вариант 8
- Вариант 9
- Вариант 10
- Лабораторная работа № 5 Электронные таблицы Excel
- Теоретические сведения
- Практическая часть
- Контрольные вопросы
- Варианты заданий
- Теоретические сведения
- Практическая часть
- Содержание отчета
- Сортировка и фильтрация данных. Создание связанных таблиц Теоретические сведения
- Практическая часть
- Контрольные вопросы
- Варианты заданий Вариант 1
- Вариант 2
- Вариант 3
- Вариант 4
- Вариант 5
- Вариант 6
- Вариант 7
- Вариант 8
- Вариант 9
- Вариант 10
- Создание макросов Теоретическая часть
- Практическая часть
- Варианты заданий
- Контрольные вопросы
- Решение задач в Excel с помощью средств «Поиск решения» и «Подбор параметра» Теоретические сведения
- Практическая часть
- Содержание отчета
- Контрольные вопросы
- Варианты заданий
- Лабораторная работа № 6 Система управления базами данных Access
- Система управления базами данных Access. Создание таблиц в режиме Конструктора. Создание связей между таблицами Теоретические сведения
- Практическая часть
- Контрольные вопросы
- Теоретические сведения
- Практическая часть
- Контрольные вопросы
- Теоретические сведения
- Практическая часть
- Контрольные вопросы
- Теоретические сведения
- Практическая часть
- Контрольные вопросы
- Порядок выполнения работы
- Контрольные вопросы
- Содержание отчета
- Задания
- Индивидуальные вопросы
- Лабораторная работа № 8 Основные понятия и сервисы глобальной компьютерной сети Internet. Принципы организации, серфинга, поиска, получения и передачи информации
- Internet. Web-серфинг. Поиск информации в Интернет Теоретические сведения
- Контрольные вопросы
- Служба e-mail Теоретические сведения
- Порядок выполнения
- Передача файлов по Интернету (протокол ftp) Теоретические сведения
- Порядок выполнения работы
- Контрольные вопросы
- Задания по использование электронной почты и www
- Создание сайтов в uCoz Теоретические сведения
- Практическое выполнение работы
- Содержание отчета
- Варианты заданий Вариант 1
- Вариант 2
- Вариант 3
- Вариант 4
- Вариант 5
- Вариант 6
- Вариант 7
- Вариант 8