Rambler's Top100
 
 
  08 января 2009 года Компьюлента
CIO
Терралаб
Бизнес-журнал
в поле зрения | обзоры и тесты | своя игра | интерактив | блоги | readitorial
Ищут пожарные, ищет милиция...
Автор: Михаил Брауде-Золотарев
Опубликовано в журнале "Компьютерра" №25 от 22 июня 1999 года

Поделитесь секретами мастерства! Как вы ищете в Сети? Как выбираете поисковую машину? Как находите ключевые слова? Как сортируете тот поток, который она на вас в ответ обрушивает?

Справиться с объемом исключительно трудно. Считается, что в день к имеющимся в Сети трем-четырем сотням миллионов страничек добавляется около миллиона новых общим объемом около 20 Гбайт. За пару лет информационный объем Сети возрос на несколько порядков, и несчастные пользователи в буквальном смысле перегружены информацией.

Бросая через плечо, - "воспользуйся любой поисковой машиной" (которые, кстати, индексируют лишь около 30-40 процентов ресурсов Интернета), - на вопрос неопытного приятеля: "а где об этом и о том можно узнать?", - ловишь себя на мысли, что не очень-то красиво так небрежно отмахиваться от человека. Легко сказать "воспользуйся", ведь иной раз иголку в стоге сена найти проще (которую, кстати, можно пытаться магнитом поискать, а вот попробуйте найти магнитом нужную соломку в стоге сена).

Образовалась целая культура - как искать, как сортировать, как отбрасывать лишнее, осталось только проводить "поисковые" соревнования по сетевому ориентированию по аналогии с ориентированием спортивным. Нечто подобное, кстати, имеет место по адресу... впрочем, вы и сами легко его найдете.

А ведь за ставшими привычными словами об информационном росте Интернета скрывается смена концепции: вместо поиска способов доступа к нужной информации постепенно и подспудно цифровой мир переходит на отбраковку, фильтрацию ненужной. Грубый и примитивный шпионаж все больше замещается аналитикой, работающей преимущественно с открытыми источниками, - что у любознательных фирм, что у государств. Дешевизна копирования и практическая трудность привязки информации к носителю резко увеличивают вероятность наличия любого ресурса в открытом доступе...

В свое время было предпринято несколько попыток спроектировать "машины" полностью ручного поиска, в которых интеллектуальную часть работы выполняли бы спорые руки человека. На вопрос, можно ли таких на все руки мастеров отыскать, да еще чтобы на всех хватило, я вам отвечу: конечно, нет, хотя о паре попыток слышал, а одной (студенты какого-то американского университета вручную обрабатывали запросы и делали по ним сводки; видимо, то была курсовая или дипломная работа, так как после выпуска проект благополучно закрылся, и я потерял его следы) несколько лет назад даже пытался воспользоваться. Пример самой популярной в Сети искалки-рубрикатора - Yahoo, каталог ресурсов в которой поддерживается вручную несколькими десятками операторов, тем не менее, свидетельствует в пользу "ручных" или "полуручных" методов.

Вчера, потратив около пяти минут, я нашел целых три ручных поисковых ресурса, из которых один на запросы не откликался, другой больше ничего не ищет и продает свое доменное имя, а третий всего лишь предлагает посетителям отвечать на запросы друг друга, поддерживая своеобразный рейтинг наиболее успешных ищеек-активистов. Среди самых популярных вопросов - о смысле жизни и как приворожить полюбившуюся особу...

Затем, просматривая научные публикации об автоматизированной интеллектуальной обработке больших объемов информации, я обнаружил, что в статьях в каждой второй строчке содержится заветная цель-лозунг, похожая на заклинание: "avoid irrelevant" ("избегать нерезонного"). Ядро поисковой системы Clever (не единственный, но наиболее известный среди проектов интеллектуальной обработки, ведомый, кстати, IBM) непосредственно оперирует этой идеей, упрощенно состоящей в разбиении операции поиска на две части: начальный сбор ресурсов по заданным пользователем ключам (вполне стандартная процедура) и - на втором этапе - их анализ на резонность и сортировка на две группы - "авторитетных" ресурсов и "мусора". Опять-таки упрощая (ухищрений придумано довольно много, и их реальная полезность выявится только в процессе эксплуатации), можно сказать, что для отнесения ресурса к авторитетным сайты первого круга должны "голосовать" за него своими гиперссылками. Затем отобранные таким образом "авторитеты" собственными гиперссылками становятся источниками новых, потенциально резонных ресурсов. В качестве математического аппарата используются стохастические методы, моделирование Сети в качестве многоузлового графа и многое другое... На бумаге и экране идея смотрится красиво и просто... Если заинтересовались - ищите в Сети подробности (а также см. новость в этом номере "Продажный каталог").

Кстати, ключевая идея описанной методики очень напоминает принятый в научном мире способ вычисления "авторитета" ученого путем подсчета числа обсуждающих его публикации статей (заметьте, числа обсуждений публикаций, а не самих публикаций!).

А у нас (как и у вас, вероятно) лето в разгаре, жарко (очень!), редакция разъезжается - никакая искалка найти не поможет. Не успел один "турист" вернуться из Тайваня, а другой из Калифорнии, как очередной путешественник отправился в Тунис... И ведь, что самое обидное, уверяют, будто едут в командировки, то есть работать. Но фотоаппараты с собою берут, а потому ждите в ближайших номерах фото- и иных отчетов из дальних стран. Начиная прямо со следующего.



Несколько интересных ссылок:

searchenginewatch.com/facts/index.html

www.humansearch.com

www.almaden.ibm.com/cs/k53/clever.html

http://cuiwww.unige.ch/meta-index.html



ТАКЖЕ В РАЗДЕЛЕ
09 декабря 2008 года
Черный список 
25 ноября 2008 года
Интерфейс как костыль 
18 ноября 2008 года
На месте 
11 ноября 2008 года
Хеппи-энд 
04 ноября 2008 года
Со стороны 
 
Внимание, конкурс!
Компания Zotac и портал Terralab объявляют о старте литературного конкурса "Game-Муза". Лучшие работы будут опубликованы, а их авторы - отмечены ценными призами. Читайте условия, играйте, участвуйте и побеждайте!

В новом разделе ReaDitorial каждый читатель может испытать себя в качестве автора "Компьютерры". Ваши статьи прочитают десятки тысяч гостей портала, а по итогам месяца лучшие получат призы. Самый короткий путь в "Компьютерру" лежит через ReaDitorial.

САМОЕ ПОПУЛЯРНОЕ
О любви с первого клика
Андрей Бронецкий, генеральный директор самой популярной русскоязычной службы знакомств - "Мамба", рассказал об основах создания стартапов, рекламе интим-услуг, системе модерации, структуре доходов и, конечно, ответил на ваши вопросы.
Кубышка, Пуск и Вылезайка
Пакую саквояжи и рюкзаки - через два дня увожу семейство до весны в блаженную гималайскую обитель. Напоследок захотелось написать круто полезную "Голубятню": да так, шоб и повидло текло в правильное горло, и айтишная струя легла в прагматику.
Подарки, которых не будет
Рассказ о гаджетах, которые, быть может, хотелось получить на Новый год, но которые в ближайшее время получить не светит. По каким причинам? Их продажи в мире едва начались или начнутся уже после праздников.
Назад к девственности
Воспользовавшись выходом iPhone, операторы в который раз хотели попробовать начать играть серьезную роль на рынке сотовых телефонов, но, увы, не получилось. Впрочем, попытки продолжаются.
На дворе праздники, народ лепит снеговиков, а вы-то тут какими судьбами?







  
/  бумажный номер

Тема номера: Без попкорна Читайте на сайте тему номера "Без попкорна" и другие статьи из журнала "Компьютерра" от 09 декабря 2008 года
  Архив номеров журнала

О проекте | Реклама на сайте | Рассылки сайта | КПК–версия | RSS-трансляция

© ООО «Компьютерра–Онлайн», 1997 — 2008.
При цитировании и использовании любых материалов ссылка на портал «Компьютерра–Онлайн» обязательна (для Интернет–изданий — www.computerra.ru)
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Редакция журнала: inform@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232–22–61, (495) 232–22–63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером «СПАМОРЕЗ»

Сайт работает на сервере DEPO Computers
Rambler's Top100