Иван Бегтин

Проверенный чёрт

Previous Entry Share Next Entry
О распределённых поисковых машинах, Enabot и HyperTable
ivbeg

Весьма интересное в загадочном боте EnaBot (http://www.enaball.com/crawler.html) - это то, откуда он приходит - ec2-67-202-55-112.compute-1.amazonaws.com

А это не что иное как Amason EC2, не удивлюсь если при таком раскладе и база хранится в Amazon S3 и Amazon SimpleDB, наверняка не скажешь, но по логике и производительности это должно быть быстрее чем держать свою распределённую базу. Мне вспомнилась одна из обзорных статей по Simple DB - несмотря на сильно упрощённые интерфейсы, это одна из наиболее сильных воплощённых идей. Я ещё раз хочу повторить своё предсказание что рано или поздно IBM купит Amazon. Это, однозначно, их актив.

Из других интересных поисковых технологий трудно не обратить внимание на Hypertable, реализацию аналога BigTable от Google в открытых исходных кодах и под GPL v3. Мне, правда, до сих пор не вполне ясно чем эта разработка превосходит HDFS (HaDoop File System), но думаю что отличия есть раз такая разработка появилась.

Чуть отвлекаясь от технических вопросов и переходя к бизнес модели стоит обратить внимание что не просто так BigTable была и есть закрытая разработка Google которую они и не планировали раскрывать. Это то что можно назвать ключевой технологией, конечно, одной из, но тем не менее важной. Простота и доступность аналогов значительно повышают возможности построения своих поисковых машин конкурентами. Если использовать связку Hadoop + Nutch + HyperTable или же адаптированный индексатор с бэкэндом на Amazon Simple DB, то планка вхождения новых игроков на рынок поиска значительно снижается.

Более того я подозреваю что рано или поздно конкуренция тут начнётся исключительно на алгоритмическом уровне и способности к применению алгоритмов семантического веба. Например, как это делают в немецком поисковике Semager , подробнее о нём можно прочитать в переводе на английский черезе Google Translate - http://urlus.ru/u/11

Другая, интересная идея в извлечении онтологической модели из выбранного текста. Например, в одном из планов Wikia было использование Text2Onto. Пример когда довольно сложные разработки по обработки текстов постепенно находят технологическую реализацию. В одном я точно согласен с авторами, семантизация должна обеспечиваться не людьми, а алгоритмами.

Ещё одна тенденция - это рост популярности распределённых поисковых роботов, работающих на принципах  P2P. У такого подхода есть свои ощутимые плюсы - возможность индексации даже тех сайтов которые этому всячески сопротивляются. Невозможно заблокировать индексацию по IP адресу, необходимы фильтры по числу обращений в период времени, а они есть не у всех сайтов.

Навскидку только те что я знаю.

  • Yacy.net - open source GPL2
  • Grub - open source, GPL, используется в Wikia Search
  • Majestic12 - как я понимаю разработка на C# с  приличным объёмом проиндексированных страниц. Весьма интересно как как они организуют хранение данных, ибо данных там огого. У них же интересная задумка - Majestic SEO, показ обратных ссылок, как раз того что ведущие поисковики сейчас блокируют.

Итого суммарно 3 тенденции:

  • упрощение создание своей поисковой системы с нуля - появление услуг обеспечения инфраструктуры для подобных систем;
  • внедрение семантических алгоритмов анализа текстов;
  • использование распределённых поисковых роботов;

И  один вывод - технологии популяризируются и меняются. Ситуация в которой сейчас находится Майкрософт, когда несмотря на понимание и желание выхода на рынок SaaS это желание сдерживается значительной инертностью текущей структуры доходов, в итоге им приходится идти на риск приобретения Yahoo.

Точно также в случае появления “чёртей из табакерки” новых поисковиков обладающими всеми вышеперечисленными возможностями, поисковая монополия Гугла может сойти на нет. Когда алгоритмы, объёмы данных и инфраструктура конкурентов выравниваются, то начинается ничто иное как война “брендов”, а это то нечто на что нужны лишь деньги.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.


HyperTable -- это распределенная база данных (аналог BigTable)
HDFS -- это распределенная файловая система (аналог GFS -- Google File System)

Вообще, появление Amazon EC2 -- это знаковое событие. Причем Амазон лишь открыл рынок, за ним потянутся и другие, например: http://www.enomalism.com/features/next-generation

Насчет поиска, я слышал о случае, когда программист из New Year Times запустил на EC2 обработку всего архива NYT, чтобы то ли найти что-то, то ли переформатировать. Легко. Задачи любой вычислительной мощности становятся доступны для "простых людей".

Насколько я помню программист не только запустил задачу на EC2, но и использовал для этого как раз Hadoop.

Поэтому не удивлюсь если вскоре Amazon начнёт предоставлять услуги EC2 сразу с Hadoop'ом. В последнее время это весьма востребованно.

Ну, я бы не сказал. Классов задач, которые эффектинво решаются через MapReduce не так много. Это не массовый рынок.

Это тот же рынок что и EC2. Смысл в нём не в миллионах клиентов по 10 долларов, а в тысячах с тысячами долларов. Такой подход вполне сможет потеснить университеты и компании предоставляющии процессорное время за деньги.

Э нет, не соглашусь. Миллион клиентов по 10 долларов гораздо ценнее, чем 1000 по 1000. Именно поэтому они делают публичный сервис, а не продают Cloud-решение напрямую крупным заказчикам.

You are viewing ivbeg