Иван Бегтин ([info]ivbeg) wrote,
@ 2008-08-04 07:48:00
Previous Entry  Add to memories!  Tell a Friend!  Next Entry
Entry tags:web, алгоритмы, информация, поиск

Анонс: Преобразование новостных лент из HTML в RSS в закрытом тестировании

Введение

Часть из моих предыдущих исследований дошла до результата и сейчас, наконец-то, есть показать наглядно, а не только на уровне рассуждений.

Про сервис Page2RSS я упоминал в своём блоге уже неоднократно - это такой удобный сервис отслеживания изменений на веб страницах, но не без недостатков так как с его помощью можно отследить только страницу в целом и не более. Поэтому у меня и зародилась идея отслеживать не просто изменения, но превращать записи из новостной страницы в RSS напрямую.

Анонс

Пока в закрытом тестировании - сервис извлечения новостной ленты из любой веб страницы.

Вы передаёте в качестве параметра URL страницы, алгоритм, если находит там новости, то формирует RSS ленту и возвращает на неё ссылку, если не находит, то упоминает что лента не найдена.

Чтобы принять участие в тестировании необходимо мне отправить письмо на ibegtin (собачка) gmail.com, я пришлю ссылку на сервис. Настоятельная просьба никому эту ссылку не передавать - поскольку проживёт она относительно недолго, ориентировочно месяц и ресурсы оборудования не безграничны.

При использовании помним о том что у разных сайтов свои требования к допустимости использования информации и Вы на себя за это использование берёте полную ответственность, а сервис лишь предоставляет интерфейс.

Особенности и ограничения

Как и у каждого алгоритма есть ряд специфичных особенностей:

1. Алгоритм заточен под Рунет и русский язык. Возможно что он сможет распознать новости на других языках, но тут никаких гарантий нет поскольку это не проверялось.

2. Если на странице есть несколько новостных потоков, то каждый из них рассматривается как независимый RSS канал, но в целях упрощения сейчас эти потоки собираются в один и уже так отдаются пользователям. В будущем это можно будет изменить до выдачи пользователю несколько RSS каналов.

3. Сейчас для работы алгоритма необходимо чтобы у каждой новости на странице была написана дата (в любом формате) поскольку она необходима для указания даты в RSS канале. В будущем возможно формирование ленты по новостям и без даты, подставляя дату обработки страницы, но это требует куда большей осторожности с интерпретацией результатов.

4. Поскольку формирование RSS ленты довольно ресурсоёмко, то сейчас все каналы кешируются на период в 2 часа.

5. Поскольку бета, то ошибки были и должны быть. Прошу если такие выявятся - как то неправильное распознавание или нераспознавание новостей, то направлять их мне по e-mail выше.

6. Какая-либо автоматическая выгрузка и индексирование поисковиками сейчас ограничены и в случае обнаружения будут банится.

Технология

В текущей реализации я отступил от своего правила что больше информации - лучше алгоритмы и данный алгоритм довольно короток по реализации и сложен по логике. На сей раз алгоритм работает используя ряд универсальных правил.

Фактически этот алгоритм это “хвост от белки”, но ещё не сама белка. Иначе говоря это лишь практический пример применимости глубокого анализа HTML на практике, есть и другие примеры, но они не столь наглядны.

Примеры

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.




(Post a new comment)


[info]vtv
2008-08-04 08:46 am UTC (link)
Прямо материализация моих чаяний какая-то! :)

(Reply to this) (Thread)


[info]ivbeg
2008-08-04 09:02 am UTC (link)
Это только начало, будет и продолжение:)

(Reply to this) (Parent)


[info]radar_contact
2008-08-04 11:17 am UTC (link)
Что, если сайт уже отдает фид?

Почему RSS а не ATOM?

В итоге это будет нечто похожее на Yahoo Pipes?

(Reply to this) (Thread)


[info]ivbeg
2008-08-04 11:24 am UTC (link)
Если сайт уже отдаёт фид, то ему такой сервис и не нужен, это инструмент для сайтов которые RSS не предоставляют по тем или иным причинам.

Можно RSS, можно ATOM, можно JSON, можно произвольный XML или CSV. Внутри используется JSON, а наружу можно отдавать всё что угодно.

Я пока не могу сказать что будет в итоге поскольку есть несколько вариантов и сейчас рассматриваются все. Для создания аналога Yahoo Pipes необходимы серьёзные инвестиции, есть вариант с построением поисковика по созданным RSS лентам, есть и другие идеи. Скорее это будет нечто вроде онлайн инструментария - связанной коллекции веб сервисов.

(Reply to this) (Parent)

Преобразование
[info]dan_rastor
2008-08-27 01:21 pm UTC (link)
Что, лучше чем Dapper?

(Reply to this) (Thread)

Re: Преобразование
[info]ivbeg
2008-08-27 01:23 pm UTC (link)
Про лучше не утверждаю - оно другое.
В Drapper'е необходимо формировать RSS вручную, здесь автомат.

(Reply to this) (Parent)(Thread)

RSS вручную, здесь автомат
[info]dan_rastor
2008-08-27 01:31 pm UTC (link)
Идея хорошая, но коммерческой перспективы нет

(Reply to this) (Parent)(Thread)

Re: RSS вручную, здесь автомат
[info]ivbeg
2008-08-27 01:46 pm UTC (link)
А этот сервис и создавался изначально не под прибыль, а под проверку алгоритмов в действии. Коммерческая переспектива будет в других сервисах на его основе, но об этом пока ещё рано говорить.

(Reply to this) (Parent)(Thread)

RSS
[info]dan_rastor
2008-08-27 02:07 pm UTC (link)
А зачем делать какому-то сайту бесплатно RSS и продвигать его контент?
Для дела лучше бы как в Яндекс-новостях, ввел слово и получил готовый RSS, но не в Яндекс-ленту, а куда надо.

(Reply to this) (Parent)

Re: Преобразование
[info]sta_lex
2008-10-09 09:28 pm UTC (link)
меня бы устроил и ручной вариант, если бы он, зараза, показав, что может работать, вдруг показывает фигу

(Reply to this) (Parent)


[info]serenkaja
2008-09-03 11:22 am UTC (link)
какие новости с сервисом? очень хотелось бы попробовать...

(Reply to this) (Thread)


[info]ivbeg
2008-09-03 11:28 am UTC (link)
Посмотреть его в работе можно хоть сейчас, оставьте Ваше e-mail или перешлите мне его на ibegtin (собачка) gmail.com.

Рабочий сервис ориентировочно будет в начале октября.

(Reply to this) (Parent)(Thread)


[info]serenkaja
2008-09-03 11:30 am UTC (link)
написала письмо :)

(Reply to this) (Parent)


Create an Account
Forgot your login?
Login w/ OpenID
English • Español • Deutsch • Русский…