Иван Бегтин

Проверенный чёрт

Previous Entry Share Next Entry
Из HTML в RSS и иные форматы
ivbeg

Продолжая тестировать свой алгоритм превращения новостных страниц в RSS каналы могу сказать что как я и ожидал в подавляющем большинстве случаев он работает.

Во всяком случае теперь новости с практически всех федеральных и ряда региональных сайтов я получаю только по подписке и это очень удобно, всего более 40 сайтов. Нехватает только фильтра по ключевым словам для полного счастья, может кто подскажет есть ли такие инструменты фильтрации RSS по ключевым словам?

А вот с различными форумами алгоритм пока не работает, причём в основном по той причине что там несколько иная логика построения списков. На форумах присутствует принцип “время вперёд” когда новые записи добавляются в конец видимых списков, а в новостях и блогах списки идут по принципу “время назад” и отправной точной является текущее время, а вектор направления идёт в прошлое.

Всё это в совокупности затрагивает те теоретические вопросы которые я поднимал в статьях “Мир как поток и совокупность информации”. Форма представления и характер наполнения информационного потока оказывают непосредственное влияние на модель его потребления.

А стратегии структуризации, индексирования и наполнения информационных потоков непосредственно зависят от их характеристик, сравнительно ограниченного перечня метрик определяющих правила и принципы работы данными.

Например, построение поисковой системы по индексированию форумов выявлением блоков которые можно разобрать и представить в виде SIOC - вполне возможно. Вопрос лишь в востребованности такого сервиса.

Ну а технологиями и идеями будущего можно назвать подход по разбору любой веб страницы в совокупность структурных блоков, “объектной карты”. Причём ближе всего к этой теме сейчас подходят поисковики, но судя по тенденциям они стараются не заморачиваться с автоматикой анализа, а пытаются продавить микроформаты, сайтмапы, экспорт данных в RSS, ATOM и других структурных форматах.

Кросспост из Иван Бегтин. Комментарии можно оставлять здесь или здесь.


  • 1
"может кто подскажет есть ли такие инструменты фильтрации RSS по ключевым словам?"

мне тоже интересно, но я додумался только до Yahoo.Pipes

Я думал про Dapper и OpenKapow, Yahoo Pipes тоже подойдёт, но все они тяжеловаты. Задача слишком типовая и частая.

А может HTML 5 как раз и призван решить всю эту проблему с "выявлением блоков" информационных? Ведь там изначально в коде уже всё по категориям и разбито.

HTML5 выглядит очень заманчиво, но до его практического внедрения необходимо дожить - это года/два.
Потом и идти это внедрение будет весьма небыстрыми темпами, не меньше чем лет 5 так что тут пока надежд немного.

Читал что-то на подобее на http://www.searchajax.ru

А прочитать там как что-либо возможно если там только форма поиска?

Это каталог, я же сказал "где-то"...

простите, не сказал )) но подумал :D

Иван, а этот инструмент в открытом доступе появится?

Да, осенью, как только станет понятно с оборудованием и хостингом.

если не секрет на чем написано?
на Perl??

На Python, но язык значения не имеет.

  • 1
?

Log in

No account? Create an account