Иван Бегтин

Проверенный чёрт

Previous Entry Share Next Entry
Инфографика речей Медведева с коррекцией на нормальные формы слов
ivbeg

Как Вы помните я совсем недавно размещал карты слов/тэгов по речи Медведева у себя в блоге. Это такая довольно забавная инфографика сгенеренная с помощью Wordle и многим она нравится.

Но, с этой инфографикой есть одна небольшая но существенная проблема. В русском языке слова в зависимости от падежа и других способах их изменения меняют своё написание. В результате если в тексте упоминается общество как слово «общество» и как слово «обществу» и как «обществом», то это будут разные слова и итоговую частоту упоминания не словоформы, а смысла мы теряем. И единственный способ это преодолеть – это подсчет упоминаемости не слов, а их нормальных форм.

Ну а поскольку я периодически и сам берусь за клавиатуру дабы не потерять навыки, то буквально за час я набросал скрипт который использовал движки PyTagCloud для визуализации и pymorphy для приведения слов к нормальным формам. Причем из этого часа больше половины времени ушло на то чтобы подобрать хорошую визуализацию.

Как всегда, в роли экспериментальных кошечек использовались речи Дмитрия Медведева, что, впрочем, не должно ограничивать других в экспериментах над другими речами.

Итак, я подобрал несколько примеров. В каждом случае вначале буду приводить картинку без нормализации слов и потом из нормальных форм слов

Дмитрий Медведев выступил на конференции «Великие реформы и модернизация России» - http://www.kremlin.ru/transcripts/10506

Текст как есть без нормальных форм

Текст с нормальными формами слов

Послание Президента Федеральному Собранию 30 ноября 2010 года – http://www.kremlin.ru/transcripts/9637

Текст как есть без нормальных форм

Текст с нормальными формами слов

Послание Федеральному Собранию Российской Федерации 12 ноября 2009 года – http://www.kremlin.ru/transcripts/5979

Текст как есть без нормальных форм

Текст с нормальными формами слов

Как видите во всех случаях ключевые слова речи меняются. Например, в речи про реформы без приведения слов к нормальной форме, слова «страна» и «свобода» были лишь одними из ключевых, а после приведения слов они стали самыми ключевыми. В остальных случаях каждый может посмотреть самостоятельно что да как.

А исходный код можно посмотреть вот здесь – https://github.com/ivbeg/ruspytagmap, там же желающие и обладающие навыками работы с Python’ом могут, и просто поиграться с текстами, и сделать русский аналог Wordle.

Originally published at Иван Бегтин. You can comment here or there.


  • 1

чайнеговый вопрос

этот вордл есть онлайн, или гдета можно качнуть ?
чтобы пользовать
есличо я на юбунте

Re: чайнеговый вопрос

На Wordle я ранее давал ссылку - http://www.wordle.net/

туда какта забрёл щас

но у меня не получилось
там надо plain text ?

Если я правильно понимаю, отражается только частотность?

Отображается по принципу: слово + вес.
Обычно вес считается по частотности упоминаемости слова, но, безусловно, при наличии идей можно использовать и другие показатели.

А что за слово xix ?

Смотрите оригинальный текст, оно там встречается и по контексту будет понятно.

идея для инфографики про балабольство

Хорошо бы научить систему цветом отображать "градус перемен" учтённого термина.

Так у "расстрелы", "Днепрогэс" и "Беломорканал" - их цвет красный,
"должен" - цвет розовый,
а у "культура", "российский", "человек" - он серый.

Или по нескольким векторам (но читаться будет хуже) красить, и как указанно выше и плюс в "крапинку".

"Беломорканал", "Президент" - в ярко синий, как имеющий отношение к должности говорящего и его компетенции.
"Доступ", "услуга" - в голубой, как переходные мостики между гос и гражданским миром.
И "каждый", "гражданин", "человек" - в серый, как обратные высшей государственной должности говорящего позиции.

Кроме того, читаем мы сверху вниз - потому помещать менее значимые обстоятельства - выше более значимого обстоятельства - не следует.

В совокупности должно выглядеть как дождь.
Что-то грозное сверху, огромная туча и постепенно визуально дробиться и снижается преобразуется по направлению к земле. Причём "струи" тоже можно, с учётом близости контекста терминов, расставить не случайным образом, а соподчинённым.

Навроде:

"Беломорканал"
Танки, экскаваторы, ВОХР, баланда
Каждый, должен, гражданин

Падают-падают-падают.

Re: идея для инфографики про балабольство

главная беда в этом в том что автоматизировать подобное сложно. Привязка к смыслу слов требует человека который бы её осуществлял. В итоге придется "красить слова" к каждому тексту. Это весьма накладно.

Re: идея для инфографики про балабольство

По смыслу, "чей это объект?" Президента или гражданина - скорее требует, да.
А по близости, чисто для формирования "дождя" http://www.analyst.ru/index.php?lang=rus&dir=&id=body&left=menu.txt вот такие вот штуки вполне справляются.

P.S. Чем получить из обычного, текст где всё приведено к норме?

  • 1
?

Log in

No account? Create an account