Ржевский Дмитрий Rzhevskiy Dmitry
hadoop livejournal
Недавно я установил дома распределённую и масштабируемую базу даных hadoop и в качестве эксперемента я написал задачу для анализа livejournal.com
Ходя по ссылкам я находил сайты с поддоменами livejournal.com
всего обнаружилось 796 тыс аккаунтов. (вообще их должно быть больше). Также посчитал сколько у кого находится в друзьях(ссылки из профилей).
в скаченном множестве такая статистика:
больше всего ссылок у
http://cheaptrip.livejournal.com - на него 9929 ссылок это сообщество.
среди обычных пользователей лидирует http://drugoi.livejournal.com/ на него 8967 ссылок
[Read More]
Posted at 01:52AM янв 08, 2012 by Дима in Java | Комментарии[0]

