Ржевский Дмитрий Rzhevskiy Dmitry

воскресенье янв 08, 2012

hadoop livejournal

Недавно я установил дома распределённую и масштабируемую базу даных hadoop и в качестве эксперемента я написал задачу для анализа livejournal.com

Ходя по ссылкам я находил сайты с поддоменами livejournal.com

всего обнаружилось 796 тыс аккаунтов. (вообще их должно быть больше). Также посчитал сколько у кого находится в друзьях(ссылки из профилей).

в скаченном множестве такая статистика:

больше всего ссылок у 

http://cheaptrip.livejournal.com   -  на него 9929 ссылок это сообщество.

среди обычных пользователей лидирует http://drugoi.livejournal.com/ на него 8967 ссылок

 

[Read More]


Дмитрий Ржевский

Тэги:
1912 256 256-ой_день _край a-3 a-3.ru archlinux borodino c3350 cave caves cloud clustecloud coin eagle eclipse engine experiments glusterfs hadoop heroku holiday java java7 jboss jdk7 jelastic jelastic.com job krasnodar_region labinsk linux livejournal lucene lunar new_job new_release paas paraglider pass phone programmer_day ruby samsung samsung_c3350 search supercomputers syany text usage_share xcover а_3 вычисления день_программиста доля_рынка затмение конкурсы краснодарский кутузов лабинск линукс луна лунное_затмение новая новая_работа облако облачные орёл параплан поиск праздник программирование работа распределённая рыбалка система суперкомпьютер телефон файловая ява

Calendar



Feeds

Search

Links

Navigation


  • Я в ЖЖ    
  • MirTesen.ru
  • Я в "Linked In"

  • Мои друзья
  • Алекслёха
  • Latron

  • Links:
    log4j.ru
    Apache Maven
    моё родовое имение
    Виндсёрфинг


    Моё резюме
    My resume


    XFN Friendly

    Поиск