Ржевский Дмитрий Rzhevskiy Dmitry

воскресенье янв 08, 2012

hadoop livejournal

Недавно я установил дома распределённую и масштабируемую базу даных hadoop и в качестве эксперемента я написал задачу для анализа livejournal.com

Ходя по ссылкам я находил сайты с поддоменами livejournal.com

всего обнаружилось 796 тыс аккаунтов. (вообще их должно быть больше). Также посчитал сколько у кого находится в друзьях(ссылки из профилей).

в скаченном множестве такая статистика:

больше всего ссылок у 

http://cheaptrip.livejournal.com   -  на него 9929 ссылок это сообщество.

среди обычных пользователей лидирует http://drugoi.livejournal.com/ на него 8967 ссылок

 

[Read More]

вторник июн 30, 2009

О работе

Про работал на работе уже 3 недели. Проект производит  довольно странное впечатление.

... 

Пока на работе работал с хадупом нашёл первую багу

... 

[Read More]

суббота июн 13, 2009

Первая неделя работы

Поздравьте меня, первая рабочая неделя прошла успешно!

Немного о работе: компания IPonWeb , делаем систему для контекстной рекламы распределённую (базу данных/файловую систему) Apache Hadoop . Интересно с технической точки зрения. База на продакшене - больше чем 30 Тб. данных. и из всего этого нужно делать отчёты.

Что меня впечатлило это то, что почти у всех в компании стоит Linux.

Понравился коллектив нашего проекта. Грамотные люди. Умеют отдыхать активно :) А вчера даже были в Строгино (фотки скоро будут ниже)

Не очень нравится то что работа больше по вечерам - нужно общаться с американцами [Компания Английско-Американско-Белоруско-Русская :) ]





пятница янв 23, 2009

Вакансия компании Вакансия компании .masterhost

Сегодня смотрел вакснсии на hh.ru.

В числе прочих нашёл вакансию компании .masterhost в резделе требования к которой было

"Знание Hadoop Core / HDFS, Cascading, HBase, Hive, Hypertable, Pig, Nutch, Lucene, Amazon EC2/S3 и т.п"

Эти технологии позволяют делать распределённые масштабируемые программы 

Интересно что за систему хотят делать..

http://hadoop.apache.org/

http://hypertable.org/

http://www.cascading.org/
 

вторник окт 28, 2008

распределённые системы

Сегодня я отдыхал от кайтинга. А то чувствую что перекатался. Сидел в итернете. Читал про распределённые хэш таблицы которые применяются в p2p сетях. В частност Chord и java реализация Open Chord. И ещё прикольная штука апачевская распределённая файлвая система и БД Hadoop.


Дмитрий Ржевский

Тэги:
c3350 cloud experiments hadoop jelastic jelastic.com livejournal phone samsung samsung_c3350 xcover вычисления облако облачные телефон

Calendar



Google Friend Connect.
Возможно через несколько лет не будет отдельных социальных сетей.
Они объединятся в одну открытую и распределённую систему.
Друзья Нравится

Feeds

Search

Links

Navigation


  • Я в ЖЖ    
  • MirTesen.ru
  • Я в "Linked In"

  • Мои друзья
  • Алекслёха
  • Latron

  • Links:
    log4j.ru
    Apache Maven
    моё родовое имение
    Виндсёрфинг


    Моё резюме
    My resume


    XFN Friendly

    Поиск