Ржевский Дмитрий Rzhevskiy Dmitry
hadoop livejournal
Недавно я установил дома распределённую и масштабируемую базу даных hadoop и в качестве эксперемента я написал задачу для анализа livejournal.com
Ходя по ссылкам я находил сайты с поддоменами livejournal.com
всего обнаружилось 796 тыс аккаунтов. (вообще их должно быть больше). Также посчитал сколько у кого находится в друзьях(ссылки из профилей).
в скаченном множестве такая статистика:
больше всего ссылок у
http://cheaptrip.livejournal.com - на него 9929 ссылок это сообщество.
среди обычных пользователей лидирует http://drugoi.livejournal.com/ на него 8967 ссылок
[Read More]
Posted at 01:52AM янв 08, 2012 by Дима in Java | Комментарии[0]
О работе
Про работал на работе уже 3 недели. Проект производит довольно странное впечатление.
...
Пока на работе работал с хадупом нашёл первую багу
...
[Read More]Posted at 11:40AM июн 30, 2009 by Дима in Java | Комментарии[1]
Первая неделя работы
Поздравьте меня, первая рабочая неделя прошла успешно!
Немного о работе: компания IPonWeb , делаем систему для контекстной рекламы распределённую (базу данных/файловую систему) Apache Hadoop . Интересно с технической точки зрения. База на продакшене - больше чем 30 Тб. данных. и из всего этого нужно делать отчёты.
Что меня впечатлило это то, что почти у всех в компании стоит Linux.
Понравился коллектив нашего проекта. Грамотные люди. Умеют отдыхать активно
А вчера даже были в Строгино (фотки скоро будут ниже)
Не очень нравится то что работа больше по вечерам - нужно общаться с американцами [Компания Английско-Американско-Белоруско-Русская
]
Posted at 06:53PM июн 13, 2009 by Дима in General | Комментарии[0]
Вакансия компании Вакансия компании .masterhost
Сегодня смотрел вакснсии на hh.ru.
В числе прочих нашёл вакансию компании .masterhost в резделе требования к которой было
"Знание Hadoop Core / HDFS, Cascading, HBase, Hive, Hypertable, Pig, Nutch, Lucene, Amazon EC2/S3 и т.п"
Эти технологии позволяют делать распределённые масштабируемые программы
Интересно что за систему хотят делать..
Posted at 01:18PM янв 23, 2009 by Дима in Java | Комментарии[0]
распределённые системы
Сегодня я отдыхал от кайтинга. А то чувствую что перекатался. Сидел в итернете. Читал про распределённые хэш таблицы которые применяются в p2p сетях. В частност Chord и java реализация Open Chord. И ещё прикольная штука апачевская распределённая файлвая система и БД Hadoop.
Posted at 11:00PM окт 28, 2008 by Дима in Java | Комментарии[1]

