Лучший способ начать с Hadoop?

Рейтинг: 1Ответов: 1Опубликовано: 13.09.2014

Нужно подобрать связку: книга - инсталляция, чтобы начать. То есть иметь свой кластер для игр.

В качестве машины имею свой ноутбук Windows 7 32bit, на нем VirtualBox Debian 7.

Вопросы:

Насколько сильна разница между релизами Hadoop? Сильно отличается 1x от 2x? Что скачать?
Есть download дистрибутива на сайте Apache. Но я слышал, там какие-то адские проблемы с установкой. Это так?
Есть какие-то готовые инсталляции с виртуальными машинами от Cloudera QuickStart. Однако они, как я понял, только для 64bit host машины. У меня нету.
Сейчас качаю Sandbox от Horton. Правильно делаю?
Есть что-то еще?

И кроме того, нужна книга. Hadoop Definitive Guide идет от 2012 года - он еще актуален? Я так и не понял из предисловия, по какой он версии.

Ответы

▲ 1

32-битная машина означает, что у вас мало оперативной памяти, а это по-моему гарантирует страдание и боль с виртуалкой, внутри которой куча Java-хадупа.

Та же Cloudera QuickStart VM по умолчанию идет с 4GB для гостевой ОС, а для включения интерфейса администрирования (Cloudera Manager) авторы настоятельно рекомендуют поднять этот объем до 8GB.

В остальном (за исключением Cloudera Manager, который считается более продвинутым, чем Ambari в HDP), выбор Cloudera/Horton больше политический. Начать можно и с того, и с другого (основные компоненты там все-таки одинаковые), а потом попробовать конкурирующий дистрибутив ради нехватающих компонент (типа Impala, которая поставляется только в CDH).

По поводу "скачать с apache.org": сам не пробовал, но здравый смысл подсказывает, что собирать дистрибутив из комплектующих будет не проще, чем аналогичная затея в Linux.

Hadoop 1.x от 2.x отличается существенно. Упоминаемая книжка недавно вышла в четвертой редакции, и теперь описывает только 2.x, что проще для восприятия. 3-я редакция была вперемешку про две версии.

Мое мнение - все равно, какую книжку читать - одной не обойдешься. На мой вкус, все книжки слишком сильно углубляются в детали (что делает такой-то класс в map-reduce), не видел толкового высокоуровневого описания картинки в целом (да и меняется она весьма быстро). Поэтому сам долго гуглил. Но каждому нравится свое.