7.13北京Drupal聚会：Drupal和大数据

6 July 2014 / 0 Comments

Drupal和大数据系列讲座

第一期：

主题：FSE Introduction

摘要：FSE我们为满足内部各部门搜索需要求的一套系统，该系统基于SOLR，结合了ZOOKEEPER和HADOOP，能够快速为各项目建立搜索环境。

主讲人：陈懿

http://www.solr.cc SOLR 中国站长

在海量数据采集、挖掘具有丰富的经验

时间：2014年7月13日（周日）下午1：00-4：00

地点：中关村南大街33号国家图书馆品诺咖啡厅大包间

费用：免费

联系人：崔克俊

手机 13681445347 13381113196 QQ：372948992 Skype： tigertazan

大数据是当今热点话题，用Drupal做海量数据发布，以及提供个性化服务是最合适不过的了，国内已经有成功案例。http://bigdatadrupal.com国外也有专门的网站，通过一系列工具Aegir BOA,Bonita Business Process,Cloudera,Drupal,Nutch，Solr等可以提供高性价比的大数据完整解决方案。

为积极探索Drupal大数据解决方案，将举办一系列专题讲座。

Solr http://zh.wikipedia.org/wiki/Solr

Solr 是开放源码的企业搜索服务器（Enterprise Search Server）软件，由Apache软件基金会所研发。Solr 使用Lucene程式库以及需要Servlet容器作执行环境。Solr本身提供XML/HTTP与JSON的应用程式接口。

特色：

全文检索

HTTP管理界面

分布式搜索

缓存

Apache ZooKeeper http://zh.wikipedia.org/wiki/Apache_ZooKeeper

Apache ZooKeeper是Apache软件基金会的一个软件项目，他为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册。[需要解释] ZooKeeper曾经是Hadoop的一个子项目，但现在是一个独立的顶级项目。

ZooKeeper的架构通过冗余服务实现高可用性。因此，如果第一次无应答，客户端就可以询问另一台ZooKeeper主机。ZooKeeper节点将它们的数据存储于一个分层的命名空间，非常类似于一个文件系统或一个前缀树结构。客户端可以在节点读写，从而以这种方式拥有一个共享的配置服务。更新是全序的。[1]

使用ZooKeeper的公司包括Rackspace、雅虎[2]和eBay，类似于象Solr这样的开源企业级搜索系统。

http://zh.wikipedia.org/wiki/Apache_Hadoop

Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。

Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式：应用程序被分割成许多小部分，而每个部分都能在集群中的任意节点上执行或重新执行。此外，Hadoop还提供了分布式文件系统，用以存储所有计算节点的数据，这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计，使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统（HDFS）以及一些相关项目，有Apache Hive和Apache HBase等等。

登录或注册以发表评论

文章分类

Drupal 公告

7.13北京Drupal聚会：Drupal和大数据

分类

最新话题