7.13北京Drupal聚会:Drupal和大数据
Drupal和大数据系列讲座
第一期:
主题:FSE Introduction
摘要:FSE我们为满足内部各部门搜索需要求的一套系统,该系统基于SOLR,结合了ZOOKEEPER和HADOOP,能够快速为各项目建立搜索环境。
主讲人:陈懿
http://www.solr.cc SOLR 中国站长
在海量数据采集、挖掘具有丰富的经验
时间:2014年7月13日(周日)下午1:00-4:00
地点:中关村南大街33号国家图书馆品诺咖啡厅大包间
费用:免费
联系人:崔克俊
手机 13681445347 13381113196 QQ:372948992 Skype: tigertazan
大数据是当今热点话题,用Drupal做海量数据发布,以及提供个性化服务是最合适不过的了,国内已经有成功案例。http://bigdatadrupal.com国外也有专门的网站,通过一系列工具Aegir BOA,Bonita Business Process,Cloudera,Drupal,Nutch,Solr等可以提供高性价比的大数据完整解决方案。
为积极探索Drupal大数据解决方案,将举办一系列专题讲座。
Solr http://zh.wikipedia.org/wiki/Solr
Solr 是开放源码的企业搜索服务器(Enterprise Search Server)软件,由Apache软件基金会所研发。Solr 使用Lucene程式库以及需要Servlet容器作执行环境。Solr本身提供XML/HTTP与JSON的应用程式接口。
特色:
全文检索
HTTP管理界面
分布式搜索
缓存
Apache ZooKeeper http://zh.wikipedia.org/wiki/Apache_ZooKeeper
Apache ZooKeeper是Apache软件基金会的一个软件项目,他为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册。[需要解释] ZooKeeper曾经是Hadoop的一个子项目,但现在是一个独立的顶级项目。
ZooKeeper的架构通过冗余服务实现高可用性。因此,如果第一次无应答,客户端就可以询问另一台ZooKeeper主机。ZooKeeper节点将它们的数据存储于一个分层的命名空间,非常类似于一个文件系统或一个前缀树结构。客户端可以在节点读写,从而以这种方式拥有一个共享的配置服务。更新是全序的。[1]
使用ZooKeeper的公司包括Rackspace、雅虎[2]和eBay,类似于象Solr这样的开源企业级搜索系统。
http://zh.wikipedia.org/wiki/Apache_Hadoop
Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。
Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等。