lucene不是一个完整的全文检索应用,它是用JAVA写的全文检索的工具包。lucene包包括:org.apache.lucene.document这个包提供了一些为封装要索引的文档所需要的类,比如 Document, Field。这样,每一个文档最终被封装成了一个 Document 对象。org.apache.lucene.analysis这个包主要功能是对文档进行分词,因为文档在建立索引之前必须要进行分词,所以这个包的作用可以看成是为建立索引做准备工作。org.apache.lucene.index这个包提供了一些类来协助创建索引以及对创建好的索引进 ...
Spider,网络蜘蛛,又叫网络机器,它是搜索引擎的主要模块:网络蜘蛛负责抓取网络上的网页数据,再通过分词技术对网页数据建立索引,然后对网页根据一些相关性排序。基本原理:Spider通过网页上的链接从一个网页(一般是首页)访问到另一个网页,从而实现对整个网络的数据收集。其实是把网状转变成树形去遍历,对树的遍历我们知道有广度优先和深度优先,一般采用广度优先。我们还知道遍历树有前序、中序和后序,不同的搜索引擎遍历顺序各不同。流程参考:1,建立一个队列,把首页地址放入队列            ...
周末没事自己用JAVA简单的实现了一个网页爬虫.主要代码: 引用内容public class Access implements Runnable{        HttpURLConnection huc;     InputStream is;    BufferedReader reader;    String ...
我们知道Google的海量存储一般都是TB(2^40bytes),PB(2^50 bytes)级别的,传统的数据库无法应对如此庞大且高效率的查询,Google设计了自己的存储结构-bigtable.行:行关键字可以是任意字符串,方便并发的原子操作.一般为反向URL列:列族是最小的访问控制基本单位.结构:列族:限定词.可以方便的添加和删减列时间戳:方便版本控制.
李开复说过,Google最牛B的技术就是他的store。由45万台X86的计算机组成,动则数百TB的数据,怎么才能最好的实现并行处理呢?Google开发了自己的文件系统GFS(google file system)。在GFS的架构中,GFS集群由一个单个的master和许多个chunkserver组成,GFS集群有许多client的访问。每个chunk比普通文件系统的block要大的多,大小为64M。
lisanping
搜索本博客
存档
最新评论