lucene不是一个完整的全文检索应用,它是用JAVA写的全文检索的工具包。lucene包包括:org.apache.lucene.document这个包提供了一些为封装要索引的文档所需要的类,比如 Document, Field。这样,每一个文档最终被封装成了一个 Document 对象。org.apache.lucene.analysis这个包主要功能是对文档进行分词,因为文档在建立索引之前必须要进行分词,所以这个包的作用可以看成是为建立索引做准备工作。org.apache.lucene.index这个包提供了一些类来协助创建索引以及对创建好的索引进 ...
Spider,网络蜘蛛,又叫网络机器,它是搜索引擎的主要模块:网络蜘蛛负责抓取网络上的网页数据,再通过分词技术对网页数据建立索引,然后对网页根据一些相关性排序。基本原理:Spider通过网页上的链接从一个网页(一般是首页)访问到另一个网页,从而实现对整个网络的数据收集。其实是把网状转变成树形去遍历,对树的遍历我们知道有广度优先和深度优先,一般采用广度优先。我们还知道遍历树有前序、中序和后序,不同的搜索引擎遍历顺序各不同。流程参考:1,建立一个队列,把首页地址放入队列   ...
周末没事自己用JAVA简单的实现了一个网页爬虫.主要代码: 引用内容public class Access implements Runnable{ HttpURLConnection huc; InputStream is; BufferedReader reader; String ...
我们知道Google的海量存储一般都是TB(2^40bytes),PB(2^50 bytes)级别的,传统的数据库无法应对如此庞大且高效率的查询,Google设计了自己的存储结构-bigtable.行:行关键字可以是任意字符串,方便并发的原子操作.一般为反向URL列:列族是最小的访问控制基本单位.结构:列族:限定词.可以方便的添加和删减列时间戳:方便版本控制.
李开复说过,Google最牛B的技术就是他的store。由45万台X86的计算机组成,动则数百TB的数据,怎么才能最好的实现并行处理呢?Google开发了自己的文件系统GFS(google file system)。在GFS的架构中,GFS集群由一个单个的master和许多个chunkserver组成,GFS集群有许多client的访问。每个chunk比普通文件系统的block要大的多,大小为64M。
- 浏览: 27926 次
- 性别:

- 来自: 北京

- 详细资料
搜索本博客
最近加入圈子
链接
最新评论
-
我的ubuntu新内核编译成功
挖坟贴 编译内核跟distro有什么关系?出了新的版本就尝鲜咯
-- by seen -
我的ubuntu新内核编译成功
gentoo编译内核都是家常便饭了
-- by t0uch -
我的ubuntu新内核编译成功
想问下楼主:编译新内核,有啥意义?另外,我怎么去找,我需要的参数?比如说,我需要 ...
-- by dd-up -
checked异常和unchecked ...
引用错误的理解 Java明确区分两种类型的异常. 那些扩展了java.lang ...
-- by lisanping -
checked异常和unchecked ...
错误的理解 Java明确区分两种类型的异常. 那些扩展了java.lang.Ex ...
-- by kongqz






评论排行榜