新闻中心    |     邮箱注册    |     网站建设    |     服务项目    |     客户案例    |     关于我们    |    

行业动态

搜索引擎原理之入索引与分类

作者:admin 来源: 日期:2014-02-13 16:11:21 人气:13

入索引和分类是两码事


入索引就是是分词后的入库。根据ABCD,啊哦额一等一系列term进行存放。分类是把一大堆东西A,去归类的另外几样东西B上。其实本质就是就求A们和某个B的相关性。然后这个相似性又分成布尔模型和潜在语义模型。


布尔模型很简单,就是包含(相关)和不包含(不相关)的问题。例如你上面的说的东西。各种2元匹配然后布尔模型是有局限性的,太依赖匹配,容易找出太多或者太少的结果。


然后接下来就是向量模型


把文档中的term映射到向量空间中,然后每个term会有自己的权重,通过余弦求相似性。当然,上面这两个种比较好理解,然后技术实现难度也不大,搜索引擎也不可能用。接下来说说搜索引擎可能会用的(为啥是可能?因为我也不在搜索引擎工作)


例如PLSA,LDA等基于统计学语义算法,可以用于分类,过滤,检索等方面,说实话我也搞不太清楚,大概是把文章映射到向量空间中,然后通过奇异值分解后降维进行计算。通俗点来讲,就是例如通过上说的布尔模型模型,可以知道"iphone"和"iphone4s"是同一类东西。但是通过基于统计学的语义算法,能够知道乔布斯和iphone之间是有关系的,具体资料google上查一查吧


本文网址:http://www.wxwww.net/new2/39.html
读完这篇文章后,您心情如何?
  • 0
  • 0
  • 0
  • 0
  • 0
  • 0
  • 0
  • 0
公司地址:滨江西路八号创意世界 邮编:214400 E_mail: cgq@mail263.net.cn 联系电话: 0510-86023859 传真:0510-86023859 手机:15190329032
版权所有&Copyright © 2013 精通科技 | Theme design by 精通科技 | 网站地图 | | 360网站安全检测平台 | 本站最佳浏览分辨率1366*768以上,Chrome内核浏览器效果最佳
  • 在线客服
  • 售前咨询
  • 点击这里给我发消息
  • 点击这里给我发消息
  • 售后服务
  • 点击这里给我发消息
液压破碎锤,破碎锤,破碎器,破碎锤配件