百度自称是全球最大中文搜索引擎,最了解国内网民的搜索习惯,做为中国搜索引擎的老大,很多草根站长一直在研究的它的搜索技术和排名算法,还有不少站长兄弟姐姐还要靠它的流量吃饭,为此草根网站的站长们对它是又爱又恨,百度能带来很大的流量,又会无情的K站或降权。 好的,那咱们说说百度的分词技术,可能小弟有说的不对地方,请大家拍砖头,希望大家共同进步。没有研究百度分词前不明白百度为什么比google强大.其实分词也就是切词,百度是否拿来一句中文字符串拿来随便切一下呢,当然不会。那么怎么才满足被切割的条件呢?通过下面的实验就会发现如果字符串只包含小于等于3个中文字符的话,那就保留不动...
http://www.jb51.net//article/14758.htm
本文通过搜索结果归纳分析+切词通用算法分析的方式对百度预处理阶段的查询处理和中文分词两项技术进行了阐述、总结,如果你对数据结构、算法有一定了解的话,理解起来会相对容易些;个人感觉,得出正向最大匹配算法不够准确,无论是专用词典还是普通词典里的词,都是有不同权重的,这根搜索频率应该有一定关系,基于这点,在出现多个专用词典里的词时,是需要采用双向最大匹配算法来检测到底哪一个专有词汇应该先被切出来,当然,这是个人猜想,有待考究。理解分词技术对SEO工作具有极大意义,可以从科学的角度来分析关键词,并构想关键词部署策略;如果正向最大匹配算法的结论是正确的,那基本上可以断定,切词后的分词的权重是按照正向排序...
http://www.jb51.net//article/14249.htm
经常会在网上看到诸多网友在购买宽带路由器以后,在使用过程中遇到死机频繁掉线问题,给网友带来很多不便,以至于有些产品被网友说的一文不值。今天,作者就对宽带路由器死机掉线问题进行客观分析,看看到底是什么原因造成了这些问题。1、从session说带机数量造成的掉线死机很多厂商在宣传自己的宽带路由器产品时一般都会提到一个可以连接的带机数量,大部分厂商都会说自己的四口宽带路由器可以带机10-20台。可是有些用户在使用过程中,带机10台以后就会出现死机掉线情况,在购买过程中,我们首先就需要分析自己的宽带路由器和自己机器数量和应用是否匹配。有些时候会因为自己的实际环境并不适合使用所购买的产品,就会出现宽带路...
http://www.jb51.net//article/12026.htm
在Java的世界里,无论类还是各种数据,其结构的处理是整个程序的逻辑以及性能的关键。由于本人接触了一个有关性能与逻辑同时并存的问题,于是就开始研究这方面的问题。找遍了大大小小的论坛,也把《Java虚拟机规范》,《apress,.java.collections.(2001),.bm.ocr.6.0.shareconnector》,和《ThinkinginJava》翻了也找不到很好的答案,于是一气之下把JDK的src解压出来研究,扩然开朗,遂写此文,跟大家分享感受和顺便验证我理解还有没有漏洞。这里就拿HashMap来研究吧。 HashMap可谓JDK的一大实用工具,把各个Object映射起来,...
http://www.jb51.net//article/2789.htm
共有:4/10,当前1/1页
[首页] [上一页]
1
[下一页] [尾页]
转到:
