soolanet 发表于 2012-07-24 00:48:42

预处理是搜索引擎原理的第二步

预处理是搜索引擎原理的第二步1、把网页爬取回来,就需要多个处理阶段,其中之一就是关键词提取,把代码爬取下来,去掉比如CSS,DIV等标签,把这些对排名无意义的统统去除掉,剩下的是用于关键词排名的文字。
2、去除停用词,有些专家也称之为停止词,比如我们常见的:的、地、得、啊、呀、哎等无意义词。
3、中文分词技术,基于字符串匹配的分词方法以及统计分词方法。
4、消除噪声,把网站上的广告图片、登录框之类的信息去队掉。
5、分析网页,建立倒排文件方法

本站原创,转载需要注明出处:
seo优化:http://www.webyuweb.com/bd/sl/sl_1206.html

dpjanebass 发表于 2026-01-14 12:47:54

这个结论很靠谱,我身边有人亲测有效

金华双龙网络 发表于 2026-01-14 12:48:07

淡淡的微笑 发表于 2026-01-14 14:07:45

收藏了,以后遇到问题还能翻出来参考

飞妃 发表于 2026-01-29 15:53:29

按这个方法试了下,确实有效果,推荐给大家

aubreyl 发表于 2026-02-02 23:45:29

支持楼主,希望多些这样有深度的帖子

你好啊 发表于 2026-02-03 05:16:56

我也来分享下我的经验,和楼主的方法可以互补

飞妃 发表于 2026-02-06 21:19:27

这个角度很中肯,之前我也有类似感受,一直没整理出来,楼主讲得很通透。

z329701029 发表于 2026-02-06 22:17:57

别致滴小伙 发表于 2026-02-07 02:19:29

内容很接地气,普通人都能轻松理解和应用

欣圣科技-周 发表于 2026-02-07 15:27:04

干货满满,整理得太细致了,对我接下来要做的事帮助特别大,辛苦楼主。

codyness 发表于 2026-02-07 23:02:30

用心整理的内容就是不一样,信息完整、逻辑通顺,已经推荐给同好一起看。

bhccn 发表于 2026-02-08 18:26:16

确实是这样,很多细节只有真正经历过的人才会懂,总结得很到位。

西万路小混混 发表于 2026-02-09 02:44:13

遇到类似情况的人应该不少,你的分享能帮到很多迷茫的人,加油继续更新。

ganbing 发表于 2026-02-09 13:00:47

完全赞同,我也是这么认为的,英雄所见略同~

米聊 发表于 2026-02-09 13:07:40

感谢楼主的真诚分享,让论坛变得更有价值

南光的世界 发表于 2026-02-15 09:46:47

楼主辛苦了,整理这么多内容,必须点赞收藏

xzs789456 发表于 2026-02-26 17:26:02

学习到了,之前一直没注意过这个点,受教了
页: [1]
查看完整版本: 预处理是搜索引擎原理的第二步