
搜索引擎工作原理的内容处理部分在相关的SEO书籍和网络文章中得到了深入的分析。事实上,这一部分有很多值得研究和思考的东西,可以用于日常的SEO工作,无论是白帽子还是黑帽子搜索引擎优化,都有很多技术和逻辑的操作空间。
首先判断网页的类型:网页(文本内容、图片内容、视频内容)、pdf、.(word、excel、ppt),然后进行不同类型的处理。
搜索引擎查看网页的源代码,删除HTML代码,对于JS、闪存、图片、视频等内容仍然难以掌握,主要提取文本内容。
页面噪声是指广告、导航、登录框、网站版权信息等与页面主要内容无关的内容。但百度主页不会删除所有主要内容,如相关推荐等会在一定程度上被算作本页面的内容,在百度搜索排名中也会有一个直观的表现。即使不相关的链接文本也会保留索引,比如百度搜索拷贝页面地址,你会知道去噪不是很严格。
因此,搜索引擎优化人员应该利用网页主要内容之外的所有推荐内容、链接、锚文本元素,而不是随意添加一些无关的内容。我们在实际工作中使用吗
停顿词是一些不相关的词,比如de、de、le、ah、ah、hip-hop等等。对于普通的文章,删除这些单词有利于搜索引擎对内容的分割和理解,可以减少搜索引擎的计算量,但是在搜索包含这些单词的关键词时,也有很多搜索结果。
经过上述处理,搜索引擎将处理经过初步处理的网页,并通过正向索引和反向索引来获得索引值。