概念
网站 SEO(Search Engine Optimization)即搜索引擎优化,是指通过一系列技术和策略,对网站进行优化,以提高网站在搜索引擎自然搜索结果中的排名,从而增加网站的流量和曝光度,以下从主要优化内容和常见优化方法进行介绍。
搜索门户网站seo优化指引:
1. google官方对seo优化建议
2. 百度官方seo优化指引
3. 必应官方seo优化指引
了解SEO之前,我们先了解两个基本概念 静态网站和动态网站:
一、静态网站
静态网站指提供给浏览器再渲染时不需要经过js过多、复杂的干预就可以直接渲染出来的网站资源文件(尤其指document文档流)。按照旧的说法,是页面显示的内容是提前固定的document文档流,比如现如今依然在被使用的WordPress,通过其生成的几乎都是标准的静态网站(其中的document几乎都是不需要js动态生成的)。
所以在没有js之类的脚本语言出现之前,html文档就是彻头彻尾的静态页面,无法实现页面内的任何交互动作。js出现后,通过js可以在浏览器中动态修改document文档,使其变成“动态”,可以实现用户的交互动作。
MPA(Multi - Page Application)多页面应用
MPA 是传统的 Web 应用架构,它由多个独立的 HTML 页面组成。每个页面都有自己独立的 URL,当用户访问不同的页面时,浏览器会向服务器发送新的请求,服务器返回对应的 HTML 页面,浏览器重新加载整个页面内容。当然,现在这种架构的网站也与当初的静态网站的概念相差甚远,因为几乎当今的网站不可能不与用户产生交互动作。
二、动态网站
通过动态加载和更新内容来实现各种功能和页面切换,而不需要重新加载整个页面的应用架构。用户首次访问时,浏览器会加载一个包含基本框架的 HTML 文件以及相关的 JavaScript 和 CSS 资源,再通过执行js代码动态渲染页面。
SPA(Single Page Application,单页面应用)
SPA 是一种在一个 Web 页面中,通过动态加载和更新内容来实现各种功能和页面切换,而不需要重新加载整个页面的应用架构。用户首次访问时,浏览器会加载一个包含基本框架的 HTML 文件以及相关的 JavaScript 和 CSS 资源。之后,当用户进行操作(如点击链接、提交表单等)时,应用会通过 AJAX、Fetch API 等技术向服务器请求数据,并使用 JavaScript 动态更新页面内容,实现无缝的交互体验。典型的 SPA 框架有 Vue.js、React 和 Angular 等。
了解了上述的两个概念,我们再讨论seo是如何做的。
SEO的原理—网络爬虫
SEO的基本原理是爬虫技术。
网络爬虫(Web Crawler),也被称为网页蜘蛛、网络机器人等
基本概念
网络爬虫是一种按照一定的规则,自动抓取互联网上信息的程序或脚本。它就像一个在网络世界中穿梭的机器人,能够模拟人类用户在浏览器中的操作,访问各种网站,获取网页上的文字、图片、视频、链接等各种数据资源。
工作原理
- 初始化:爬虫程序首先需要一个或多个起始 URL,这些 URL 通常是一些知名网站的首页或其他重要页面。
- 抓取页面:爬虫从起始 URL 开始,向服务器发送 HTTP 请求,获取对应的网页内容。服务器响应请求后,爬虫接收到网页的 HTML 代码、CSS 样式、JavaScript 脚本等信息。
- 解析页面:爬虫使用 HTML 解析器等工具对获取到的网页内容进行解析,提取出其中的文本、图片链接、视频链接、超链接等有用信息。
- 提取链接:从当前页面中提取出所有的超链接,并将这些链接加入到待抓取队列中。
- 循环抓取:爬虫程序从待抓取队列中取出下一个 URL,重复上述抓取、解析、提取链接的过程,不断地在网络中爬行,获取更多的网页内容。
网络爬虫一般是用Python、java、nodejs写的,在抓取到网络连接后,实际是以get请求方式拉取网站资源,为了提高爬虫的工作效率,拉取到网站资源后并不会对其渲染,更不会运行资源中的js代码,而是直接解析网站document内容来获取一些网站的关键信息,所以到这里就引出了静态网站和动态网站的区别。
静态网站资源的document内容是现成的,动态网站的document内容是需要运行js代码动态生成的,所以爬虫可以从静态网站中获取到更多信息,而动态网站提供的信息就非常少,进而影响搜索引擎对网站的评级,降低对动态网站的曝光率,而且很少的网站信息也直接影响用户的点击率。
现如今我们开发的几乎都是典型的动态网站,如果在保证“动态”的前提下提高SEO呢?下一章讲解。