标签:开发站点索引

如何使测试站点或开发站点脱离索引

如何使测试站点或开发站点脱离索引

我遇到的一些最常见的技术SEO问题之一是开发服务器的无意索引、登台站点、生产服务器,或者您使用的任何其他名称。

如何使测试站点或开发站点脱离索引
如何使测试站点或开发站点脱离索引

这种情况的发生是有有很多原因的,如从人们认为没有人会链接到这些领域,到技术上的误解等等理由。网站的这些部分通常是敏感的,在搜索引擎的索引中会有风险暴露计划中的活动、商业情报或私人数据。

如何判断你的开发服务器是否正在索引

您可以使用谷歌搜索来确定您的登台站点是否正在索引。例如,假如要定位一个分段站点,您可以搜索谷歌的站点:domain.com,然后如果要查看结果或者添加诸如像-inurl:www来删除任何www.domain.com的URLs。您还可以使用类似SimilarWeb或SEMrush这样的第三方工具来查找子域。

可能还有其他敏感区域,这些区域包含登录门户或不用于公共消费的信息。除了各种各样的谷歌搜索操作(也被称为Google Dorking),网站往往会屏蔽这些区域的robots.txt文件,然后告诉你你不应该在哪里浏览。告诉人们在哪里可以找到你不希望他们看到的信息会出什么问题?

你可以采取许多行动来阻止访问者和搜索引擎离开开发服务器和其他敏感区域。以下是一些方法的选项:

好的选项:HTTP身份验证

您想要避免的任何索引都应该包括服务器端身份验证。要求对访问进行身份验证是避免用户和搜索引擎的首选方法。

好的选项:IP白名单

只允许已知的IP地址,比如属于你的网络、客户等等,这是确保你的网站安全的又一个不可或缺的重要步骤,并且确保只有那些需要看到网站内容的用户才能看到它。

可能的选项:屏蔽页面索引的robots 。 txt文件

虽然它并没有得到官方的支持,但是它可以从索引中删除页面。我使用这种方法的问题是,它仍然告诉人们不应该看什么,它可能永远不会工作,也不会对所有的搜索引擎工作。

我之所以说这是一个“可能”的原因,这是因为它可以工作,并且可能实际上与robots.txt文件是不允许结合的,与其他一些方法不同,如果您不允许爬行(我将在本文后面讨论),这与其他方法不同。

可能的选项:屏蔽页面索引的标签

一个屏蔽页面索引标签,无论是在机器人的元标记中,还是在HTTP头中的X-Robots-Tag,这都可以帮助你的页面远离搜索结果。

我看到的一个问题是,它意味着更多的页面被搜索引擎抓取和抓取,这将侵蚀你的爬行和抓取预算。我通常会看到这个标签在robots.txt中也有不允许的情况下使用。如果你告诉谷歌不要在页面上爬行和抓取,那么他们就不能尊重屏蔽页面索引标签,那是因为他们看不到。

另一个常见的问题是,这些标记可以应用于测试站点,然后在页面上线时离开页面,能够有效地将该页面从索引中删除。

可能的选项:规范化

如果您的登台服务器上有一个指向您的主站点的规范设置,那么基本上所有的信号都应该被正确地整合。在内容中可能会出现不匹配的问题,可能会导致一些问题,就像屏蔽页面索引标签一样,谷歌将不得不爬行和抓取额外的页面。网站管理员也倾向于在robots.txt文件中添加一个不允许的。所以谷歌再一次不能爬行和抓取到页面上,也不能尊重权重,因为他们看不到。

您还可能在从生产服务器迁移到现场时,这些标记不会发生变化,这可能会导致您不想显示的版本是规范化的版本。

不好的选项:袖手旁观,不做任何事情

没有做任何事情来阻止建立测试站点的索引,通常是因为有人认为没有人会链接到这个区域,所以他们认为没有必要去做任何事情。我也听说谷歌将会“搞清楚”这些,但是我不会用我重复的内容问题来信任他们。那么你会这样做吗?

不好的选项:在robots.txt文件中禁止

这可能是人们试图保持一个测试站点不被索引的最常见的方式。因为robots.txt文件的禁止指令,你告诉搜索引擎不要爬行和抓取页面,但这并不妨碍他们索引页面。他们知道有一个页面存在于那个位置,并且仍然会显示在搜索结果中,即使不知道那里有什么。他们有来自链接的提示,例如页面上的信息类型。

当谷歌索引一个页面被阻止爬行和抓取时,你通常会在搜索结果中看到以下信息:“因为这个站点的robots.txt文件,所以这个结果的描述是不可用的。”

如果你还能回想之前提到过的,这个指令也会阻止谷歌在页面上看到其他标签,比如屏蔽页面索引和规范化标签,因为它阻止了他们在页面上看到任何东西。所以你也有可能不记得在网站上线时删除这些不允许的内容,这样可以防止页面在启动时爬行和抓取。

如果被意外地索引了怎么办?

爬行和抓取可能需要时间,这取决于URL的重要性(可能在测试站点的情况下很低)。可能需要几个月才能重新爬行和抓取URL,因此任何块或问题都可能不会被处理很长一段时间。

如果你认为你的索引是不应该被索引的,那么你最好的办法就是在Google Search Console中提交一个网址删除请求。这就应该在90天内消除,这就给你足够的时间采取纠正措施了。

上述文章内容是由ixwebhosting中文指南为大家提供的,如果您想转载此内容,请注明转载出处:http://ixwebhosting.com.cn/