博客折腾记(二) - 对搜索引擎的理解
两篇文章的启示
大概五年前,在博客园上折腾过几篇文章,现在有一篇文章每天来源于百度搜索的竟然有600的阅读量,让我很吃惊,那篇文章是关于安卓的9种Dialog的介绍文章,也许是写得太早了,加上Android Dialog
这个关键字本身流量就很大,搜索很容易排在前面。
从开始写独立博客,两年大大小小写了20+篇文章,百度收录了一半,谷歌虽然都收录了,按关键字也查不到。后来慢慢地了解到,谷歌对于原创的支持度非常之高。也就是说,如果是个人独立博主的话,纯原创的文章,包括原创图片,谷歌都会第一时间收录,并且展现在搜索结果中很靠前的位置。申请过Google Adsense
的同学也都知道,申请失败最可能的原因是,站点文章非原创(Valuable Inventory Scraped Content),包含过多抄袭内容或者入门的文章太多。一句话总结,谷歌偏好于原创有价值的文章。
我第一次申请Google Adsense
也是因为这个原因被拒,之前的很多文章被爬走了,Google 提前收录其他站点的文章就判定我为抄袭了,经过2周的努力,第二次申请的时候,通过了。这两周,我做了2件事:
- 积极争取文章的原创资格:《博客折腾记(四) - 原创资格是争取来的》
- 删除被爬文章,降低网站垃圾评分:《博客折腾记(五) - 友链这件事,没那么简单》
原创有价值
原创,说起来容易,做起来难。
对于技术博客来说,很多技术是成熟的,学完了,做个总结,参考下官方文档或者别人的实现。尽管总结以及里面的代码是一个字一个字敲出来的,但是很容易和其他人的文章重合。因为主题、调用的API、参考的官方文档大抵是相似的,而且写这个技术点的人又挺多。大家都是一个字一个字敲出来的,你敲晚了,就不是原创了。
那有价值呢?
谷歌还有个很重要的功能,叫谷歌趋势(Google Trends)
,用谷歌趋势能够知道别人在搜索什么,比如你输入Python,谷歌会告诉你Python最近的热度,以及与Python相关的搜索词的热度,那如果你能选择一个热度高,但是没人写或很少人写的技术点,着手去写,那就不愁没人看了。这就叫有价值,搜索引擎的有价值,必然是指对别人有价值。
我原来花了很多时间,在所谓的SEO上,但是最终发现,如果做不到原创有价值,所谓的SEO只能让自己心理好受一点罢了。
这件事给了我很大的触动,我主动删除了原来博客中介绍Git,Python入门,机器学习面试题之类的文章,因为这些文章虽然都是自己一个字一个字敲出来的,但是远没有别人写的原创有价值。同时,我也删除了Github上Star数量已经不少的信息聚集类的仓库,比如web-front-end-qa
,前端问题的整理,有很多启动很早,维护及时,Star数量上万的仓库,我的整理内容不全,缺少维护,而且这样的仓库,有一两个足矣,的确不需要我这样画蛇添足的工作。
关于百度
我觉得中文搜索,百度没做好,收录效率太过于低下了。一篇原创的足够优秀的文章,估计十天半个月得不到收录。等你一个月后再看,估计你的文章排在了一百页开外,而转载你文章到各大聚合网站(例如博客园、CSDN)的童鞋,已经排到了第一页。流量被无情地拦截,我觉得这是百度让我感到很痛心的一个地方。我删掉的有几篇文章属于这种情况,不过是入门性质的,按关键词搜索,转载的CSDN网页排在第一页,而我的至今没有得到收录。
另外,我原来发表文章后,喜欢推到各大聚合网站的头条,比如开发者头条、Segmentfault头条,但是后来发现,你一旦推过去,也相当于将流量拱手送人,你收获的仅仅是一两天短时间的处于好奇的引流罢了。因为这些头条聚合网站,往往会爬取你的文章,展示在他的页面上,而在一个不起眼的地方,放上你的链接。很快,百度会认为这些聚合网站上的内容才是原创的。聚合网站在百度的权重太高了,新进的独立博主在百度这个平台下根本玩不起。
安安心心地多写一些原创有价值的博客,谷歌还在支持你。
上一篇 « 博客折腾记(一) - 极致性能的尝试 下一篇 » TensorFlow 2.0 (六) - 监督学习玩转 OpenAI gym game