本周微软Live Search宣布加大在华投入,立刻引起了轩然大波,据悉,Live Search对于博客在美国有三个专利:
1、确定一个网页属于一个博客。这项专利涵盖Live搜索的使用方法,用于区分HTML网页是否是博客的一部分。
2、使用超链接的博客排序方法。这种方法允许偏向博客链接,一边修改网页排名和提供更高质量的搜索结果。
3、基于视觉的文件分割。这项专利解释如何区分一个页面是否与主题无关。
确定网页属于博客专利
关于2006年6月19日微软提出了一项专利名为“识别网页属于一个博客。”专利清单丹尼斯克雷格和史蒂夫逸夫-汤笞蒽作为发明者,时间是12月20日,2007年,并获得美国专利申请数20070294252。
微软的专利技术是用来识别网页是否是一个博客,一旦被确定为博客,他们将进一步加强关注。
在过去几年中,博客迅速发展。博客,被称为博客,就是因为跨度范围广泛,从从个人的期刊阅读的几个人,到大网站或小社区,大的博客经常有数以万计的人访问。总体而言,这些大的博客形成了独特的博客群组,这些越来越重要,因为搜索引擎的信息来源是来自日常用户。
那该如何辨别一个网页是否属于博客呢?
1、如果一个网站是托管在www.iresearch.cn上,那么它就很有可能属于一个博客。
2、常见的字词或短语有一定的规律,如:评论、订阅、日志、相册等。
3、URL判断,如:www.8684.cn/blog。
4、网页有外部链接指向博客,并且博客也有链接指向网页。
5、如果有RSS或Atom存在,那很有可能属于一个博客。
当然微软也可能会验证很多重点环节和联系方式,以确定网页是否是博客,但解析HTML文件,寻找基于内容的特征需要花费很多时间。
一旦微软蜘蛛网页并提出通过这种算法,那它会通过上面的因素来制定评分,如果某个网页达到一定评分,那就不用解析网页,直接列为博客。
这项专利还一个有争议的声明说:“搜索引擎将越来越多的限制来自博客网页的查询结果。这样的声明,可以解释为雅各布尼尔森在他的文章“写文章,不是博客文章”这句话,他认为,写博客文章是不存在长期价值的。
同样有一个支持的论据:如果想查询或了解过去的信息,结果只得到博客的内容,没有谈到具体的新闻事件以及详细的新闻内容,这就会让用户的搜索体验下降,因此,新闻内容优于博客内容。
虽然这个论据很好,但对于成千上万的有用博客内容,如果不把内容放在重点位置,是不是会影响到用户体验,让用户以为微软忽略了他们?
使用超链接的博客排序方法
在2007年3月30号微软提出另一项专利名“使用超链接的博客排序方法。” 它列出的发明人是史蒂夫和丹尼斯,时间是2008年10月2号,并获得美国专利申请号20080243812。
搜搜引擎通常让静态的翁也文件有较高的评级,一种改进的得分技术评分规定,网页是否有一个高质量的链接,这就需要确定网页是否是博客。不过这个算法已经成了国外许多SEO的依赖,即越来越多的人在操纵搜索结果,微软也在开始着手解决这个算法的BUG。
微软指出,大多数博客的链接,都是相互信任并且相互熟识。有一个小行业是链接买卖,有许多博客也在提供链接的买卖交易,当然链接购买仍然是个小部分的经济,这给搜索引擎优化产业提供了一个绝好的机会,因为可以购买很多链接伪装。
基于视觉的文件分割
2008年9月23日,微软授予专利名为“基于视觉的文件分割。”该专利申请于7月28日, 2003年,列出的发明人是纪蓉文鹏于、邓彩,和卫英吗作为发明者(它被分配到微软,当然)。它被授予美国专利号7428700。
有很多网页把有用的信息和无用的信息放在一起,这些信息可能排列的位置不一样,或者是用其他的方式分开来,比如图片或文字。微软的目的是区分内容,以确定是否与主题无关。它使用了以下线索:
1、HTML标记
2、字体大小和字体类型
3、字体的颜色
4、背景颜色
5、其他独特的识别
该专利没有提到的CSS分析,CSS目前还是主流应用,许多网站是以CSS+HTML的简单布局存在,于斌不知道微软的技术是否能获取到样式表的信息。
谷歌开始的时候,重点是技术,并不是强调商业方面,所以谷歌做的比较成功,而微软相反,在一些公开场合,微软的高层讲话,都提到“要赢得更多的搜索 广告客户”。这说明了为什么微软会遇到困难,因为他们认为搜索是作为摇钱树,而不是作为一个公益性的应用,使人们的生活更简单。
有一次微软收购数以千计的网站,希望能够获得更多的用户,直到现在,微软可能会雇佣200多人创造杀手功能,使用户回来。
不过于斌个人感觉谷歌是更好的,为什么我要选择Live Search?给我个理由先。如果微软成功收购雅虎,那它的搜索引擎市场份额依然会很低。Live Search的路该怎么走,微软应该好好想想。
原文链接:http://tuiba.blog.techweb.com.cn/archives/167
分类:新闻资讯
标签:Live Search, 专利算法, 博客圈