语义网络简析
原本是一份面试作业,拿出来分享下。没有太高深的互联网理论或技术,但发现自己非常享受探索的过程中,被求知欲充斥,结合自己掌握的经验知识,去找寻未知的答案。
By Nick Lin http://lindizi.com
首先从Google的一个网络服务开始:Google Social Graph API 目前还不太引人注目,用它测试下http://lindizi.com/,反馈结果:
Contacts you link to
arecwang.com/ friend sweetheart
blog.donews.com/keso/ co-worker
blog.rexsong.com/ co-worker
……………….
Google 实现这个检索,通过爬取开放页面,扫描页面中使用了XFN和FOAF开放标准的链接代码。例如搜索结果中第一个,其代码为:<a href=”http://arecwang.com” rel=”friend sweetheart” oncli….(省去无关部分),红色字体即为XFN标准代码,表明了lindizi.com与arecwang.com的关系是friend:sweetheart,其它类推。
另外在观察indigos.cn的检索结果,此服务还可以从页面链接的一些社会化网络服务中提取联系人,如:friendfeed.com、flickr.com等。
“语义网络”会对搜索领域产生什么样的影响?
语义网络可使搜索更加易用、高效和智能化,理由如下:
- 网页内容爬取合理有序
Semantic Web 改变了HTML语言缺乏明确说明数据含义的缺陷,网页内容组织者可按照规则使用meta data,这样搜索引擎可以更有针对性的抓取所需内容。
- 页面关系更加丰富
传统页面链接表达了一维的关系,而Semantic Web下的页面链接则表达了多维的联系。
- 从容应对海量网页内容
传统搜索引擎初始的工作方式,是对索引到的页面进行广泛爬取,抓回原始数据后再进行各种处理和分类。这种先抓后处理的方式,在面对全球日益增长的海量内容时会显得力不从心,通过meta data有针对性的选取内容可大幅降低抓取工作量。
- 跨地域、跨语言的网页内容自动聚集
meta data作为元数据的形式,不受语言或区域的限制,搜索引擎使用者可以通过单个搜索分词获取更多有价值的相关信息数据。
关于 Semantic Web 的一些知识:
语义网络即Semantic web,最早由互联网之父Tim Berners-Lee在1998年提出来的,虽然不是一个新概念,但是近几年与两一个概念Web3.0联系在一起,有人认为Web3.0的核心技术就是语义网络。从文后的扩展阅读资料2可以看出,Tim Berners-Lee把语义网络看成现有的Web向结构化数据的演进,但是近几年,语义网络的研究和实践明显分成了两支,可以称其为学院派和实践派。学院派逐渐向知识表述和推理的方向突进;而实践派仍然致力于Web内容的结构化上,将自由文本内容结构化,这样计算机程序就能自动处理Web内容,而不是仅仅给人阅读,扩展阅读资料3进一步讲解了全文检索向语义搜索的演进路线,可以理出一些实践派的思路的端倪。
最新评论