W3C中国

W3C Blog: Web数据的未来方向


2017年6月27日,W3C的Phil Archer撰写博客文章,阐述了对Web数据未来方向的思考。文章大意如下:

基础

2017年1月,Web数据最佳实践(Data on the Web Best Practices)成为W3C的正式推荐标准,这构成了W3C在Web数据(Data on the Web)的基础,给出了在Web上公开或非公开共享数据的基本流程,鼓励在Web共享数据的同时不只是给出可下载的数据集,还提供更多关联信息。我们还给出了一个领域相关的最佳实践:Web空间数据最佳实践(Spatial Data on the Web Best Practices),强调在Web上公开数据,并为搜索引擎提供支持。这样,我们可以象使用U盘一样,使用Web上可下载的数据资源。

 

空间数据(Spatial Data)

这是Web空间数据工作组给出的一份领域相关的最佳实践,W3C与开放地理联盟(OGC)共同合作发布。W3C还将继续和OGC保持长期合作,在WebVR/AR、物联万维网(WoT)、信息模型、对地观测等领域制定联合数据标准。

 

研究数据(Research Data)

另一个方向是与生命科学、空间探索、海洋科学、地学、材料科学等结合开发研究数据的本体。在欧盟VRE4EIC项目的支持下,W3C设立了数据集交换工作组(Dataset Exchange WG,DXWG),满足这类需求带来的挑战,并与研究数据联盟(Research Data Alliance)CODATA以及联合国相关机构保持密切沟通与合作。这些工作与政府数据公开的努力并不冲突,政府数据共享同样也是 DXWG 工作组的需求来源之一。如果该工作组能达成章程的约定,将为跨越不同领域和社区的数据集共享带来巨大的进步。

 

互联数据(Linked Data)

互联数据的应用越来越广泛。如果我们接受Gartner的炒作曲线(Hype Cycle)模型,我们相信互联数据已经进入了持续增长的区域(Slope of Enlightenment)。我们看到互联数据在生命科学、政府数据及遗产保护领域的应用,并成为跨越组织边界共享数据的有效手段。但是,让广大的Web开发者使用 SPARQL 端点来开发Web应用仍然是不切实际的。更进一步,即便所有的SPARQL端点都可以开放使用,SPARQL查询带来的巨大计算复杂度仍会让系统瘫痪。这是为什么 BBC、OpenPHACTS及其他机构不愿意对公众开放其 SPARQL 端点的原因。取而代之,他们更倾向于开放一个简单的 API,在后台执行更直接的查询。在BBC,即便这样的API也不是对公众开放的,但这个API驱动了很多BBC网站上的内容。

这一情况好的一面是,我们可以通过一种对开发者更加友好的、JSON对象的方式来访问互联数据。从数据发布者的角度看,这种API更加稳定和可靠。但不好的一面是,人们会忽视和忘记在简单API背后的互联数据架构,这会使大家不断质疑互联数据的价值。

 

语义Web、人工智能与机器学习(Semantic Web、AI and Machine Learning)

我们在2014年初更新了语义Web相关的主要技术规范,之后并没有进一步计划来审阅核心的RDF和OWL。但是,这并不意味着在这些语义Web的核心方面我们已经无事可做。

一个急需得到更新的技术工作是JSON-LD。相关的社区组已经开发了后续规范的草案,现在需要将这些更新纳入到未来的推荐标准的流程中。同时,Shapes约束语言(SHACL,Shapes Constrain Language)目前已经推进到提案推荐标准,得到了许多关注和参考实现。

但我从技术社区中得到的反馈是,语义网应当进一步发展并支持所谓的“标注三元组(annotated triples)”。RDF在描述不断改变的动态内容是存在天然的不足:如不断改变的工作机会、音乐会的票的状态会失效、全球平均气温不断变化等。此外,所有的“事实”并不具有相同的信任度(confidence)。自然语言处理中,如果有75%的可能性就可以认为是事实。

用RDF中的命名图(Named Graphs)可以表达这些需求,但仍有很强的需求来向RDF扩充validFrom, validTo以及probability 来表达这些需求。其他可能的标注还可包括隐私、数据溯源等。这些对三元组的标注在语法上等价于创建和标注一个命名图,RDF 1.1一直沿着这个方向走。但一个更简化的语法将使这个过程更加容易。这对于AI、深度学习、统计分析等需求非常重要。

这些方向正在ESWC中讨论,我们希望在明年组织 W3C技术研讨会,并致力于推动设立新的工作组。目前,一个项目建议已经提交给欧盟委员会,来支持这个方向的探索。

在语义Web方向的其他探索还包括建立一个公共的词汇表来共享数据分析、自然语言理解等方面的交换需求,自然语言交换格式(Natural Language Interchange Format)目前正在进入W3C标准流程。

 

词汇表与 Schema.org 

不同的技术社区维护了各类通用词汇表,其中重要的问题是实现词汇表的互操作。一个简单易于维护的词汇表、互联是一个重要方向。目前,W3C的社区组中聚集了许多人,正在开发不同的schema,可以在 www.w3.org/ns 中查询。我们需要更好的工具来支持这个过程。

W3C将支持 schema.org 的开发,将其转换成web页面中嵌入的更多结构化数据。如果您希望加入 schema.org 的开发中,请参阅社区组的讨论,及 public-vocabs@w3.org 邮件列表的讨论。

 

总结

1. 继续加强与OGC的合作,为Web上的地理空间信息系统提供更好的互操作性;

2. 与研究数据社区建立更紧密的联系;

3. 探索对RDF三元组的标记(annotating)方法,如增加时态或模糊支持;

4. 更好的支持词汇表的开发及维护;

5. 持续提升基于互联数据/语义Web的数据集成方法,并提供更加鲁棒的 JSON API。

更多内容,请参阅英文原文,及其他W3C官方博客文章


查看更多关于W3C的 国际新闻国内新闻,及 标准进展技术活动会员动态 >>

评论已关闭

站内搜索

万维网联盟(World Wide Web Consortium, W3C)是Web领域的国际标准化组织,开发开放Web标准,确保Web的长期发展。欢迎您加入W3C的朋友计划,支持W3C实现“尽展Web无限潜能”的使命,并为Web开发者提供更多工具。

更多内容>>

TPAC 2017

W3C 2017年度技术大会及顾问委员会会议(TPAC 2017)将于11月6-10日在美国加利福尼亚州柏林格姆(Burlingame)举行。注册现已开放。

更多内容>>

W3Cx 开放课程

W3C与edX合作,推出W3Cx系列课程,您可以免费注册这些课程:

- CSS概述
- HTML5:第一部分
- HTML5:第二部分
- HTML5概述
更多内容>>

W3C技术标准

查看Web技术标准
- 按时间 | 按工作组
■ Web与产业融合 ■
- 汽车 | 数字出版 | Web与电信
- 娱乐与广播电视 | Web支付 | Web数据
- 物联万维网(WoT) | Web安全
■ Web For All ■
- Web无障碍 | 国际化

更多内容>>

W3C标准翻译

我们欢迎您加入W3C标准翻译计划,了解W3C标准和文档的翻译情况,并成为W3C翻译计划的志愿者,帮助提供不同语言的W3C标准规范及文档的志愿者翻译及W3C授权翻译,更好服务全球技术社区。

更多内容>>

W3C中国贡献榜

我们通过贡献榜,感谢您积极参与W3C标准制定及审阅工作并提供建设性意见、提供W3C相关标准及技术文章的中文翻译、参与各类W3C技术研讨会。

更多内容>>

中国参与W3C

W3C中国目前正在不断加大全球W3C工作的参与力度,并设立了一系列以了解中国行业需求、引导标准制定为主要目的兴趣小组(IG)和社区组(CG)。
- HTML中文兴趣小组
- 中国信息无障碍社区组
- 中文数字出版社区组
- 中文文字布局需求特别任务组
- 数据可视化社区组

更多内容>>

合作伙伴

  • 北京航空航天大学
  • 北航计算机学院
  • w3ctech