W3C Blog: Web数据的未来方向

2017276月

2017年6月27日，W3C的Phil Archer撰写博客文章，阐述了对Web数据未来方向的思考。文章大意如下：

基础

2017年1月，Web数据最佳实践（Data on the Web Best Practices）成为W3C的正式推荐标准，这构成了W3C在Web数据（Data on the Web）的基础，给出了在Web上公开或非公开共享数据的基本流程，鼓励在Web共享数据的同时不只是给出可下载的数据集，还提供更多关联信息。我们还给出了一个领域相关的最佳实践：Web空间数据最佳实践（Spatial Data on the Web Best Practices），强调在Web上公开数据，并为搜索引擎提供支持。这样，我们可以象使用U盘一样，使用Web上可下载的数据资源。

空间数据（Spatial Data）

这是Web空间数据工作组给出的一份领域相关的最佳实践，W3C与开放地理联盟（OGC）共同合作发布。W3C还将继续和OGC保持长期合作，在WebVR/AR、物联万维网（WoT）、信息模型、对地观测等领域制定联合数据标准。

研究数据（Research Data）

另一个方向是与生命科学、空间探索、海洋科学、地学、材料科学等结合开发研究数据的本体。在欧盟VRE4EIC项目的支持下，W3C设立了数据集交换工作组（Dataset Exchange WG，DXWG），满足这类需求带来的挑战，并与研究数据联盟（Research Data Alliance）、CODATA以及联合国相关机构保持密切沟通与合作。这些工作与政府数据公开的努力并不冲突，政府数据共享同样也是 DXWG 工作组的需求来源之一。如果该工作组能达成章程的约定，将为跨越不同领域和社区的数据集共享带来巨大的进步。

互联数据（Linked Data）

互联数据的应用越来越广泛。如果我们接受Gartner的炒作曲线（Hype Cycle）模型，我们相信互联数据已经进入了持续增长的区域（Slope of Enlightenment）。我们看到互联数据在生命科学、政府数据及遗产保护领域的应用，并成为跨越组织边界共享数据的有效手段。但是，让广大的Web开发者使用 SPARQL 端点来开发Web应用仍然是不切实际的。更进一步，即便所有的SPARQL端点都可以开放使用，SPARQL查询带来的巨大计算复杂度仍会让系统瘫痪。这是为什么 BBC、OpenPHACTS及其他机构不愿意对公众开放其 SPARQL 端点的原因。取而代之，他们更倾向于开放一个简单的 API，在后台执行更直接的查询。在BBC，即便这样的API也不是对公众开放的，但这个API驱动了很多BBC网站上的内容。

这一情况好的一面是，我们可以通过一种对开发者更加友好的、JSON对象的方式来访问互联数据。从数据发布者的角度看，这种API更加稳定和可靠。但不好的一面是，人们会忽视和忘记在简单API背后的互联数据架构，这会使大家不断质疑互联数据的价值。

语义Web、人工智能与机器学习（Semantic Web、AI and Machine Learning）

我们在2014年初更新了语义Web相关的主要技术规范，之后并没有进一步计划来审阅核心的RDF和OWL。但是，这并不意味着在这些语义Web的核心方面我们已经无事可做。

一个急需得到更新的技术工作是JSON-LD。相关的社区组已经开发了后续规范的草案，现在需要将这些更新纳入到未来的推荐标准的流程中。同时，Shapes约束语言（SHACL，Shapes Constrain Language）目前已经推进到提案推荐标准，得到了许多关注和参考实现。

但我从技术社区中得到的反馈是，语义网应当进一步发展并支持所谓的“标注三元组（annotated triples）”。RDF在描述不断改变的动态内容是存在天然的不足：如不断改变的工作机会、音乐会的票的状态会失效、全球平均气温不断变化等。此外，所有的“事实”并不具有相同的信任度（confidence）。自然语言处理中，如果有75％的可能性就可以认为是事实。

用RDF中的命名图（Named Graphs）可以表达这些需求，但仍有很强的需求来向RDF扩充validFrom, validTo以及probability 来表达这些需求。其他可能的标注还可包括隐私、数据溯源等。这些对三元组的标注在语法上等价于创建和标注一个命名图，RDF 1.1一直沿着这个方向走。但一个更简化的语法将使这个过程更加容易。这对于AI、深度学习、统计分析等需求非常重要。

这些方向正在ESWC中讨论，我们希望在明年组织 W3C技术研讨会，并致力于推动设立新的工作组。目前，一个项目建议已经提交给欧盟委员会，来支持这个方向的探索。

在语义Web方向的其他探索还包括建立一个公共的词汇表来共享数据分析、自然语言理解等方面的交换需求，自然语言交换格式（Natural Language Interchange Format）目前正在进入W3C标准流程。

词汇表与 Schema.org

不同的技术社区维护了各类通用词汇表，其中重要的问题是实现词汇表的互操作。一个简单易于维护的词汇表、互联是一个重要方向。目前，W3C的社区组中聚集了许多人，正在开发不同的schema，可以在 www.w3.org/ns 中查询。我们需要更好的工具来支持这个过程。

W3C将支持 schema.org 的开发，将其转换成web页面中嵌入的更多结构化数据。如果您希望加入 schema.org 的开发中，请参阅社区组的讨论，及 public-vocabs@w3.org 邮件列表的讨论。

总结

1. 继续加强与OGC的合作，为Web上的地理空间信息系统提供更好的互操作性；

2. 与研究数据社区建立更紧密的联系；

3. 探索对RDF三元组的标记（annotating）方法，如增加时态或模糊支持；

4. 更好的支持词汇表的开发及维护；

5. 持续提升基于互联数据/语义Web的数据集成方法，并提供更加鲁棒的 JSON API。

更多内容，请参阅英文原文，及其他W3C官方博客文章。