整合多部工具书,“聚典数据开放平台2.0”发布

8月15日,由上海世纪出版集团规划设计、上海辞书出版社研发运营的聚典数据开放平台在沪发布2.0版。聚典数据开放平台是一款基于传统工具书的创新型互联网数据服务产品,整合《汉语大词典》《大辞海》《英汉大词典》等权威工具书内容,为数字阅读中的知识查检需求提供有效解决方案。

自2020年8月正式运行以来,聚典数据开放平台已经汇聚了近200种优质工具书、430多万个词条、近7亿字的数据内容,成为我国目前库藏词条量最大、覆盖学科较为完备、服务场景广泛的工具书数据开放平台。

聚典数据开放平台已与学习强国、微信读书、百度百科、掌阅、起点读书等40多个应用开展了深度合作,累计为4000多万用户提供了超过10亿次的知识查检服务,其中海外用户500多万。其“开放、赋能”的数据服务模式受到上下游企业的广泛认可,先后入选全国新闻出版深度融合发展创新案例、国家新闻出版署数字出版优质平台遴选计划。

2.0版多方面升级迭代

发布会上,上海辞书出版社党委书记、社长秦志华对聚典数据开放平台2.0版的迭代升级情况作了介绍。

秦志华介绍典数据开放平台2.0版情况


秦志华首先回顾了聚典数据开放平台3年来的发展历程。在内容建设方面,“聚典平台”以《汉语大词典》《现代汉语大词典》为汉语字词知识基础、以《辞海》《大辞海》为百科知识基础,逐步拓展到《哲学大辞典》《教育大辞典》《心理学大辞典》《中药大辞典》等各学科领域专业性工具书,和《英汉大词典》《汉英大词典》等双语工具书,并进一步扩充了《中国古今地名对照大词典》《中国历史纪年表》等专题知识数据。词条数量也从初步搭建时的37万个词条到现在的430余万个,基本覆盖了古今中外的通用知识,并构建了云端工具书数据仓库,一站式数据服务体系基本实现。在这样的前提下,聚典平台的应用场景快速拓展,用户数量也不断提升。

“查检更有效、体验更友好、服务更智能、对接更顺畅。” 秦志华用20个字概括聚典数据开放平台此次迭代升级的原因。

聚典作为链接上下游的内容聚合中台,既会接收到来自上游出版社提供的海量内容数据,也会接收到来自下游合作方做出的各项反馈。如何让合作方更便捷地接入聚典平台,如何让用户更快地选中待查字词,如何识别到用户的切词缺漏,如何为用户提供智能推荐等,都成为平台亟待解决的问题。

新发布的聚典数据开放平台2.0版运用最新的人工智能技术,对430多万条工具书数据进行系统梳理和重组,从内容端大幅扩充词条数量;梳理用户行为,应用智能技术,实现查检词条与库藏知识的智能关联,自动识别取词差错并更正推送;完善自动化对接流程,从初期的API调用到SDK包,再到如今加入智能推荐,实现数据分发的技术升级。

秦志华举例,在使用聚典数据开放平台搜索“朱元璋”这个词条时,搜索结果和字典上相同,显示“即‘明太祖’”,用户还需进一步搜索“明太祖”才能得到详细释义。通过平台的优化,如今用2.0版搜索这个词条,会在“即‘明太祖’”的基础上,提供明太祖的释义,有效解决了传统系统带来的问题。

义项过滤和增补也是2.0版进行的重要调整。聚典平台已整合了近200种工具书,不同词典会收录同名词条,2.0版通过AI技术分析平台中同名词条的释义,如义项内容一致,就挑选最权威、最全面的一条内容给到用户;如不一致,就会增补不同义项,将每个词条的义项尽可能全部汇总起来提供给用户。例如,“首都”一词,6本词典都与《辞海》的“首都”释义一致,都是指一个国家最高行政机关所在地,而《第二次世界大战百科词典》中的“首都”则是指盟军反攻缅甸的作战计划之一。这样就形成关于“首都”的两个义项推送给用户。

秦志华表示,2.0版进一步提升用户体验、提升查得率、拓展数据类型、提升对接效率,更好地满足了各类数字阅读场景下的知识查检需求。

大幅提高读者网络阅读体验

发布会上,起点读书、得到电子书、七猫小说等运营方代表分享了与聚典数据开放平台合作的实际案例。

阅文集团起点读书总经理梅仁杰介绍,起点读书中的作者,不少是对中国传统文化有深刻研究的白金大神作家,他们的小说中难免会出现一些生僻字,在不影响阅读体验的情况下便利地查询词意,对读者十分重要。

梅仁杰发言中


“起点读书接入了聚典的服务后,实现了‘屏幕取词,释义立现’,还能双语互译、古今对照,这样读者可以在不打断阅读体验的同时,即刻获知精确的释义,感受到作者的用词精妙,更畅快淋漓的体会到阅读的乐趣。”

梅仁杰举例,近期起点读书一本出圈作品《道诡异仙》融合了很多传统文化中的民俗怪谈、奇闻异志,因此经常会出现一些俚语方言与来自古文化、古民俗中的生僻字,这些生僻字查询比例都很高,“比如‘巴虺’(huǐ),意思为巴蛇,是《山海经》中记载的中国古代神话传说中的巨蛇。这个‘虺’字用户的查询次数就接近2万次。‘傩戏’(nuó)的‘傩’也被查询了1万多次。很多用户也纷纷在章段评中分享,‘看小说学语文,读网文识汉字’,氛围非常热闹。”

得到电子书2022年5月正式和聚典数据开放平台合作,为用户提供阅读过程中的中英文字词查询服务。

张璐莎发言中


电子书负责人张璐莎表示,此前得到电子书也与搜索平台合作,提供简单的词典服务,但信息来源于网络,全面性和准确度都不高。他们寻求专业词类工具书主办方合作,又存在成本高、推进过程漫长的问题。

“聚典正好能提供我们需要的服务,这个平台收录了《辞海》《汉语大词典》《英汉大词典》等多种工具书,内容丰富、可靠,技术实现上也很方便,可以直接提供接口调用。收费标准也很友好。” 张璐莎说。

如今聚典平台成为得到用户阅读的重要工具。“后悔这么晚才发现这个功能。”用户张闲经喜欢历史文物与考古,过去遇到生僻字需要复制下来去百度搜索,如今,“直接电子书里选定字词然后使用词典功能,读音词意就出来了”。用户“巧克力”也在看完一本英文版《哈利·波特》后发表评论,说这是自己“平生第一次认认真真看一本英文书”,“词典功能真的很喜欢,省去了手翻字典或者打单词的环节。”

邹芹发言中


“七猫小说”是一个免费阅读网文的平台。上海七猫文化传媒有限公司公共事务经理邹芹分享,平台上传统文化背景的小说很多,也有一批忠实阅读者,“传统文化通常包含大量的知识、价值观和传统习俗,数字词典检索提供了一个方便的途径,使人们能够轻松地访问和学习传统文化的内容;里面提供详细的、权威的解释、定义和例句,能够帮助人们更好地理解传统文化的含义和背景,加深人们对传统文化的认识。”

七猫在2022年接入聚典数据开放平台至今,为阅读用户提供了近2000万次查询服务,平均每天有10万+的用户有查词典的需求,“读者可以即查即用,释义直接在阅读页面显示,不需要跳转别的应用,极大满足用户对知识查验的需求、也提升了读者的数字阅读体验。”

发布会上,上海世纪出版集团党委书记、董事长黄强等为聚典数据开放平台的优秀合作伙伴颁奖,上海辞书出版社与全国科学技术名词审定委员会、中国新闻出版传媒集团等签订合作协议。

毛文涛发言中


上海世纪出版集团党委委员、副总裁毛文涛作会议总结时表示,上海世纪出版集团将继续大力推进聚典数据开放平台创新发展,使聚典继续坚守“数据服务”的产品定位、坚持“为阅读赋能、为学习赋能、为搜索赋能”的使命追求,不断拓展应用场景、创新应用模式,朝着“成为数字时代的文化基础设施”努力奋斗。

读书推荐

读书导航