用 域词汇分 与双语知 本体词网辅助主题资讯搜寻
陈永 黄居仁
中央研究院语言学研究所
yxchen@gate.sinica.edu.tw churen@gate.sinica.edu.tw
摘要
位典藏国家型科技计画自民国91 开始推
动,旨在将珍贵的重要文物典藏加以 位化,目前
透过 合目 系统提供整合的典藏内容查询介
面,但由於典藏品的种 属性繁多与关键词全文搜
寻方法功能上的限制,增加 典藏内容与使用者之
间的隔阂及搜寻的困难 .而如何将大 以中文为
基础的典藏资 提供其他外语使用者进 查询或
应用,促进国际合作或研究上接轨亦是相当重要的
课题.本研究尝试提出一 域词汇对应模式,在使
用者对主题资讯的搜寻上提供建议词汇,可协助全
面 解典藏内容并得到 丰富的典藏品资讯.过程
中以中央研究院语言学研究所开发之中英双语知
本体词网Sinica BOW为出发点,结合 域词汇
分 方法DLT及建议上层共用知 本体SUMO,
并以 位典藏计画之 合目 展示系统为研究对
象进 探讨.研究成果以知 本体架构 呈现目前
位典藏计画中典藏品的分 与分布情形,同时透
过语义关系延伸 进 关键词 展,提供使用者在
查询时 多的建议词汇.
关键词:查询 展,WordNet, SUMO(Suggested
Upper Merged Ontology), DLT(Domain
Lexico-Taxonomy)
1. 前言
「 位典藏国家型科技计画」自民国91 起
开始推动,旨在建 国家 位典藏,以保存文化资
产,建构公共资讯系统,促使 致文化普及,资讯
科技与人文融合,并推动产业与经济发展.一般以
位方式典藏之多媒体 位内容博大 深但主题
差 性相当大,加上整 后设资 (Metadata)时
用的描述语言与使用者搜寻时使用的白话文字常
常有 差,因此除非是 域专家,否则一般使用者
窥知典藏品之学术上专用术语,甚至 知该如
何进 搜寻浏览.一般全文检 的搜寻方式无法满
足此一 域之内容研究,搜寻需求,因此增加 丰
富的典藏内容与使用者之间的隔阂及搜寻的困难
.因此有必要针对广泛范围的典藏内容设计一套
符合使用者需求的搜寻策 .查询 展(Query
Expansion)是一种以建议词补充原始查询短语的方
法,可用 提升查询效 .假如查询 展的过程采
用与使用者互动的模式,则使用者与系统共同 与
查询 展的工作,系统通常建议一些建议词给使用
者,而使用者从这些建议词当中挑选一部分当作真
正查询 展的 展词.设计 好的查询 展策 必
须能够表达词汇之间的语意关系,同时帮助搜寻引
擎提升检 效能.
位典藏国家型科技计画目前透过 合目
[2]提供一整合的典藏内容查询介面,目前采用传
统的关键词全文搜寻方式供使用者查询资讯,碍於
典藏品的种 属性以及关键词全文搜寻方法功能
上的限制,在许多情况下并 容 提供给使用者最
想的查询结果.此外,考 位典藏国家型科技
计画所投入的人 物 ,如何将大 以中文为基础
的典藏资 提供其他外语使用者进 查询或应
用,促进国际合作或研究上接轨亦是相当重要的课
题. 能建 一中英双语交叉查询系统将可使得系
统使用者 容 全面性 解典藏内容并找到 多
感兴趣的相关资讯.因此本研究以中央研究院语言
学研究所开发之中英双语知 本体词网(Sinica
BOW)[1]为出发点,结合 域词汇分 方法及建议
上层共用知 本体,提出一查询 展策 并以 位
典藏 合目 为研究对象进 探讨,尝试用知 本
体架构 解目前 位典藏计画中典藏品的分
与分布情形,同时以语义查询的角 提供使用者
查询时 多的建议词汇.
综上所述,本研究之研究目的主要包含下 三项:
1. 以目前 合目 所典藏之项目建构一 位典藏
计画知 内容分布架构.
2. 设计一整合策 提供语义上及知 结构上之关
键词查询 展建议.
3. 建构 位典藏特殊分 内容之 域词表,提供
相关研究或应用之中英双语对应资源.
2. 相关研究
2.1 位典藏 合目
「 位典藏国家型科技计画」自民国91 开
始推动,旨在将珍贵的重要文物典藏加以 位化,
建 国家 位典藏,以保存文化资产,建构公共资
讯系统,促使 致文化普及,资讯科技与人文融
合,并推动产业与经济发展.迄今开发已有30余
个典藏计画与开放型计划,共约50余个计画,已
有丰富的成果.因此实有必要开发整合型的成果查
询介面提供各界使用者查询应用,目前 位典藏计
画中 个主要的展示系统分别为 合目 及公共
展示系统.而由中研院语言所主导之语言座标计画
则以自然语言处 技术之应用为出发点,希望藉由
语言的中介特性能够将各 域知 系统化呈现并
提供语言词汇使用上的标准. 位典藏计画中相关
与者及使用者所接触之资 内容特性如表1所
示.
表 1 位典藏计画资 内容特性
计画名称 单一分项
计画
合目 公共展示
系统
语言座标
与/使
用者
域专家 域专家
与一般大
众
一般大众 域专家
与一般大
众
资 内容 专业术语 专业术语
加通用词
汇
通用词汇 通用词汇
资 少 多 少 多
资 种 多样 Meta data 多媒体图
片
语言分析
结果
典藏内容 实体物品 实体物品 实体物品 辑关系
与知 媒
介
位典藏 合目 是 位典藏国家型科技计
画所建置的目 性展示平台,旨在提供全国性 位
典藏藏品的检 与搜寻,以展现 位典藏计画之成
效.透过 合目 的单一网站窗口,即可检 全国
近百组跨十余个学术 域之 位典藏内容,提供民
众资讯的查询及取用 位典藏资讯. 合目 工作
小组针对各计画资 库 位与架构,进 后设资
语意,语法,结构之分析比对作业,在后设资
(Metadata)建置上采用Dublin Core标准, 程上则
包含 访谈与表单回填,内涵分析,系统分析,
Metadata测试,评估等多道严谨程序.目前於网
查询介面提供内容主题,时间分 ,地 分 ,典
藏机构与计画及Dublin Core进阶搜寻等五种主要
资讯搜寻方式.由於资 庞大,因此目前依据
位典藏计画将内容主题划分为14个主题 别,包
括:生物,地质,人 学,档案,地图与遥测影像,
石 片,善本古籍,考古,器物,书画,新闻,
汉集全文,影音与建筑等,其中以档案主题包含
699,368笔内容,典藏资 为最多,地质主题包含
3,309笔资 为最少.平均而言,每一主题 别
包含有约115,593笔典藏资 ,而各内容主题 别
下各以阶层结构包含 干阶层与子 别.对於大
多 使用者而言,内容主题查询为最直观简单之查
询方式,因此实有必要针对此一项目作 深入的研
究,以期提供 人性化 有效 的检 结果.
图 1 合目 系统画面
2.2 域词汇分 法 (Domain
Lexico-Taxonomy; DLT)
以 域为基础的语言处 方法是自然语言处
研究重要的一环, 用 域词汇分 法可将所有
知 区分为几个主要 别.在Huang等人[7]的研究
中提出 一个针对多 域的语言处 方法,设计出
域分 法并且半自动地建 域词表.每个用
存放 域词表的分 别即称为 域词汇分
(Domain Lexico-Taxonomy; DLT), DLT可以在
别及处 多 域语言资 内容上提供核心词汇资
讯.在 域分 研究中,以人工方式将所有知 区
分为549个 域,主要的 考依据是中文图书分
系统,大英百科全书及远 英汉词典.
域分 以阶层树结构呈现主要 域及子
域的上下位关系, 域依抽象程 共分为四个层
级,最上层分为14个 域,包含人文学科,社会
科学,形式科学,自然科学,医 科学,工程科学,
应用产业,艺术,休闲娱 ,专有名词,语体,各
种语言 词源,各国地名与各国民族,是抽象程 最
高的分 .其下第二层具体区分为147个子 域,
而第三层 细分出279个 具体的子 域,最后一
个阶层则因为并非所有节点均有所延伸而仅细分
出109个子 域.总计四层树 结构中共有549个
域分 节点.
每一个 域分 节点中包含 一个小的 域
词表,词表中的词汇均是由WordNet[3]中抽取出的
一般常用词汇,目的是 需要透过特殊的 域词汇
即可以一般性词汇 定义出一个 域.目前 域分
已可与WordNet 的同义词集(synset)进 对应并
且可提供中英双语的配对词汇.由於WordNet中提
供 词汇的下位关系词汇,因此一个词汇所属的
域可以继承给所有的下位词汇,研究中将15,160个
中文词汇对应至463个 域分 中, 域词表的产
生方式可以如图2所示:
Domain A
WordNet
Synset
SynsetSynsetSynset
……
Synonym link
…………
Domain Lexicons
Domain B
WordNet
Synset
SynsetSynsetSynset
……
Synonym link
…………
Domain Lexicons
Hyponomy
link
Hyponomy
link
图 2 DLT 域词表建构方法
2.3 建议上层共用知 本体Suggested
Upper Merged Ontology
SUMO(Suggested Upper Merged Ontology,建
议上层共用知 本体)[4]是由IEEE标准上层知
本体工作小组所提出的知 本体架构,目的是发展
成标准的上层知 本体,这将促进资 互通性,资
讯搜寻和检 ,自动推 和自然语言处 .知 本
体(ontology) 似於一组字典或术语表,但能够
使电脑处 多内容的细节和其结构.透过知 本
体可将人们有兴趣的 域正规化为一套概 ,关系
和定 (axiom).上层的知 本体被限制在meta
的概 ,一般,抽象或者哲学,因此足够一般提出
(在一定水准上)一个涵盖广阔范围的 域区域
[9].特殊 域具体的概 被包括在上层知 本体
中,但是这样的知 本体可提供特殊 域( 如:
药,财政,专案…等等)的知 本体结构的建 .
SUMO藉由最高层次的知 本体,鼓 其他特殊
域知 本体以其为基础衍生出其他特殊 域的知
本体,并为一般多用途的术语提供定义.目前
SUMO已经和英语词汇网 WordNet1.6版本作初
步的 结.SUMO中的节点以阶层树方式 结,如
图3所示.
实体
物质的
物体 自身 续物体
物质
纯物质 基本物质
属
原子
次原子 子
原子核
电子
质子
中子
化合物
水
养份
图 3 SUMO阶层节点示
2.4 中央研究院中英双语知 本体词网(Sinica
BOW)
中英双语知 本体词网(Sinica BOW)[1]是一
结合词网(WordNet),知 本体,与 域标记的词汇
知 库,由中央研究院语言所文献语 库小组与资
讯所中文词知 库小组合作建置,从语言工程的角
,以台湾地区的语言使用为经验基础,提供语言
和语言,语言和概 以及语言和 域的资讯,甚至
是跨语言间的讯息.中英双语知 本体词网以建
一完整 确的中英对译资 库及检 介面为目
的,作为 位典藏知 国际化的基础;并持续建
各 域之双语 域辞典,以作为各 域/典藏之双
语控制词汇 考标准.中英双语知 本体词网同时
提供具 域判断能 之资讯检 应用.此外,建
附加 域标记之双语辞典及检 介面使中英双语
知 本体词网成为一知 加值双语电子辞典.
Sinica BOW主要使用的资源包含WordNet,
ECTED(English- Chinese Translation Equivalents
Database)以及SUMO(Suggested Upper Merged
Ontology,建议上层共用知 本体).其中WordNet[3]
是1985 普 斯顿大学认知科学实验室以现代心
语言学 所述的人 词汇记忆为启发所开发
出的语意式电子字典,以每个同义词集表达一种词
汇概 ,将同义词集区分为四种英文词 :名词,
动词,形容词,副词,并以二十几种词义关系组织
同义词集.由中研院资讯所与语言所合作建构的
ECTED以WordNet为基础,经由现有英中或中英电
子辞典的词形对应,为每个同义词集词义找出可能
相对应的中译词组,再经由人工检验.寻找对译尽
可能的以词汇而非描述性短语表达,目的在於让每
个同义词集 有最适当的一至三个左右的中文对
译.[6] 依据SUMO2002 版资 ,黄居仁等人[8]将系
统介面以及概 节点进 中文化,其涵盖11大 的
概 ,每大 又区分为二至五个 别,总共囊括
3,912个概 .SUMO已经与WordNet1.6版本结合,
且以同义(synonymy),上位(hypernym),体
(instantiation)这三种 别显示同义词集和SUMO
概 间的对应关系, 如:同义词集cell(细胞)与
细胞概 (cell)是同义.hockey(曲棍球)属於运
动概 (sport), 者间的关系为上位,也就是
运动涵盖hockey(曲棍球).China(中国大 )属
於国家(nation)这概 的体 .除此, 以「中
国图书分 法」为基准,并 考各知 分 与实际
研究经验,提出:包含九大 的知 分
(Knowledge Content),涵盖427个 域.另外,
并因应语言资源特性加入下 语言使用(Language
Usage)的各 讯息:专名( 明文字符号的指涉)
(Proper Name),语体( 明文字符号的使用)
(Genre/Strata),各种语言 词源
(Language/Etymology),各国地名(Country
Name). 域阶层的建 在於替 同词义中的词汇
项目区别其使用的 域, 如:stock作「股票」和
「家畜」 个 同解释时,分属於财政学 的资本
以及动物学的脊椎动物学.加注 域信息可 低词
汇歧 性,增加资 交换时的互通性,辅助 域词
汇库之建构.Sinica BOW透过WordNet1.6 offset延
伸所产生的 别码作为媒介,进 ,将每个资
源以及各 讯息 结.因WordNet1.6 offset延伸的
别码可获得原本WordNet存在的词 ,解释,英
文 ,同义词集,各同义词集间的词义关系及其
所属词汇.而SUMO概 与WordNet的 结,使得
可透过该 别码获取词义与概 搭配的讯息.以
WordNet为基础所建置的ECTED与针对WordNet同
义词集的各词汇项目所给予的 域值,也是透过该
别码获取.而特殊 域词汇库,加上相对应的
Sinica BOW 别码,也可保 原始资源的资 库格
式和WordNet 结.又, 域知 本体则是在SUMO
某些概 下进 延伸发展.每个特殊 域词汇库中
的词汇一样具有所属的概 ,其所属概 可能是
SUMO或特殊 域知 本体的某一概 ,特殊 域
词汇库和 域知 本体的结合,使得透过该 别码
又 起所有的讯息.Sinica BOW的资源和架构如图
4所示.由於透过WordNet可以和同是以WordNet为
基础架构所建置的其他语系WordNet资源加以
结, 如:EuroWordNet[9],因此以此基础架构可
编制成多语的词汇网 ,成为多语环境中所需之语
言知 结构的基础资 .
图 4 SINICA BOW架构图
3. 域词汇知 对应架构
根据研究目的与相关研究探讨,本研究结合
DLT,WordNet与SUMO等架构所提供之横向与纵
向语言资源,将 合目 中各主题分 对应至一建
议架构中如图6所示,由此架构 结各项语言资源
提供 域分 之细项资讯,除可将 位典藏计画之
典藏品 别对应至知 本体中观察目前典藏品在
整体知 架构中的分布情形,同时亦可扩充 合目
使用者在进 主题分 检 时的查询 展词汇.
图 6 域词汇对应模式
生物Biology
地质Geology
人 学Anthropology
器物Artifacts
档案Archives
书画Calligraphy and Painting
地图与遥测Maps and Remote Images
石 片Stone and Bronze Rubbings
善本古籍Rare Books
考古Archaeology
新闻Journalism and Mass Media
汉籍全文
影音
建筑
人文学科Humanities
社会科学Social Science
形式科学Formal Science
自然科学Natural Science
医 科学Medical Science
工程科学Engineering Science
应用产业Production Industry
艺术Fine Arts
休闲娱 Recreation
合目 主题分 域词汇分 DLT WordNet SUMO
上位词
下位词
同义词集反义词 近义词
部件词
表 2 合目 主题分 资 对应表
合目 主题分 域分 WordNet 同义词集
(同义词集offset)
SUMO对应关系 ; SUMO概
生物Biology 自然科学
-> 生物学
biota, biology
(05987709)
Hypernym ; Organism
地质Geology 自然科学
-> 地球科学
-> 地质
geological formation, geology, formation
(06691504)
Hypernym ; SelfConnectedObject
人 学Anthropology 社会科学
-> 人 学
social anthropology, cultural anthropology
(04673338)
Instantiation ; FieldOfStudy
艺术
-> 造形艺术
器物Artifacts
艺术
-> 装饰艺术
-> 手工艺
artificiality
(03757381)
Hypernym ;
SubjectiveAssessmentAttribute
人文学科
-> 图书 学
档案Archives
人文学科
-> 史学
archive, archives
(02206789)
Hypernym ; EducationalOrganization
艺术
-> 图画艺术
书画Calligraphy and Painting
艺术
-> 装饰艺术
-> 书法
calligraphy, penmanship
(04826894)
painting, picture
(03079051)
Hypernym ; Text
Hypernym ; ArtWork
艺术
-> 摄影
-> 远距摄影
艺术
-> 图画艺术
-> 制图法
应用产业
-> 交通
地图与遥测Maps and
Remote Images
自然科学
-> 地球科学
Map(02965788) Hypernym ; Icon
石 片Stone and Bronze
Rubbings
人文学科
-> 古文字学
Rubbing
(03259790)
Bronze
(02342693)
Hypernym ; copy
Hypernym ; ArtWork
人文学科
-> 史学
人文学科
-> 哲学
善本古籍Rare Books
人文学科
-> 文学
book
(04831824)
papyrus
(04868693)
Synonymy ; Book
Hypernym ; Text
考古Archaeology 社会科学
-> 考古学
archeology, archaeology
(04670536)
Instantiation ; FieldOfStudy
新闻Journalism and Mass
Media
工程科学
-> 电信通讯
journalism
(00403517)
information bulletin
(05010288)
report, news report, story, account, write up
(05009327)
Hypernym ; OccupationalRole
Hypernym ; Text
Hypernym ; Text
汉籍全文 人文学科
-> 宗教
Literature
(04798932)
Hypernym ; Text
艺术
-> 音
影音
艺术
-> 表演艺术
dramaturgy, dramatic art, dramatics, theater,
theatre
(05256340)
play, drama
(05257517)
Instantiation ; FieldOfStudy
Hypernym ; Text
建筑 工程科学
-> 建筑
construction, building
(00715519)
Hypernym ; Constructing
以此架构进 查询 展可得到纵向及横向延
伸之相关词汇资 ,为优於传统查询 展方式之设
计.根据 合目 系统对典藏品所区分之14 主
题,可以一对多方式对应至DLT 域词汇分 中,
而各DLT 域词表中的词汇即可称为是该 合目
主题之基本词汇.此外,透过SUMO之 辑关系
可将主题分 对应至SUMO架构上特定节点,并由
该节点延伸纳入相关子节点.以WordNet synset之
offset number 找出包含上下位词及近义反义词作
为 域主题查询延展时之 考延伸词汇.在建议词
策 上,一般搜寻引擎采用的是被动式使用者 为
观点: 以回馈资 为导向, 计算使用者 为而得
到相关资 页面.主动式知 架构观点则以严谨的
学术分 为基础, 架构出明确体系, 可透过语言提
供知 交换基础平台.
4. 研究结果
根据前文所提出之 域词汇知 对应架构,
可以清楚观察 合目 中采用的主题分 在第一
层的14种主题分 中如何对应到DLT的 域分
,其中某些主题由於缺少直接对应的分 项目,
因此 出 个以上的 似分 .由於阶层树 结构
的特性,第二层以下较具体的 合目 细项主题分
亦可以相同方式 结至相对应的DLT 域分
当中,亦可得到对应的WordNet synset 资 以及
SUMO节点资讯.
4.1 位典藏计画知 内容分布架构
以第一层的 合目 主题分 对应至SUMO
结构中可以观察目前 位典藏计画所建置的典藏
品内容在整体人 知 中所占的位置,如表3所
示.其中SUMO节点以节点代号 字 代表,
如"生物体1.1.1.1.2.4.8.,organism,生物体" 代表著
如同位於图7的阶层结构,以此架构可以 解目前
在 位典藏计画中的典藏品以有形的物质居多,其
中又以文本为最大宗;在知 本体上属於抽象项目
的则以专业的研究 域如人 学及考古学最为明
显.
表 3 SUMO节点对应表
合目 主题分 SUMO节点位置
生物Biology 1.1.1.1.2.4.8.,organism,生物体
地质Geology 1.1.1.1.,self connected object,自身 续
物体
人 学Anthropology 1.2.7.32.,field of study,研究 域
器物Artifacts 1.2.4.13.61.211.,subjective assessment
attribute,主观评价属性
档案Archives 1.1.1.4.12.31.51.,educational
organization,教育组织
书画Calligraphy and
Painting
1.1.1.1.3.8.22.,text,文本
1.1.1.1.2.5.13.,art work,艺术品
地图与遥测Maps
and Remote Images
1.1.1.1.3.7.,icon,图示
石 片Stone and
Bronze Rubbings
1.2.5.14.62.214.202.142.215.,copy,复制
1.1.1.1.2.5.13.,art work,艺术品
善本古籍Rare Books 1.1.1.1.3.8.22.45.,book,书籍
1.1.1.1.3.8.22.,text,文本
考古Archaeology 1.2.7.32.,field of study,研究 域
新闻Journalism and
Mass Media
1.2.4.13.60.210.,occupational role,职业
角色
1.1.1.1.3.8.22.,text,文本
汉籍全文 1.1.1.1.3.8.22.,text,文本
影音 1.2.7.32.,field of study,研究 域
1.1.1.1.3.8.22.,text,文本
建筑 1.1.2.8.43.93.94.,constructing,建构
1.,entity,
实体
1.1.,physical,
物质
1.1.1.,object,
物体
1.1.1.1.,self
connected
object,自身
续物体
1.1.1.1.1.,substance,
物质
1.1.1.1.2.,corpuscular
object,复杂体/非单
质体
1.1.1.1.2.4.,organic
object,有机物
1.1.1.1.2.4.8.,organism,
生物体
图 7 "生物"节点在SUMO中的位置
4.2 位典藏分 内容之 域常用词表
透过与DLT及WordNet的对应 结可以为每
一个 位典藏 合目 中的主题分 提供 域常
用词表.正如同DLT的设计 ,以 域常用词
表作为定义 域的方式可以在 熟悉艰涩的专业
术语情况下为特定 域定义出范围,做为知 分
的工具.
分 内容之 域常用词表同时可应用於资讯
检 上,透过 域常用词表进 查询 展时可以协
助使用者通盘 解该 域中的相关词汇及这些常
用词汇之间的关系,有助於全面 解 域中相关内
容及知 结构.以"地质" 域为 ,可以透过DLT
及WordNet的 结找出如表4的 域常用词表,
词表中包含 研究地质主题的各学门名称,以及相
关的气象学及矿物学等等.透过这些常用词表即可
概 解地质学所研究的内容与项目,对於陌生的
使用者而言可提供相当大的帮助.单纯以地质为关
键词进 查询时,在 合目 系统上可以查询到
4,760笔资 ,但 采用 域常用词表中的建议词
汇进 查询,则可获取9,750笔资 ,可得到 倍
以上的资 . 表 4 地质 域词表
"地质" 域词表
大地测 学(geodesy),水文学(hydrology),火山学
(volcanology),古地质学(paleogeology),石油地质
学(petroleum_geology),地球物 学(geophysics),
地质学(geology),地震学(seismology),地学
(geology),形态学(morphology),岩石学(petrology),
穴学(speleology), 窟学(speleology),气候学
(climatology),气象学(meteorology),测地学
(geodesy),结构地质学(tectonics),经济地质学
(economic_geology),构造地质学(tectonics),构造
运动学(tectonics),磁学(magnetism),矿物地质学
(mining_geology),矿物学(mineralogy),
4.3 词汇查询 展
合目 查询系统提供 使用者方 的查询
介面, 积至2006 7月止,使用者查询频 较
高的词汇如表5所示.其中可以发现与蝴蝶相关的
词汇相当多,但部分词汇属於较为艰深的专业词
汇.此一现象 明部份艰深的专业词汇在实际查询
使用上有其实用性,然而未受过专业训 的使用者
可能未具备足够的专业知 可直接以这些词汇进
查询.本研究所提出之对应模式即可在此一情况
下针对使用者感兴趣之词汇进 词汇 展,增加使
用者查询时的 考依据.
以"蝴蝶"作为使用者搜寻词为 ,可以透过
DLT及WordNet的 结找出蝴蝶所属的 域常用
词表如表6,词表中包含 具代表性的蝴蝶名称,
以及分 上相近的蛾 等.透过这些常用词表可概
解蝴蝶与"昆虫","蛹"等词汇归属同一
域,这对於陌生的使用者而言可提供有效的查询提
示.
而WordNet亦提供 同义词集,上位词及下
位词等相关词汇,表7 出"蝴蝶"在WordNet
中的关系词汇.另外,由图8则可 解"蝴蝶"概
在SUMO架构中的位置以及所属的知 体系.
在本研究所提出的模式中,使用者可分别由
域词,关系词,知 架构等三个面向得到关键词
汇的 展.观察以"蝴蝶"进 词汇 展的结果可
以发现,许多 展所得的词汇与 合目 统计之使
用者高频查询词相符合,因此 明词汇 展可以在
词型比对之外,以词义分析方法提供使用者有效的
查询词汇 展协助.
表 5 合目 高频查询词
关键词
胡台 ;陶;王建民;酒器;虱目鱼;陶 AND 陶
器;西 雅;蝴蝶; 勤; ;台中;大乘;董
氏针灸;大稻埕;蝶;文徵明;坐骨 AND AND
痛;棒球;翠玉白菜;鬼;…;紫斑蝶;昆虫;
蝶科;紫斑蝴蝶;蝶科;凤蝶总科;凤蝶;
翅目;……
表 6 蝴蝶 域词表
"蝴蝶" 域词表
衣蛾(tineid),衣蛾(clothes_moth),夜盗蛾
(armyworm),夜盗蛾(armyworm),昆虫(insect),昆
虫(bug),昆虫(coreid_bug),枯 蛾(lasiocampid),枯
蛾(eggar),麦蛾(gelechiid),麦蛾
(Gelechia_gossypiella),麦蛾(angoumois_moth),菜
粉蝶(small_white),菜粉蝶
(southern_cabbage_butterfly), 虫(leaf_bug), 虫
(mirid_bug),蛹(pupa),蛹(chrysalis),蛾(moth),蛾
(gypsy_moth),凤蝶(emperor_butterfly),凤蝶
(emperor),谷蛾(tineid),谷蛾(grain_moth),灯蛾
(arctiid),灯蛾(tiger_moth),蚕蛾(bombycid),蚕蛾
(giant_silkworm_moth)
表 7 蝴蝶在WordNet中的关系词
同义词集
蝴蝶,蝶
上位词
翅目昆虫
下位词
粉蝶,热带臭蝶,小灰蝶,蛱蝶科的蝴蝶
图 8 "蝴蝶"所属的知 体系
5. 结果与讨
位典藏国家型计画为一规模庞大之典藏计
画,涵盖的资 与知 层次均相当庞大,各主题
彼此之间的差 亦大,在建构一整合性之展示系统
时如何有效呈现资 内容是一相当重要之挑战.本
研究透过 结DLT, Sinica BOW与WordNet,针对
网 使用者在浏览检 上提供一查询 展模式,
DLT中的 域分 系统主要基於中文图书分 系
统,同时 考大英百科全书及远 英汉词典等语言
资源.可以与 位典藏之主题分 进 对应并提供
相关的 域词汇.而WordNet所提供的透过各种
关系所 结的相关词汇可以有效帮助 解词汇的
使用及词汇间关系,亦对於使用者全盘 解某 域
知 并进 查询有相当大的助 .另外,由Sinica
BOW所提供之中英双语对应词汇,可供作为 合
目 展示系统后续发展中英双语查询介面之使
用.最后,本研究透过主题分 与SUMO节点的
对应,可供 解 位典藏计画中典藏品在整体人
知 架构中所在之环境位置,亦对於延伸 解相关
知 提供 方向.因此,由本研究可了解自然语言
处 技术与语言资源在 位典藏计画中的定位及
应用方向.后续研究将以整合 结其他语言资源,
发展语义查询 展为首要目标,在应用上则计划建
置自动化模组辅助 位典藏计画之相关展示系统
处 查询 展应用.
考文献
[1] 中央研究院中英双语知 本体词网 The
Academia Sinica Bilingual Ontological Wordnet
(Sinica BOW),http://BOW.sinica.edu.tw
[2] 位典藏 合目 ,http://catalog.ndap.org.tw/
[3] WordNet, http://www.cogsci.princeton.edu/~wn/
[4] Suggested Upper Merged Ontology,
http://www.ontologyportal.org/
[5] Bourret, XML and Databases, 2004,
http://www.rpbourret.com/xml/XMLAndDatabase
s.htm
[6] Huang, Chu-Ren, Elanna I. J. Tseng, Dylan B. S.
Tsai, and Brian Murphy, 2003, Cross-lingual
Portability ofSemantic relations: Bootstrapping
Chinese WordNet with English WordNet Relations,
Language and Linguistics, 4.3, pp.509-532.
[7] Huang, Chu-Ren, Xiang-Bing Li, Jia-Fei Hong,
2004, Domain Lexico-Taxonomy:An Approach
Towards Multi-domain Language Processing,
Proceedings of the Asian Symposium on Natural
Language Processing to Overcome Language
Barriers, pp. 54-60, March 25-26, Hainan Island.
[8] Huang, Chu-Ren, Ru-Yng Chang, and Shiang-Bin
Lee, 2004, Sinica BOW (Bilingual Ontological
Wordnet): Integration of Bilingual WordNet and
SUMO. 4th International Conference on Language
Resources and Evaluation (LREC2004), Lisbon.
Portugal.
[9] Niles, I., and Pease, A., 2001, Toward a Standard
Upper Ontology, In Proceedings of the 2nd
International Conference on Formal Ontology in
Information Systems (FOIS-2001), Chris Welty and
Barry Smith, eds, Ogunquit, Maine.
陈永 黄居仁
中央研究院语言学研究所
yxchen@gate.sinica.edu.tw churen@gate.sinica.edu.tw
摘要
位典藏国家型科技计画自民国91 开始推
动,旨在将珍贵的重要文物典藏加以 位化,目前
透过 合目 系统提供整合的典藏内容查询介
面,但由於典藏品的种 属性繁多与关键词全文搜
寻方法功能上的限制,增加 典藏内容与使用者之
间的隔阂及搜寻的困难 .而如何将大 以中文为
基础的典藏资 提供其他外语使用者进 查询或
应用,促进国际合作或研究上接轨亦是相当重要的
课题.本研究尝试提出一 域词汇对应模式,在使
用者对主题资讯的搜寻上提供建议词汇,可协助全
面 解典藏内容并得到 丰富的典藏品资讯.过程
中以中央研究院语言学研究所开发之中英双语知
本体词网Sinica BOW为出发点,结合 域词汇
分 方法DLT及建议上层共用知 本体SUMO,
并以 位典藏计画之 合目 展示系统为研究对
象进 探讨.研究成果以知 本体架构 呈现目前
位典藏计画中典藏品的分 与分布情形,同时透
过语义关系延伸 进 关键词 展,提供使用者在
查询时 多的建议词汇.
关键词:查询 展,WordNet, SUMO(Suggested
Upper Merged Ontology), DLT(Domain
Lexico-Taxonomy)
1. 前言
「 位典藏国家型科技计画」自民国91 起
开始推动,旨在建 国家 位典藏,以保存文化资
产,建构公共资讯系统,促使 致文化普及,资讯
科技与人文融合,并推动产业与经济发展.一般以
位方式典藏之多媒体 位内容博大 深但主题
差 性相当大,加上整 后设资 (Metadata)时
用的描述语言与使用者搜寻时使用的白话文字常
常有 差,因此除非是 域专家,否则一般使用者
窥知典藏品之学术上专用术语,甚至 知该如
何进 搜寻浏览.一般全文检 的搜寻方式无法满
足此一 域之内容研究,搜寻需求,因此增加 丰
富的典藏内容与使用者之间的隔阂及搜寻的困难
.因此有必要针对广泛范围的典藏内容设计一套
符合使用者需求的搜寻策 .查询 展(Query
Expansion)是一种以建议词补充原始查询短语的方
法,可用 提升查询效 .假如查询 展的过程采
用与使用者互动的模式,则使用者与系统共同 与
查询 展的工作,系统通常建议一些建议词给使用
者,而使用者从这些建议词当中挑选一部分当作真
正查询 展的 展词.设计 好的查询 展策 必
须能够表达词汇之间的语意关系,同时帮助搜寻引
擎提升检 效能.
位典藏国家型科技计画目前透过 合目
[2]提供一整合的典藏内容查询介面,目前采用传
统的关键词全文搜寻方式供使用者查询资讯,碍於
典藏品的种 属性以及关键词全文搜寻方法功能
上的限制,在许多情况下并 容 提供给使用者最
想的查询结果.此外,考 位典藏国家型科技
计画所投入的人 物 ,如何将大 以中文为基础
的典藏资 提供其他外语使用者进 查询或应
用,促进国际合作或研究上接轨亦是相当重要的课
题. 能建 一中英双语交叉查询系统将可使得系
统使用者 容 全面性 解典藏内容并找到 多
感兴趣的相关资讯.因此本研究以中央研究院语言
学研究所开发之中英双语知 本体词网(Sinica
BOW)[1]为出发点,结合 域词汇分 方法及建议
上层共用知 本体,提出一查询 展策 并以 位
典藏 合目 为研究对象进 探讨,尝试用知 本
体架构 解目前 位典藏计画中典藏品的分
与分布情形,同时以语义查询的角 提供使用者
查询时 多的建议词汇.
综上所述,本研究之研究目的主要包含下 三项:
1. 以目前 合目 所典藏之项目建构一 位典藏
计画知 内容分布架构.
2. 设计一整合策 提供语义上及知 结构上之关
键词查询 展建议.
3. 建构 位典藏特殊分 内容之 域词表,提供
相关研究或应用之中英双语对应资源.
2. 相关研究
2.1 位典藏 合目
「 位典藏国家型科技计画」自民国91 开
始推动,旨在将珍贵的重要文物典藏加以 位化,
建 国家 位典藏,以保存文化资产,建构公共资
讯系统,促使 致文化普及,资讯科技与人文融
合,并推动产业与经济发展.迄今开发已有30余
个典藏计画与开放型计划,共约50余个计画,已
有丰富的成果.因此实有必要开发整合型的成果查
询介面提供各界使用者查询应用,目前 位典藏计
画中 个主要的展示系统分别为 合目 及公共
展示系统.而由中研院语言所主导之语言座标计画
则以自然语言处 技术之应用为出发点,希望藉由
语言的中介特性能够将各 域知 系统化呈现并
提供语言词汇使用上的标准. 位典藏计画中相关
与者及使用者所接触之资 内容特性如表1所
示.
表 1 位典藏计画资 内容特性
计画名称 单一分项
计画
合目 公共展示
系统
语言座标
与/使
用者
域专家 域专家
与一般大
众
一般大众 域专家
与一般大
众
资 内容 专业术语 专业术语
加通用词
汇
通用词汇 通用词汇
资 少 多 少 多
资 种 多样 Meta data 多媒体图
片
语言分析
结果
典藏内容 实体物品 实体物品 实体物品 辑关系
与知 媒
介
位典藏 合目 是 位典藏国家型科技计
画所建置的目 性展示平台,旨在提供全国性 位
典藏藏品的检 与搜寻,以展现 位典藏计画之成
效.透过 合目 的单一网站窗口,即可检 全国
近百组跨十余个学术 域之 位典藏内容,提供民
众资讯的查询及取用 位典藏资讯. 合目 工作
小组针对各计画资 库 位与架构,进 后设资
语意,语法,结构之分析比对作业,在后设资
(Metadata)建置上采用Dublin Core标准, 程上则
包含 访谈与表单回填,内涵分析,系统分析,
Metadata测试,评估等多道严谨程序.目前於网
查询介面提供内容主题,时间分 ,地 分 ,典
藏机构与计画及Dublin Core进阶搜寻等五种主要
资讯搜寻方式.由於资 庞大,因此目前依据
位典藏计画将内容主题划分为14个主题 别,包
括:生物,地质,人 学,档案,地图与遥测影像,
石 片,善本古籍,考古,器物,书画,新闻,
汉集全文,影音与建筑等,其中以档案主题包含
699,368笔内容,典藏资 为最多,地质主题包含
3,309笔资 为最少.平均而言,每一主题 别
包含有约115,593笔典藏资 ,而各内容主题 别
下各以阶层结构包含 干阶层与子 别.对於大
多 使用者而言,内容主题查询为最直观简单之查
询方式,因此实有必要针对此一项目作 深入的研
究,以期提供 人性化 有效 的检 结果.
图 1 合目 系统画面
2.2 域词汇分 法 (Domain
Lexico-Taxonomy; DLT)
以 域为基础的语言处 方法是自然语言处
研究重要的一环, 用 域词汇分 法可将所有
知 区分为几个主要 别.在Huang等人[7]的研究
中提出 一个针对多 域的语言处 方法,设计出
域分 法并且半自动地建 域词表.每个用
存放 域词表的分 别即称为 域词汇分
(Domain Lexico-Taxonomy; DLT), DLT可以在
别及处 多 域语言资 内容上提供核心词汇资
讯.在 域分 研究中,以人工方式将所有知 区
分为549个 域,主要的 考依据是中文图书分
系统,大英百科全书及远 英汉词典.
域分 以阶层树结构呈现主要 域及子
域的上下位关系, 域依抽象程 共分为四个层
级,最上层分为14个 域,包含人文学科,社会
科学,形式科学,自然科学,医 科学,工程科学,
应用产业,艺术,休闲娱 ,专有名词,语体,各
种语言 词源,各国地名与各国民族,是抽象程 最
高的分 .其下第二层具体区分为147个子 域,
而第三层 细分出279个 具体的子 域,最后一
个阶层则因为并非所有节点均有所延伸而仅细分
出109个子 域.总计四层树 结构中共有549个
域分 节点.
每一个 域分 节点中包含 一个小的 域
词表,词表中的词汇均是由WordNet[3]中抽取出的
一般常用词汇,目的是 需要透过特殊的 域词汇
即可以一般性词汇 定义出一个 域.目前 域分
已可与WordNet 的同义词集(synset)进 对应并
且可提供中英双语的配对词汇.由於WordNet中提
供 词汇的下位关系词汇,因此一个词汇所属的
域可以继承给所有的下位词汇,研究中将15,160个
中文词汇对应至463个 域分 中, 域词表的产
生方式可以如图2所示:
Domain A
WordNet
Synset
SynsetSynsetSynset
……
Synonym link
…………
Domain Lexicons
Domain B
WordNet
Synset
SynsetSynsetSynset
……
Synonym link
…………
Domain Lexicons
Hyponomy
link
Hyponomy
link
图 2 DLT 域词表建构方法
2.3 建议上层共用知 本体Suggested
Upper Merged Ontology
SUMO(Suggested Upper Merged Ontology,建
议上层共用知 本体)[4]是由IEEE标准上层知
本体工作小组所提出的知 本体架构,目的是发展
成标准的上层知 本体,这将促进资 互通性,资
讯搜寻和检 ,自动推 和自然语言处 .知 本
体(ontology) 似於一组字典或术语表,但能够
使电脑处 多内容的细节和其结构.透过知 本
体可将人们有兴趣的 域正规化为一套概 ,关系
和定 (axiom).上层的知 本体被限制在meta
的概 ,一般,抽象或者哲学,因此足够一般提出
(在一定水准上)一个涵盖广阔范围的 域区域
[9].特殊 域具体的概 被包括在上层知 本体
中,但是这样的知 本体可提供特殊 域( 如:
药,财政,专案…等等)的知 本体结构的建 .
SUMO藉由最高层次的知 本体,鼓 其他特殊
域知 本体以其为基础衍生出其他特殊 域的知
本体,并为一般多用途的术语提供定义.目前
SUMO已经和英语词汇网 WordNet1.6版本作初
步的 结.SUMO中的节点以阶层树方式 结,如
图3所示.
实体
物质的
物体 自身 续物体
物质
纯物质 基本物质
属
原子
次原子 子
原子核
电子
质子
中子
化合物
水
养份
图 3 SUMO阶层节点示
2.4 中央研究院中英双语知 本体词网(Sinica
BOW)
中英双语知 本体词网(Sinica BOW)[1]是一
结合词网(WordNet),知 本体,与 域标记的词汇
知 库,由中央研究院语言所文献语 库小组与资
讯所中文词知 库小组合作建置,从语言工程的角
,以台湾地区的语言使用为经验基础,提供语言
和语言,语言和概 以及语言和 域的资讯,甚至
是跨语言间的讯息.中英双语知 本体词网以建
一完整 确的中英对译资 库及检 介面为目
的,作为 位典藏知 国际化的基础;并持续建
各 域之双语 域辞典,以作为各 域/典藏之双
语控制词汇 考标准.中英双语知 本体词网同时
提供具 域判断能 之资讯检 应用.此外,建
附加 域标记之双语辞典及检 介面使中英双语
知 本体词网成为一知 加值双语电子辞典.
Sinica BOW主要使用的资源包含WordNet,
ECTED(English- Chinese Translation Equivalents
Database)以及SUMO(Suggested Upper Merged
Ontology,建议上层共用知 本体).其中WordNet[3]
是1985 普 斯顿大学认知科学实验室以现代心
语言学 所述的人 词汇记忆为启发所开发
出的语意式电子字典,以每个同义词集表达一种词
汇概 ,将同义词集区分为四种英文词 :名词,
动词,形容词,副词,并以二十几种词义关系组织
同义词集.由中研院资讯所与语言所合作建构的
ECTED以WordNet为基础,经由现有英中或中英电
子辞典的词形对应,为每个同义词集词义找出可能
相对应的中译词组,再经由人工检验.寻找对译尽
可能的以词汇而非描述性短语表达,目的在於让每
个同义词集 有最适当的一至三个左右的中文对
译.[6] 依据SUMO2002 版资 ,黄居仁等人[8]将系
统介面以及概 节点进 中文化,其涵盖11大 的
概 ,每大 又区分为二至五个 别,总共囊括
3,912个概 .SUMO已经与WordNet1.6版本结合,
且以同义(synonymy),上位(hypernym),体
(instantiation)这三种 别显示同义词集和SUMO
概 间的对应关系, 如:同义词集cell(细胞)与
细胞概 (cell)是同义.hockey(曲棍球)属於运
动概 (sport), 者间的关系为上位,也就是
运动涵盖hockey(曲棍球).China(中国大 )属
於国家(nation)这概 的体 .除此, 以「中
国图书分 法」为基准,并 考各知 分 与实际
研究经验,提出:包含九大 的知 分
(Knowledge Content),涵盖427个 域.另外,
并因应语言资源特性加入下 语言使用(Language
Usage)的各 讯息:专名( 明文字符号的指涉)
(Proper Name),语体( 明文字符号的使用)
(Genre/Strata),各种语言 词源
(Language/Etymology),各国地名(Country
Name). 域阶层的建 在於替 同词义中的词汇
项目区别其使用的 域, 如:stock作「股票」和
「家畜」 个 同解释时,分属於财政学 的资本
以及动物学的脊椎动物学.加注 域信息可 低词
汇歧 性,增加资 交换时的互通性,辅助 域词
汇库之建构.Sinica BOW透过WordNet1.6 offset延
伸所产生的 别码作为媒介,进 ,将每个资
源以及各 讯息 结.因WordNet1.6 offset延伸的
别码可获得原本WordNet存在的词 ,解释,英
文 ,同义词集,各同义词集间的词义关系及其
所属词汇.而SUMO概 与WordNet的 结,使得
可透过该 别码获取词义与概 搭配的讯息.以
WordNet为基础所建置的ECTED与针对WordNet同
义词集的各词汇项目所给予的 域值,也是透过该
别码获取.而特殊 域词汇库,加上相对应的
Sinica BOW 别码,也可保 原始资源的资 库格
式和WordNet 结.又, 域知 本体则是在SUMO
某些概 下进 延伸发展.每个特殊 域词汇库中
的词汇一样具有所属的概 ,其所属概 可能是
SUMO或特殊 域知 本体的某一概 ,特殊 域
词汇库和 域知 本体的结合,使得透过该 别码
又 起所有的讯息.Sinica BOW的资源和架构如图
4所示.由於透过WordNet可以和同是以WordNet为
基础架构所建置的其他语系WordNet资源加以
结, 如:EuroWordNet[9],因此以此基础架构可
编制成多语的词汇网 ,成为多语环境中所需之语
言知 结构的基础资 .
图 4 SINICA BOW架构图
3. 域词汇知 对应架构
根据研究目的与相关研究探讨,本研究结合
DLT,WordNet与SUMO等架构所提供之横向与纵
向语言资源,将 合目 中各主题分 对应至一建
议架构中如图6所示,由此架构 结各项语言资源
提供 域分 之细项资讯,除可将 位典藏计画之
典藏品 别对应至知 本体中观察目前典藏品在
整体知 架构中的分布情形,同时亦可扩充 合目
使用者在进 主题分 检 时的查询 展词汇.
图 6 域词汇对应模式
生物Biology
地质Geology
人 学Anthropology
器物Artifacts
档案Archives
书画Calligraphy and Painting
地图与遥测Maps and Remote Images
石 片Stone and Bronze Rubbings
善本古籍Rare Books
考古Archaeology
新闻Journalism and Mass Media
汉籍全文
影音
建筑
人文学科Humanities
社会科学Social Science
形式科学Formal Science
自然科学Natural Science
医 科学Medical Science
工程科学Engineering Science
应用产业Production Industry
艺术Fine Arts
休闲娱 Recreation
合目 主题分 域词汇分 DLT WordNet SUMO
上位词
下位词
同义词集反义词 近义词
部件词
表 2 合目 主题分 资 对应表
合目 主题分 域分 WordNet 同义词集
(同义词集offset)
SUMO对应关系 ; SUMO概
生物Biology 自然科学
-> 生物学
biota, biology
(05987709)
Hypernym ; Organism
地质Geology 自然科学
-> 地球科学
-> 地质
geological formation, geology, formation
(06691504)
Hypernym ; SelfConnectedObject
人 学Anthropology 社会科学
-> 人 学
social anthropology, cultural anthropology
(04673338)
Instantiation ; FieldOfStudy
艺术
-> 造形艺术
器物Artifacts
艺术
-> 装饰艺术
-> 手工艺
artificiality
(03757381)
Hypernym ;
SubjectiveAssessmentAttribute
人文学科
-> 图书 学
档案Archives
人文学科
-> 史学
archive, archives
(02206789)
Hypernym ; EducationalOrganization
艺术
-> 图画艺术
书画Calligraphy and Painting
艺术
-> 装饰艺术
-> 书法
calligraphy, penmanship
(04826894)
painting, picture
(03079051)
Hypernym ; Text
Hypernym ; ArtWork
艺术
-> 摄影
-> 远距摄影
艺术
-> 图画艺术
-> 制图法
应用产业
-> 交通
地图与遥测Maps and
Remote Images
自然科学
-> 地球科学
Map(02965788) Hypernym ; Icon
石 片Stone and Bronze
Rubbings
人文学科
-> 古文字学
Rubbing
(03259790)
Bronze
(02342693)
Hypernym ; copy
Hypernym ; ArtWork
人文学科
-> 史学
人文学科
-> 哲学
善本古籍Rare Books
人文学科
-> 文学
book
(04831824)
papyrus
(04868693)
Synonymy ; Book
Hypernym ; Text
考古Archaeology 社会科学
-> 考古学
archeology, archaeology
(04670536)
Instantiation ; FieldOfStudy
新闻Journalism and Mass
Media
工程科学
-> 电信通讯
journalism
(00403517)
information bulletin
(05010288)
report, news report, story, account, write up
(05009327)
Hypernym ; OccupationalRole
Hypernym ; Text
Hypernym ; Text
汉籍全文 人文学科
-> 宗教
Literature
(04798932)
Hypernym ; Text
艺术
-> 音
影音
艺术
-> 表演艺术
dramaturgy, dramatic art, dramatics, theater,
theatre
(05256340)
play, drama
(05257517)
Instantiation ; FieldOfStudy
Hypernym ; Text
建筑 工程科学
-> 建筑
construction, building
(00715519)
Hypernym ; Constructing
以此架构进 查询 展可得到纵向及横向延
伸之相关词汇资 ,为优於传统查询 展方式之设
计.根据 合目 系统对典藏品所区分之14 主
题,可以一对多方式对应至DLT 域词汇分 中,
而各DLT 域词表中的词汇即可称为是该 合目
主题之基本词汇.此外,透过SUMO之 辑关系
可将主题分 对应至SUMO架构上特定节点,并由
该节点延伸纳入相关子节点.以WordNet synset之
offset number 找出包含上下位词及近义反义词作
为 域主题查询延展时之 考延伸词汇.在建议词
策 上,一般搜寻引擎采用的是被动式使用者 为
观点: 以回馈资 为导向, 计算使用者 为而得
到相关资 页面.主动式知 架构观点则以严谨的
学术分 为基础, 架构出明确体系, 可透过语言提
供知 交换基础平台.
4. 研究结果
根据前文所提出之 域词汇知 对应架构,
可以清楚观察 合目 中采用的主题分 在第一
层的14种主题分 中如何对应到DLT的 域分
,其中某些主题由於缺少直接对应的分 项目,
因此 出 个以上的 似分 .由於阶层树 结构
的特性,第二层以下较具体的 合目 细项主题分
亦可以相同方式 结至相对应的DLT 域分
当中,亦可得到对应的WordNet synset 资 以及
SUMO节点资讯.
4.1 位典藏计画知 内容分布架构
以第一层的 合目 主题分 对应至SUMO
结构中可以观察目前 位典藏计画所建置的典藏
品内容在整体人 知 中所占的位置,如表3所
示.其中SUMO节点以节点代号 字 代表,
如"生物体1.1.1.1.2.4.8.,organism,生物体" 代表著
如同位於图7的阶层结构,以此架构可以 解目前
在 位典藏计画中的典藏品以有形的物质居多,其
中又以文本为最大宗;在知 本体上属於抽象项目
的则以专业的研究 域如人 学及考古学最为明
显.
表 3 SUMO节点对应表
合目 主题分 SUMO节点位置
生物Biology 1.1.1.1.2.4.8.,organism,生物体
地质Geology 1.1.1.1.,self connected object,自身 续
物体
人 学Anthropology 1.2.7.32.,field of study,研究 域
器物Artifacts 1.2.4.13.61.211.,subjective assessment
attribute,主观评价属性
档案Archives 1.1.1.4.12.31.51.,educational
organization,教育组织
书画Calligraphy and
Painting
1.1.1.1.3.8.22.,text,文本
1.1.1.1.2.5.13.,art work,艺术品
地图与遥测Maps
and Remote Images
1.1.1.1.3.7.,icon,图示
石 片Stone and
Bronze Rubbings
1.2.5.14.62.214.202.142.215.,copy,复制
1.1.1.1.2.5.13.,art work,艺术品
善本古籍Rare Books 1.1.1.1.3.8.22.45.,book,书籍
1.1.1.1.3.8.22.,text,文本
考古Archaeology 1.2.7.32.,field of study,研究 域
新闻Journalism and
Mass Media
1.2.4.13.60.210.,occupational role,职业
角色
1.1.1.1.3.8.22.,text,文本
汉籍全文 1.1.1.1.3.8.22.,text,文本
影音 1.2.7.32.,field of study,研究 域
1.1.1.1.3.8.22.,text,文本
建筑 1.1.2.8.43.93.94.,constructing,建构
1.,entity,
实体
1.1.,physical,
物质
1.1.1.,object,
物体
1.1.1.1.,self
connected
object,自身
续物体
1.1.1.1.1.,substance,
物质
1.1.1.1.2.,corpuscular
object,复杂体/非单
质体
1.1.1.1.2.4.,organic
object,有机物
1.1.1.1.2.4.8.,organism,
生物体
图 7 "生物"节点在SUMO中的位置
4.2 位典藏分 内容之 域常用词表
透过与DLT及WordNet的对应 结可以为每
一个 位典藏 合目 中的主题分 提供 域常
用词表.正如同DLT的设计 ,以 域常用词
表作为定义 域的方式可以在 熟悉艰涩的专业
术语情况下为特定 域定义出范围,做为知 分
的工具.
分 内容之 域常用词表同时可应用於资讯
检 上,透过 域常用词表进 查询 展时可以协
助使用者通盘 解该 域中的相关词汇及这些常
用词汇之间的关系,有助於全面 解 域中相关内
容及知 结构.以"地质" 域为 ,可以透过DLT
及WordNet的 结找出如表4的 域常用词表,
词表中包含 研究地质主题的各学门名称,以及相
关的气象学及矿物学等等.透过这些常用词表即可
概 解地质学所研究的内容与项目,对於陌生的
使用者而言可提供相当大的帮助.单纯以地质为关
键词进 查询时,在 合目 系统上可以查询到
4,760笔资 ,但 采用 域常用词表中的建议词
汇进 查询,则可获取9,750笔资 ,可得到 倍
以上的资 . 表 4 地质 域词表
"地质" 域词表
大地测 学(geodesy),水文学(hydrology),火山学
(volcanology),古地质学(paleogeology),石油地质
学(petroleum_geology),地球物 学(geophysics),
地质学(geology),地震学(seismology),地学
(geology),形态学(morphology),岩石学(petrology),
穴学(speleology), 窟学(speleology),气候学
(climatology),气象学(meteorology),测地学
(geodesy),结构地质学(tectonics),经济地质学
(economic_geology),构造地质学(tectonics),构造
运动学(tectonics),磁学(magnetism),矿物地质学
(mining_geology),矿物学(mineralogy),
4.3 词汇查询 展
合目 查询系统提供 使用者方 的查询
介面, 积至2006 7月止,使用者查询频 较
高的词汇如表5所示.其中可以发现与蝴蝶相关的
词汇相当多,但部分词汇属於较为艰深的专业词
汇.此一现象 明部份艰深的专业词汇在实际查询
使用上有其实用性,然而未受过专业训 的使用者
可能未具备足够的专业知 可直接以这些词汇进
查询.本研究所提出之对应模式即可在此一情况
下针对使用者感兴趣之词汇进 词汇 展,增加使
用者查询时的 考依据.
以"蝴蝶"作为使用者搜寻词为 ,可以透过
DLT及WordNet的 结找出蝴蝶所属的 域常用
词表如表6,词表中包含 具代表性的蝴蝶名称,
以及分 上相近的蛾 等.透过这些常用词表可概
解蝴蝶与"昆虫","蛹"等词汇归属同一
域,这对於陌生的使用者而言可提供有效的查询提
示.
而WordNet亦提供 同义词集,上位词及下
位词等相关词汇,表7 出"蝴蝶"在WordNet
中的关系词汇.另外,由图8则可 解"蝴蝶"概
在SUMO架构中的位置以及所属的知 体系.
在本研究所提出的模式中,使用者可分别由
域词,关系词,知 架构等三个面向得到关键词
汇的 展.观察以"蝴蝶"进 词汇 展的结果可
以发现,许多 展所得的词汇与 合目 统计之使
用者高频查询词相符合,因此 明词汇 展可以在
词型比对之外,以词义分析方法提供使用者有效的
查询词汇 展协助.
表 5 合目 高频查询词
关键词
胡台 ;陶;王建民;酒器;虱目鱼;陶 AND 陶
器;西 雅;蝴蝶; 勤; ;台中;大乘;董
氏针灸;大稻埕;蝶;文徵明;坐骨 AND AND
痛;棒球;翠玉白菜;鬼;…;紫斑蝶;昆虫;
蝶科;紫斑蝴蝶;蝶科;凤蝶总科;凤蝶;
翅目;……
表 6 蝴蝶 域词表
"蝴蝶" 域词表
衣蛾(tineid),衣蛾(clothes_moth),夜盗蛾
(armyworm),夜盗蛾(armyworm),昆虫(insect),昆
虫(bug),昆虫(coreid_bug),枯 蛾(lasiocampid),枯
蛾(eggar),麦蛾(gelechiid),麦蛾
(Gelechia_gossypiella),麦蛾(angoumois_moth),菜
粉蝶(small_white),菜粉蝶
(southern_cabbage_butterfly), 虫(leaf_bug), 虫
(mirid_bug),蛹(pupa),蛹(chrysalis),蛾(moth),蛾
(gypsy_moth),凤蝶(emperor_butterfly),凤蝶
(emperor),谷蛾(tineid),谷蛾(grain_moth),灯蛾
(arctiid),灯蛾(tiger_moth),蚕蛾(bombycid),蚕蛾
(giant_silkworm_moth)
表 7 蝴蝶在WordNet中的关系词
同义词集
蝴蝶,蝶
上位词
翅目昆虫
下位词
粉蝶,热带臭蝶,小灰蝶,蛱蝶科的蝴蝶
图 8 "蝴蝶"所属的知 体系
5. 结果与讨
位典藏国家型计画为一规模庞大之典藏计
画,涵盖的资 与知 层次均相当庞大,各主题
彼此之间的差 亦大,在建构一整合性之展示系统
时如何有效呈现资 内容是一相当重要之挑战.本
研究透过 结DLT, Sinica BOW与WordNet,针对
网 使用者在浏览检 上提供一查询 展模式,
DLT中的 域分 系统主要基於中文图书分 系
统,同时 考大英百科全书及远 英汉词典等语言
资源.可以与 位典藏之主题分 进 对应并提供
相关的 域词汇.而WordNet所提供的透过各种
关系所 结的相关词汇可以有效帮助 解词汇的
使用及词汇间关系,亦对於使用者全盘 解某 域
知 并进 查询有相当大的助 .另外,由Sinica
BOW所提供之中英双语对应词汇,可供作为 合
目 展示系统后续发展中英双语查询介面之使
用.最后,本研究透过主题分 与SUMO节点的
对应,可供 解 位典藏计画中典藏品在整体人
知 架构中所在之环境位置,亦对於延伸 解相关
知 提供 方向.因此,由本研究可了解自然语言
处 技术与语言资源在 位典藏计画中的定位及
应用方向.后续研究将以整合 结其他语言资源,
发展语义查询 展为首要目标,在应用上则计划建
置自动化模组辅助 位典藏计画之相关展示系统
处 查询 展应用.
考文献
[1] 中央研究院中英双语知 本体词网 The
Academia Sinica Bilingual Ontological Wordnet
(Sinica BOW),http://BOW.sinica.edu.tw
[2] 位典藏 合目 ,http://catalog.ndap.org.tw/
[3] WordNet, http://www.cogsci.princeton.edu/~wn/
[4] Suggested Upper Merged Ontology,
http://www.ontologyportal.org/
[5] Bourret, XML and Databases, 2004,
http://www.rpbourret.com/xml/XMLAndDatabase
s.htm
[6] Huang, Chu-Ren, Elanna I. J. Tseng, Dylan B. S.
Tsai, and Brian Murphy, 2003, Cross-lingual
Portability ofSemantic relations: Bootstrapping
Chinese WordNet with English WordNet Relations,
Language and Linguistics, 4.3, pp.509-532.
[7] Huang, Chu-Ren, Xiang-Bing Li, Jia-Fei Hong,
2004, Domain Lexico-Taxonomy:An Approach
Towards Multi-domain Language Processing,
Proceedings of the Asian Symposium on Natural
Language Processing to Overcome Language
Barriers, pp. 54-60, March 25-26, Hainan Island.
[8] Huang, Chu-Ren, Ru-Yng Chang, and Shiang-Bin
Lee, 2004, Sinica BOW (Bilingual Ontological
Wordnet): Integration of Bilingual WordNet and
SUMO. 4th International Conference on Language
Resources and Evaluation (LREC2004), Lisbon.
Portugal.
[9] Niles, I., and Pease, A., 2001, Toward a Standard
Upper Ontology, In Proceedings of the 2nd
International Conference on Formal Ontology in
Information Systems (FOIS-2001), Chris Welty and
Barry Smith, eds, Ogunquit, Maine.
·上一篇:词汇题
·下一篇:词汇部分

文件类型:PDF/Adobe Acrobat 文件大小:字节