机械设计经济理论招标投标微软认证生物数学纳斯达克会计管理医学家木本植物自学考试

跨语言资讯检索:理论  文件类型:PDF/Adobe Acrobat   文件大小:字节
跨语言资讯检索:理论,技术与应用
Cross-Language Information Retrieval:
Theories and Technologies
陈信希
Hsin-Hsi Chen
Department of Computer Science and Information Engineering
National Taiwan University
E-mail: hh_chen@csie.ntu.edu.tw
关键词 (Keywords):资讯检索(Information Retrieval);多语性(Multilinguality);
效能评估(Performance Evaluation);询问翻译(Query Translation)
TRECCLEF
NTCIR
【Abstract】
Multilinguality is one of the major characteristics
in network era. The trend toward information
globalization has brought new challenges for in-
formation management. On the one hand, it is
often necessary to share the valuable resources
on the web with users of different languages. On
the other hand, it is also necessary for a user to
utilize knowledge presented in a foreign language.
This paper introduces related theories and tech-
nologies of cross language information retrieval,
which is kernel in multilingual information man-
agement. The basic concepts are presented in
sequence on the basis of the classification of
query translation, document translation, and no
translation. Besides, some advanced concepts
like translation ambiguity and target polysemy, as
well as proper name transliteration are discussed.
Performance evaluation is indispensable for im-
provement. This paper also shows three
world-wide IR evaluation, including TREC, CLEF
and NTCIR.
1. 导论
新一代资讯传播的特色是:网际网 突破空间距 ,
打造一个 分国界的资讯地球村.尤其透过全球资讯
网,各地的资讯皆唾手可得, 但丰富且即时.在网际
网 上 通的资讯除 非常庞大之外,所使用的语
言种 也非常多.依据2000 ETHNOLOGUE目 上的
28(1)19 - 32() 19
统计,全世界语言 目高达6,809种1.真实世界语言使
用人口 ,前几名依次为中文,英文,印 文,西班牙
文,葡萄牙文,孟加 文,俄文,阿 伯文,日文.但
根据2001 3月份的统计估算,在网 世界语言使用人
口 ,前几名依次为英文(47.5%),中文(9.0%),日文
(8.6%),德文(6.1%),西班牙文(4.5%),韩文(4.4%),法
文(3.7%),义大 文(3.1%),葡萄牙文(2.5%),俄文
(2.1%).而网际网 内容所使用的语言比 ,前几名依次
为英文(68.39%),日文(5.85%),德文(5.77%),中文
(3.87%),法文(2.96%),西班牙文(2.42%),俄文(1.88%),
义大 文(1.56%),葡萄牙文(1.37%),韩文(1.29%)2.另
外,Hershman在1998 ,曾引用较旧的资 ,指出在全
球资讯网上,大约80%的网站是英文网站,而将近40%
的网际网 使用者 会英文.因此,如何将网 资源,
介绍给 同语言的使用者,同时吸收其他语言所呈现的
资讯,都是资讯国际化 能忽 的重要课题.
多语言处 的应用相当广,以目前极为受到重视的
位图书馆(digital library)计画为 , 位图书馆所拥有的
大 位化资源,扮演网际网 内容提供者的重要角
色,发挥文化传播,教育,陶冶性情等多重功能. 位
图书馆是内容与技术的整合,基本上有下 三个M的特
色(Borgman, 1997),其中多语言处 在许多 位图书馆计
画,都被 为关键技术之一.
(a) 多媒体(multi-media):透过 同媒体所呈现的内涵,
引导 同层面的使用者,吸收 位图书馆的精华.
(b) 多语言(multi-linguality):网际网 所带 的无国界
特质下,如何 低语言的障碍,呈现 位图书馆的
内涵是重要课题.
(c) 多文化(multi-culture):由於网际网 的特殊资讯传
播功能,各个 位图书馆典藏的交 ,会越 越密
.重要内涵彼此的观摩, 带动多重文化的比较,
促进文化的融合.
设计一套多语言资讯系统,必须考虑四项要素(Bian and
Chen, 2000):
(1)资 输入:资 输入的方法, 如中文有注音输入
法,仓颉输入法等.
1 http://www.ethnologue.com/ethno_docs/distribution.asp
2 http://www.emarketer.com
(2) 资 表现和传输方式:这牵涉到字元集合,编码系
统,和传输规约.
(3) 资 运算: 如资讯检 .
(4) 资 输出:资讯的呈现, 如字型对应及产生.
在这四项要素中,资 输入,表现和输出,已经很成
熟,直接引用现有的系统.而在资讯传输与资源共用上,
诠释资 (metadata)(Andresen, 1997; Bearman, 1996;
Caplan and Guenther, 1996)是 可缺少的重要机制,国内
外有很多文献探讨这个课题,台湾大学-台湾师范大学图
书资讯系所团队曾研发一套著名的系统:Metalogoy(Chen,
Chen and Chen, 1999).因此,本文专注於中英语言差
部份 跨语言资讯检 与技术.所谓跨语言资讯检
,是提供使用者以某种语言检 另外一种语言表达的
文件.过去这项研究,英文使用的名称非常分歧,直至
1996 在ACM SIGIR Workshop for Multilingual Infor-
mation Retrieval,经与会人员讨 ,将其定名为
Cross-Language Information Retrieval.然而大约在同一时
间,美国Defense Advanced Research Project Agency
(DARPA),也将这项研究给予另一种称呼:Translingual
Information Retrieval. 管是那种称呼,其研究目标一
致,都是希望在多语的资讯时代,提供跨语的检 服务.
在跨语言资讯检 的研究上,近几 有多项国际会议
举办专题演讲(Chen, 1997, 1998; Hovy and Idel, 1998;
Grefenstette, 1998),甚至举办特定主题国际会议 (Gre-
fenstette, 1996; Oard, 1997a; Vossen, 1997), 位元图书馆
系 文(Borgman, 1997; Oard, 1997b; Powell and Fox,
1998).著名的计算语言学和资讯检 域国际会议,如
ACL Annual Meeting,ACM SIGIR99 (SIGIR00)等,都有
特别的议程探讨跨语言资讯检 的发展.ACM SIGIR02
并有一研讨会,由三个主要跨语言资讯检 评比组织:
TREC,CLEF,与NTCIR共同规画,拟讨 未 几 的
评比重点.本文拟介绍这个研究 域主要的问题,过去
所发展的技术,以及评估方法,提供有兴趣从事这 域
研究的人员 考.
2. 主要的问题
在思考及提出可 的解决方案之前,我们先分析跨语
言资讯检 的特徵,以下 出其中几个主要的问题:
(a) 询问(query)与文件(document)分属 同语言
这是跨语言资讯检 主要的特徵,因此询问与文件
Journal of Library and Information Science 28(1):19 - 32(April, 2002) 20
之间,必须有一个对应,翻译是重要的运算之一.
(b) 询问中的词可能是多义
原始询问(source query)的歧义性(ambiguity),必须
辅以歧义性分析机置,翻译后目标询问(target query)
的多义性(polysemy)等问题必须克服.
(c) 询问通常很简短
由於使用者的习性,输入的询问非常简短,这增加
歧义性分析和翻译的困难 ,进而影响检 的品
质,适 的询问扩张(query expansion)是可能考虑
的方向.
(d) 询问中词的决定
一些语言, 如中文,日文,韩文等,词与词之间
并没有明显的分隔符号,断词(segmentation)在此也
是个问题.
(e) 文件的多语性
网际网 上的文件由 同的语言表达,语言 别
(language identification)是检 的基本工作.
(f) 输出结果的呈现(visualization)
检 所得的多语言文件,如何分辨彼此间的分 差
,以及合并 同语言文件检 结果,呈现在使用
者面前,也是跨语言资讯检 必须面对的挑战.
本文的重点,放在(a),(b),(c)等问题的介绍,断词部
份请 考(Chen and Lee, 1996),语言 别部份请 考(Su,
et al., 1998),合并 同语言文件检 结果请 考(Lin and
Chen, 2002).
在分析问题之后,我们回过头 看看,传统的资讯检
系统 麼地方必须加强,以解上述问题.图一是传统
资讯检 的模型,以及可能的 入点:
资讯检 的基本目标是由庞大的 位化资 库中,依
使用者本身的需求,提供相关资 的特徵,以检 出所
要的资 .因此,资讯检 基本架构主要的工作有三:
(a) 将每一物件的意义或内容表达储存下 .
(b) 将所要检 物件的特徵表示出 .
(c) 比较上述 项表示式,以找出满足条件的物件.
其中必须考虑的问题如下:
(a) 如何把物件表示出 可供检 的单位是 麼
他们之间的关系如何安排 如何把原 资 转换成所要
的结构
(b) 如何将使用者的资讯需求表达出
(c) 如何比较叙述的相似 ,以检 出最近似的物件
如何将结果呈现出 如何评估检 过程的效能
以跨语言资讯检 而言,可以 入的点有四:
(a) 文件翻译:原始文件(source document)翻译成目标
文件(target document),再进入表示式的阶段.
(b) 向 翻译:原始文件转换成特定的表示式后,代表
原始文件的向 再经过翻译.
(c) 询问翻译:原始询问经过翻译.
(d) 项向 翻译:代表原始询问的向 经过翻译.在询
问非常简短的情况下,(c)与(d)差 并 大.
3. 基本方法
过去跨语言资讯检 可能的策 ,基本上可以区分出
询问翻译(query translation),文件翻译(document transla-
tion),和 翻译(no translation)等三 ,以下小节分别描
述各项技术的特点.
查询问 文件集合
图一 传统检 系统架构
文件表现 查询表现
(c)(a)
(d)(b)
比较
28(1)19 - 32() 21
3.1 询问翻译
根据翻译所使用的资源,将询问翻译的模式进一步区
分成知 为本(ontology-based),语 库为本
(corpus-based),和混和式(hybrid)的方法.
3.1.1辞典为本的方法
辞典是很基本的知 源,知 为本的方法之一就是
采用机 辞典 做翻译.这 主要的问题是词汇的歧义
性,一个词汇可能有多重意义,因此产生 似一般机器
翻译系统选词(lexical selection)的问题.另一个问题是辞
典本身的覆盖 ,询问中的检 词汇在辞典中可能找
到.以选词而言,有几个考虑的因素:
(a) 选择的方法:全部选,任选N个,选「最好」的N
个.
(b) 选择的层次:词汇,还是词组.
图二是标准的实验架构,以英文询问检 中文文件集
为 .英文询问以 种翻译:机器和人工,产生 组中
文询问,模拟有无翻译错误的情况.这 组中文询问分
别输入单语的中文资讯检 系统,产生 组中文文件检
结果,最后比较效能差 .
Hull & Grefenstette (1996)曾做一个实验,将辞典所查到
的词汇, 作任何歧义分析.在单语的资讯检 系统,
有0.393的平均准确 .在跨语检 ,则有0.235的平均
准确 .跨语检 只有单语检 59.8%的准确 ,下
近40%.这项实验反应,即使是最简单的模型,也有
错的效能.当然这跟测试的语 (询问,检 语 库),与
环境(检 系统)有极紧密的关系, 据只能供 考.Davis
(1997)在TREC 5的实验 ,采用同样最简单的方法,在
同的条件下,单语检 平均准确 是0.2895,跨语检
有0.1422,近49.12%的效能,这同样反应上述的 点.
当把选择的方法换成任选N个,Ballesteros & Croft
(1996)将询问中的每个词汇去查辞典,每个词汇都只选择
第一种词义,并以定义中的词汇 代表原 的词汇.在
这样的策 下,平均准确 比单语检 掉 50-60%.
Kwok (1997)在英文-中文跨语检 ,做 似的实验,但
由词汇对应的三种词义中各挑一个(第一个).实验显示比
所谓最好的翻译(人翻译)结果,差30-50%.
人工翻译 翻译机置
中文询问
中文资讯检 系统
中文询问
英文询问
中文文件 中文文件
效能评估
图二 标准实验架构
Journal of Library and Information Science 28(1):19 - 32(April, 2002) 22
Hull & Grefenstette (1996)分析最直观的翻译模式,发现
主要错误的 源有二:多词词组(phrase)的翻译和歧义
性.Ballesteros & Croft (1997)针对多词词组翻译做 实
验,发现"好"的词组翻译的确有很好的影响,但"
好"词组翻译却产生反效果,比词对词直接翻译差
39.3%.Davis (1997)对歧义性的问题进一步探讨,尝试以
别(part of speech)挑翻译词汇.整个相对效能为:单语
(0.2895)-全选(0.1422)- 别策 (0.1949),平均准确 提升
到单语检 的67.3%.效果很 错,当然 别标记程式会
引进一些错误.Hayashi, Kikui and Susaki (1997)在他们的
TITAN系统(全球资讯网跨语查询引擎),以频 为标准,
选频 最高的词汇为翻译,但这项作法没有实验 据可
供 考.
3.1.2语料库为本的方法
语 库(corpus)根据对应的程 ,可分成词汇对 (word
alignment), 子对 (sentence alignment),文件对
(document alignment),及 对 (no alignment)四种.词汇
对 是其中最细致的双语语 库(bilingual corpus),语
库中 同语言词汇间的关系,已经经过人工或机器建
结.Oard (1996)和Brown (1996) 都曾由这种语 库粹
取出翻译表(某种型态的双语辞典),供查询翻译使用.在
这种作法 ,语 库对 的准确 对查询翻译影响相当
大,而这也是对 (alignment)研究的主要问题(Chen and
Chen, 1994).
Davis & Dunning (1996)在TREC4 用 子对 语
库,做 一系 的实验.第一种作法先用原始询问(source
query)由双语语 库找出100篇文件,统计这些文件词汇
出现的频 ,去除前500个频 高的词汇,由剩下的词
汇中找前100个频 较高的词汇当检 词汇用.这种作
法规避 直接分析歧义性的问题.第二种作法,差 只
在於用统计上的公式去筛选出检 词汇.其实验包括单
语检 ,辞典方法,Evoluationary Programming,χ2筛选,
Singular Value Decomposition,和频 筛选之效能.实验
结果显示辞典方法比语 库的χ2筛选和频 筛选好,经分
析后发现错误与语 库的主题有关.
其次是运用文件对 的语 库 解问题,这种语 库
可分成 :平 语 库(parallel corpus)和比拟语 库
(comparable corpus).前者是指同一文件, (多)种语言对
译;后者为同一主题(或事件), (多)种 同语言的描述.
后者的定义较前者宽松,因此 上较容 取得大 的
文件.Sheridan & Ballerini (1996)就曾经把德文和义大
文的新闻,根据主题及时间对 ,制作出虚拟的平 文
件.接著,抽取出翻译辞典,用 产生目标询问(target
query).平 语 库也可用 产生双语辞典,其他用法后
面会再 明.
最后 看未对 的语 库, (多)个单语语 库就构成
未对 的语 库,这个定义又比比拟语 库 宽松,又
容 取得.但通常必须配合其他方法, 如辞典,区
域性的回馈(local feedback)等,才能发挥功能.
3.1.3混合式的方法
前面 种作法的缺点,归纳如下:
(a) 辞典为本(dictionary-based)的方法
在辞典的词就无法翻译,通常直接送入检 系
统,这个词的检 功能相对有限.另外,歧义性加
入 少错误的检 词.
(b) 语 库为本(corpus-based)的方法
平 语 库取得 ,即使有 也 够大,包含的
主题 够多,而且检 效能跟对 的品质有极密确
的关系.
虽然辞典为本的作法有缺点,但却已经有单语检 50%
的效能.其实辞典和语 库是互补的,辞典提供较广(一
般),较浅的覆盖 ;反之,语 库提供较窄( 域相关),
较深(即时反应现在用语)的覆盖 .因此,如何将其整合
是研究的重点.传统单语检 的询问扩张技术,是整合
种方法的桥梁.采用这种技术,必须考虑几个要素:
(a) 语境:区域性回馈(local feedback),和区域性语境
分析(local context analysis)
(b) 顺序:翻译前,或/且翻译后.
Ballesteros & Croft (1997) 曾就 同的组合,做 一系
的实验,图三是其实验规画.实验结果摘要如下:
(a) 翻译前询问扩张
区域性回馈相较於纯辞典策 提升33.5%,区域性
语境分析则增加38.5%.
(b) 翻译后询问扩张
区域性回馈相较於纯辞典策 提升11.3%,区域性
语境分析则增加24.1%.
(c) 翻译前后都做询问扩张
区域性回馈相较於纯辞典策 提升51.0%,区域性
语境分析则增加65.0%.
28(1)19 - 32() 23
整体而言,最好的方法仍比单语检 差32%.目前比
较困扰的一个问题是:到底那种方法好, 同研究人员
所做的实验,都是在 同的条件下完成,即使使用TREC
的训 和测试语 ,还会跟所使用的单语检 系统( 如
Smart, Wais, Inquery等)息息相关.因此,都只有相对效
能供 考.我们再看另一组实验,Davis (1997) 在TREC5
设计的实验.这项实验比较词性 别(part of speech)和语
库为本的歧义性分析之差 ,结果为全选,语 库解
歧义, 别,语 库和 别 者都用等四个策 ,分别
有单语检 的49.12%,39.83% ,67.32%和73.47%.效
能已经提升到将近75%,这项实验少考虑词组的因素.
3.2 文件翻译
文件翻译是把资 库的文件翻译成与询问同一种语
言,再进 检 .如果以机器翻译系统 做,马上会有
执 效 的问题.根据一项分析,如果尝试翻译40亿篇
网页,以一部高速的个人电脑,需要300 .而以3600
部个人电脑一起进 翻译,则需要1个月.Oard(1998)
曾以4部SPARC 20和1部Ultra SPARC 1发 10个机器
-月的时间,将251,572篇原始文件翻译成目标文件,进
跨语检 实验.这个层次的翻译相对於询问层次的优
点是:语境比较宽,歧义性分析所能用的线 较多.Oard
以机器翻译系统翻译长的询问,实验结果比一般询问翻
译的策 好.在较长的语境下,机器翻译系统翻译文件
的结果比翻译询问显著.关於这一点,Davis(1997)使用
语 库 解歧义,其实已经隐含这个目的.由於执 效
的考 ,文件翻译是有必要才做, 如已经确定要浏
览某一网页(Bian and Chen, 2000).目前没有实验系统采
用这样的策 ,但有人使用Systran (Gachot, Lange and
Yang, 1996) 产生文件对应双语语 库,供做区域性回
馈.另一种想法是:对每个文件所对应的向 进 翻译.
3.3 不翻译
Bellcore (Deerwester, et al, 1990)曾在单语资讯检 ,提
出一种称为Latent Semantic Indexing (LSI)的方法.Dumais
等人 (1997)进一步把这种观 引进到跨语资讯检 ,在
其训 过程,英法双语文件,英语词汇,法语词汇都被
对应到向 空间.英(法)文件向 可以英(法)文件向 ,
或英(法)词汇向 表示.沿用LSI的基本想法, 管是
是同一种语言,这些文件可以在向 空间呈现出 .因
此,这种作法 需翻译.过去有多人在 同的语言配对
上做过实验,Berry & Young (1995)以希 文-英文,Oard
(1996) 以西班牙文-英文等.卡内基美 大学语言技术研
究所 (Carbonell, Yang, Frederking, et al., 1997),曾对语
INQUERY 资讯检 系统
原始西班牙文询问 英文询问
西班牙文询问 英文询问
西班牙文询问
人工翻译
自动词典翻译询问扩张
询问扩张
西班牙文询问
自动词典翻译
图三 Ballesteros and Croft (1997)的实验规画
Journal of Library and Information Science 28(1):19 - 32(April, 2002) 24
库导向的翻译方法(TMT),虚拟相关回溯(Pseudo Rele-
vance Feedback, 简称PRF),一般化的空间向 模型
(Generalize Vector Space Model, 简称GVSM),和LSI等
四种方法,在相同的条件下,做 一系 的实验,结果
显示GVSM比LSI稍微好一点,这 种方法又比TMT
和PRF好.
4. 进阶方法
在基本方法的研究中,主要的目标是将询问和文件均
一化成单一语言,再进 资讯检 .在常被采用的询问
翻译策 ,原始询问的歧义性分析(translation disam-
biguation)是研究重点,但都没有考虑目标询问的多义性
(target polysemy)(Chen, Bian, and Lin, 1999).辞典覆盖
的问题,是影响检 效能的因素之一,如何进阶式的自
动建 双语辞典,以及解决专有名词未被收 的问题,
一直是研究人员努 的方向之一.在以下进阶方法的讨
,就针对原始询问的歧义性与目标询问的多义性,和
专有名词音译(proper name transliteration)的问题作介绍.
4.1 翻译歧义性与目标多义性
翻译歧义 自原始询问(source query),而目标多义
(target polysemy)则 自翻译后的目标询问(target
query).以中英资讯检 为 ,中文检 词「银 」本身
没有歧义性,但其对应的英文翻译「bank」,则有9种意
义(Longman, 1978).当采用基本的询问翻译模式,「银 」
很直接得被翻译成「bank」后,送入英文资讯检 系统.
因为「bank」的多义性,可能会有 相关的文件被提出 .
反过 当「bank」作为英中资讯检 系统的检 词,首先
必须解其歧义性.如果知道正确中文翻译是「银 」,中
文资讯检 端直接找出含有「银 」的文件.翻译歧义
性和目标多义性乘在一起挑战性 大, 如「运动」有
如下的意义(Lai and Lin, 1987):(1) sport,(2) exercise,(3)
movement,(4) motion,(5) campaign,和(6) lobby.而每
一个对应的英文词可能有一个以上的意义, 如
「exercise」有"a question or set of questions to be an-
swered by a pupil for practice";"the use of power or
right"等意义.
Chen等人(1999)曾用原始询问的语境,当作目标询问
的限制条件, 解决目标多义性的问题. 如中文词「银
」在中研院平衡语 库(Huang, et al., 1995)的相关词有
"贴现" , " 出", "押汇", "汇兑" 等词汇,在
送入英文资讯检 系统时,造出虚拟的语境(pseudo con-
text),以限制「bank」的语意范围.Chen等人(1999)以共
现模型(co-occurrence model)分析翻译歧义,和限制语境
模型分析目标多义,在TREC-6的资 集,和主题301-350
评估条件下实验,有单语检 62.92%的效能.与仅处
翻译歧义性比较,提升10.11%的效能.
4.2 专有名词音译
根据1995 网 使用者,对Wall Street Journal,Los
Angeles Times和 Washington Post等新闻语 检 的统计
(Thompson and Dozier, 1997),分别有67.8%,83.4%,和
38.8%的检 词含专有名词.我们知道辞典的覆盖 ,未
收 词一直是询问翻译的重要问题,在专有名词的翻译
是挑战.Chen等人(1998),Knight和Graehl(1998),Lin
和Chen(2000),Wan和Verspoor(1998)都相继提出机器音
译(machine transliteration)的方法, 处 这个问题.
音译可以根据处 的方向,区分成正向音译(forward
transliteration)与反向音译(backward transliteration)(Lin
and Chen, 2000).当一个语言的专有名词,因为没有适当
或是 容 以意译 表示时,会采用正向音译,将其音
呈现出 . 如义大 的观光胜地Firenze,中文就音译
成「翡 翠」,此为正向音译.反过 ,当看到一个中
文的音译人名「阿 史瓦辛格」,如果想要找出原文是
Arnold Schwarzenegger,就是反向音译.一般 ,使用
马字母的拼音文字语言,会保持原词语字母的拼法,
以原语言的发音规则,或是自己语言的发音规则 发
音.但在象形文字与拼音文字语言之间作音译时,则需
要将声音由原语言尽 用另外一种语言相近的音素 表
示,而且要符合目的语言(target language)的语音组合规
则.很显然地,拼音文字与象形文字之间的音译处 相
对 较为困难,反向音译比正向音译 难.正向音译
允许某种程 的失真,所能够接受的错误范围较大,但
反向音译则 是.反向音译较 允许错误,也就是在找
出原文的过程中,必须要相当准确,否则反向音译的结
果应用性就较低.
Chen等人(1998)提出一个将英文音译成中文(目的语言)
的音译字,反向音译回英文(原始语言)的模组,并应用於
中英跨语言资讯检 系统.这个系统是将可能的音译字
辨 出 ,再进 反向音译.首先 用汉字 马拼音系
统( 如Wade Giles (威翟),或是汉语拼音(Pinyin)),把可
能的音译字(中文)转成 马字母.接著将这个词汇与一
28(1)19 - 32() 25
可能的专有名词进 比对,藉此找出可能的原文(英文).
以下是一个范 ,如果输入的检 词是「埃斯其 斯」,
转换成威翟 马拼音表示式是「ai.ssu.chi.le.ssu」,其对应
的英文原词汇是「Aeschylus」.这个方法尝试计算 个英
文字 的相似 ,可以考虑多个策 :
(a) 字元相似的个
aeschylus
ais suchilessu
马拼音共有九个字元,一共对应三个字元,分 为
3/9.
(b) 音节内字元相似个
aes chy lus
aissu chi lessu
共可 出三个音节,在音节对应的条件下,一共对应
个字元,分 提高为6/9.
(c) 权重法
aes chy lus
AiSsu Chi LeSsu
整合 同 马拼音系统,并给予第一个匹配的字元较
大的权重,这个范 的分 提升到0.83.
Chen等人(1998)的研究,可以视为在形素上比较相似
的反向音译系统.由於 马拼音系统,主要并 是考
虑语音上的相近 设计. 如汉语拼音就用到 Zh,Q
与X等 马字母, 表示与字母发音完全无关的汉语语
音.因此,英文音译成中文的音译字,在 用 马拼音
系统转换成 马拼音字母后,这些 马拼音字母,跟原
词汇的拼音字母,在发音上并 十分相近.Lin和
Chen(2000) 提出一个以音素相似 为基础的方法,以中
文和英文的音译为 ,进 反向 文字的音译.图四是
实验 程.
实验结果显示在音素上的比较,比在形素上的比较
得有效.在一个1,261个人名的候选名单中,执 配偶配
对(mate matching)实验,平均排名是7.80,其中57.65%
的排名为第一名.这些专有名词翻译的想法,也被引入
故宫的 位博物馆跨语言资讯检 (Chen, 2001).
伍,跨语言资讯检索评比
除 和技术外,评估也是系统发展过程重要的一
环.资讯检 有三个主要的评比单位:TREC(美国贸 部
NIST主办),CLEF(欧盟所支援的 位图书馆计画),和
NTCIR(日本文部科学 下的国 情报学研究所NII主
办).TREC3过去曾举办跨语言资讯检 的评比, 如
TREC6的西班牙文-英文跨语检 ,TREC7和TREC8的
英文/法文/德文/义大 文检 英文/法文/德文/义大 文
文件集,TREC9(1999)的英中跨语检 等.在CLEF於2000
开始举办欧洲语言的跨语言检 后,TREC就以英文为
主,并搭配一些战 语言,如2001 的英文-阿 伯文跨
语检 .CLEF4 则以欧洲语言为主,但因应欧洲语言的
多样化,主题和文件集所涵盖的语言 相对多起 ,挑
战性也强很多.2000 的主题包括荷 文,英文,法文,
德文,义大 文,西班牙文,瑞典文,芬 文等.文件
集包括英文,德文,法文,义大 文.2001 主题增加
俄文,日文,中文,和泰文,文件集增加西班牙文.
英文候选字 英中音译字
3 http://trec.nist.gov
4 http://clef.iei.pi.cnr.it:2002/
3 http://trec.nist.gov
4 http://clef.iei.pi.cnr.it:2002/
图四 音素比对
断字 发音查表
汉字转注音符号 国际音标
注音符号转IPA 语音比较
国际音标
相似
Journal of Library and Information Science 28(1):19 - 32(April, 2002) 26
CE JK
NTCIR5以亚洲语言为主,初期是英文和日文的跨语言检
评比, 2000-2001 台湾大学图资系陈光华教授和资
讯系陈信希教授(Chen and Chen, 2001),与日本文部科学
国 情报学研究所合作,共同举办中文资讯检 评比
和英中资讯检 评比.2001-2002 规模扩大至中,日,
韩,英四国语言的跨语言资讯检 评比,图五是NTCIR
跨语言资讯检 示意图. 同的颜色区分出 同的语言
询问和文件,目标是由五颜 色的袋子中,挑出相关的
文件,并 出相关顺序.
5 http://research.nii.ac.jp/ntcir/workshop/work-en.html
图五 NTCIR跨语言资讯检 工作示意图
跨语言资讯检 评比语 包括测试资 库,检 主
题,和 考答案三部份,以下是检 主题范 .基本的
格式,延续TREC主题的定义,每一检 主题包括标号
,标题,描述,相关叙述
,和概 .由於是跨语言资讯检 ,因
此也提供 同语言的检 主题,在每个主题加上语言的
归属以示区别.表示主题定义者的母语,
是主题呈现的语言.范 一是由母语是中文的
主题制订者提供,也以中文呈现,和
都标记成中文(CH).范 二是其英文翻译,因此
标记成英文(EN).
范 一:

010
CH
CH
反圣婴现象

查询何谓反圣婴现象及其与圣婴现象的比较与影响

圣婴现象结束后接著而 的反圣婴现象对
全球气候会有何影响 跟圣婴现象的 同在何处
反圣婴现象形成的原因,特徵,循环性等基本介绍
视为相关.个别国家因圣婴现像造成的影响视为
相关.
圣婴现象,反圣婴现象,气候

范 二:

010
CH
EN
La Nina

To retrieve what the La Nina is and the comparison
with El Nino
What are effects of La Nina following after
El Nino on global climate What is the comparison
with El Nino Its basic introduction, the way it is
formed, its features and circulations are relevant. The
influence on certain country made by El Nino will be
regarded as irrelevant.
El Nino, La Nina, climate

28(1)19 - 32() 27
表一摘 2001-2002 第三届NTCIR评比的文件集统
计资 ,中文(英文),和日文(英文)分别收集於同一时期
(1998-1999)台湾和日本报社的新闻,韩文为1994 的经
济新闻.整体而言,中文文件 最多,日文文件次之,
接著是韩文,英文新闻 相对较少.
表一.第三届NTCIR评比文件集
语言 源 报社
中文 台湾 中国时报38,163
工商时报25,812
中时晚报5,747
中央日报27,770
中华日报34,728
合报 249,508
日文 日本 每日新闻236,664
韩文 南韩 每日经济66,146
英文 台湾 台湾新闻7,489
中时电子报 2,715
日本 每日新闻12,723
考答案一般采用聚合方法(pooling method),由 与评
比单位所提供的结果,经过合并之后,由主题订定者做
人工检验.为 避免处 上有偏移的现象,会限制 与
者送回答案组(runs)的个 .目前已经建 评估平台,协
助评估人员(assessors)标记答案,并统计相关资 .图
显示此系统的画面,视窗左上角显示评估人员名字
(Assessor),主题编号(Topic ID),pool档案名称(Pool
File),文件序号(Document),和文件编号(DOCNO)等.视
窗右上角是主题的内容(Topic),视窗下半部 出文件原
文.assessor对每一篇文件,给予相关程 判定(Scoring),
等级由0到3,分别代表 相关,部份相关,相关,和极
相关,assessor并须加注做这项判定的线 (Give Com-
ments).assessor也可以 考过去的记 (Consult Previous
Judgment),作为判定 考,或修正过去的判定.透过这
套平台,assessor所做的判定过程,被记 到log档案中,
供进一步分析,作为改善评估 程 考.
图 检 评估平台
Journal of Library and Information Science 28(1):19 - 32(April, 2002) 28
6. 结论与讨论
本文对跨语言资讯检 相关 和技术,做深入的探
讨.在询问翻译上,实验结果显示辞典相当有用,即使
是最简单的方法,也有单语检 大约百分之五十的效
益.加上词 ,区域性回馈,区域语境分析,词组,语
库等,可以将平均准确 提升到单语检 的百分之七
十五左右.语 库对应的准确性,语 库的选择,辞典
的覆盖 和内容等,都是影响效能的重要因素.本文也
考虑翻译歧义性和目标多义性的双重影响,以及专有名
词音义等问题.
从技术层面 看,可以发现词汇语义资 库的重要
性,在查询扩张,和词义歧义分析等都会使用到.语义
资 库与单语资讯检 的关系,可 考(Mandala, Ta-
kenobu, Hozumi, 1998).在这方面的资源,中文相较於其
他语言就显得较弱.美国早在1985 ,普 斯顿大学就
提出建 英文词汇语义资 库的构想(Miller et al.,
1990),并在认知科学研究所Miller教授的带 下进 研
发,於90 代初免费提供各界使用,现已到1.6版(Soergel,
1998),并广泛的使用於多个应用 域,如资讯检 系统,
位图书馆,自然语言处 系统,….根据这个资 库
所发展出 的成果相当的多,http://www.cis.upenn.edu
/~josephr/wn-biblio.html 出部份 考资 .欧盟
(European Commission)有鉴於欧洲主要语言也有 似的
需求,在1996 提出MLIS(Multilingual Information
Society)的规画(EC, 1996),於1997 三月开始进 为期
三 的计画(EC, 1997),目的是尝试建 多语知 库(英
语,荷 语,西班牙语,义大 语,法语,德语,捷克
语,爱沙尼亚语).我们也采用电脑辅助的方式,尝试建
中英文对应语义词汇库CEWordNet(Chen and Lin,
2000),供跨语言资讯检 使用(Chen, Lin and Lin, 2000;
Chen, Lin and Lin, 2002).由於此词汇库没有经人工检
查,内含许多杂讯,在跨语检 上的效益较 明显,有
待后续 进一步的研究与验证.
参考文献
Andresen, L. (1997) "Metadata: New Key Concept in Inter-
net Circles," Bibliotekspressen, 6, March 1997, 152-153.
Ballesteros, L. and Croft, W.B. (1996) "Dictionary-based
Methods for Cross-Lingual Information Retrieval," Pro-
ceedings of the 7th International DEXA Conference on
Database and Expert Systems Applications, 791-801.
Ballesteros, L. and Croft, W.B. (1997) "Phrasal Translation
and Query Expansion Techniques for Cross-Language In-
formation Retrieval," Working Notes of AAAI-97 Spring
Symposiums on Cross-Language Text and Speech Re-
trieval, 1-8.
Bearman, D. (1996) "Developments in Metadata Manage-
ment Frameworks," Archives and Museum Informatics,
10(2), 1996, 185-188.
Berry, M.W. and Young, P.G. (1995) "Using Latent Semantic
Indexing for Multilingual Information Retrieval," Com-
puters and Humanities, 29(6), 413-429.
Bian, Guo-Wei and Chen, Hsin-Hsi (2000) "Cross Language
Information Access to Multilingual Collections on the
Internet," Journal of American Society for Information
Science, 51(3), 2000, 281-296.
Borgman, C.L. (1997) "Multi-Media, Multi-Cultural, and
Multi-Lingual Digital Libraries: How Do We Exchange
Data in 400 Languages," D-Lib Magazine, June 1997,
http://www.dlib.org/dlib/june97/06borgman.html.
Brown, R.D. (1996) "Example-Based Machine Translation
in the Pangloss System," Proceedings of the 16th Interna-
tional Conference on Computational Linguistics.
Caplan, P. and Guenther, R. (1996) "Metadata for Internet
Resources: the Dublin Core Metadata Elements Set and Its
Mapping to USMARC," Cataloging and Classification
Quarterly, 22(3/4), 1996, 43-58.
Carbonell, J.G., Yang, Y., Frederking, R.E., Brown, R., Geng,
Y., and Lee, D. (1997) "Translingual Information Re-
trieval: a comparative evaluation," Proceedings of the In-
ternational Joint Conference on Artificial Intelligence,
1997.
Chen, Hsin-Hsi (1997) "Cross-Language Information Re-
trieval," Proceedings of ROCLING Workshop on
ED/MT/IR, Academic Sinica, Taipei, 1997, 4-1~4-27.
28(1)19 - 32() 29
Chen, Hsin-Hsi (1998) "Cross-Language Information Access
on the Internet," Presented in Symposium on Knowledge
Discovery and Retrieval in the Network Era, the IX Pa-
cific Science Inter-Congress, November 18, 1998.
Chen, Hsin-Hsi (2001) "Cross-Language Information Re-
trieval for Digital Museums," Global Digital Library De-
velopment in the New Millennium, Ching-chih Chen (Edi-
tor), Tsinghua University Press, 33-40.
Chen, Kuang-Hua and Chen, Hsin-Hsi (2001)
"Cross-Language Chinese Text Retrieval in NTCIR
Workshop - Towards Cross-Language Multilingual Text
Retrieval," ACM SIGIR Forum, 35(2), Fall 2001.
Chen, Kuang-Hua and Chen, Hsin-Hsi (1994) "A
Part-of-Speech-Based Alignment Algorithm," Proceed-
ings of 15th International Conference on Computational
Linguistics, Kyoto, August 5-August 9 1994, 166-171.
Chen, Hsin-Hsi and Lee, Jen-Chang (1996) "Identification
and Classification of Proper Nouns in Chinese Texts,"
Proceedings of 16th International Conference on Compu-
tational Linguistics, Copenhagen, Denmark, August 5-9,
1996, 222-229.
Chen, Hsin-Hsi and Lin, Chi-Ching (2000) "Sense-Tagging
Chinese Corpus," Proceedings of 2nd Chinese Language
Processing Workshop, October 8, Hong Kong, 7-14.
Chen, Hsin-Hsi; Bian, Guo-Wei and Lin, Wen-Cheng (1999)
"Resolving Translation Ambiguity and Target Polysemy in
Cross-Language Information Retrieval," Proceedings of
37th Annual Meeting of the Association for Computational
Linguistics, University of Maryland, June 20-26 1999,
215-222.
Chen, Hsueh-Hua; Chen, Chao-Chen and Chen, Kuang-Hua
(1999) "Metadata Interchange for Chinese Information,"
IT and Global Digital Library Development, Ching-chih
Chen (Editor), West Newton: MicroUse Information,
65-74.
Chen, Hsin-Hsi; Lin, Chi-Ching and Lin, Wen-Cheng (2000)
"Construction of a Chinese-English WordNet and Its Ap-
plication to CLIR," Proceedings of 5th International
Workshop on Information Retrieval with Asian Languages,
September 30-October 2, Hong Kong, 189-196.
Chen, Hsin-Hsi; Lin, Chi-Ching and Lin, Wen-Cheng (2002)
"Building a Chinese-English WordNet for Translingual
Applications," ACM Transactions on Asian Language In-
formation Processing.
Chen, Hsin-Hsi; Huang, Sheng-Jie; Ding, Yung-Wei and Tsai,
Shih-Chung Tsai (1998) "Proper Name Translation in
Cross-Language Information Retrieval," Proceedings of
17th International Conference on Computational Linguis-
tics and 36th Annual Meeting of the Association for Com-
putational Linguistics, Montreal, Quebec, Canada, August
10-14 1998, 232-236.
Davis, M.W. (1997) "New Experiments in Cross-Language
Text Retrieval at NMSU's Computing Research Lab,"
Proceedings of TREC 5.
Davis, M.W. and Dunning, T. (1996) "A TREC Evaluation
of Query Translation Methods for Multi-lingual Text Re-
trieval," Proceedings of TREC-4.
Deerwester, S., Dumais, S.T., Furnas, G.W., Landauer, T.K.
and Harshman, R.A. (1990) "Indexing by Latent Semantic
Analysis," Journal of the American Society for Informa-
tion Science, 41(6), 391-407.
Dumais, S.T., Letsche, T.A., Littman, M.L. and Landauer,
T.K. (1997) "Automatic Cross-Language Retrieval Using
Latent Semantic Indexing," Working Notes of AAAI-97
Spring Symposiums on Cross-Language Text and Speech
Retrieval, 18-24.
European Commission (1996). Language and Technology:
from the Tower of Babel to the Global Village,
http://www2.echo.lu/mlis/en/l&t.pdf.
European Commission (1997). Language Engineering:
Progress and Prospects, 1997.
Gachot, D.A., Lange, E. and Yang, J. (1996) "The
SYSTRAN NLP Browser: An Application of Machine
Translation Technologies in Multilingual Information
Retrieval," Proceedings of SIGIR96 Workshop on
Cross-lingual Information Retrieval.
Grefenstette, G. (Editor) (1996) Proceedings of SIGIR'96
Workshop on Cross-Linguistic Multilingual Information
Retrieval Workshop, August 22, 1996, Zurich, Switzer-
land.
Journal of Library and Information Science 28(1):19 - 32(April, 2002) 30
Grefenstette, G. (1998) "Multilingual Text Retrieval," Third
Biennial Conference of the Association for Machine
Translation in the Americas, Langhorne, Pennsylvania,
October 28, 1998.
Hayashi, Y., Kikui, G. and Susaki, S. (1997) "TITAN: A
Cross-linguistic Search Engine for the WWW," Working
Notes of AAAI-97 Spring Symposiums on Cross-Language
Text and Speech Retrieval, 58-65.
Hershman, T. (1998) "Real-Time Web Language Transla-
tors," Byte, June 1998, 5-10.
Hovy, E. and Ide, Nancy (Editors) (1998) Multilingual In-
formation Management: Current Levels and Future Abili-
ties, Montreal, Canada, August 16, 1998.
Huang, C.R., et al. (1995) "Introduction to Academia Sinica
Balanced Corpus," Proceedings of ROCLING VIII, Tai-
wan, 81-99.
Hull, D.A. and Grefenstette, G. (1996) "Querying Across
Languages: A Dictionary-based Approach to Multilingual
Information Retrieval," Proceedings of the 19th Interna-
tional Conference on Research and Development in In-
formation Retrieval, 49-57.
Knight, Kevin and Graehl, Jonathan (1998) "Machine Trans-
literation," Computational Linguistics, 24(4), 1998,
599-612.
Kowk, K.L. (1997) "Evaluation of an English-Chinese
Cross-Lingual Retrieval Experiment," Working Notes of
AAAI-97 Spring Symposiums on Cross-Language Text and
Speech Retrieval, 110-114.
Lai, M. and Lin, T.Y. (1987) The New Lin Yutang Chi-
nese-English Dictionary, Panorama Press Ltd, Hong
Kong.
Lin, Wei-Hao and Chen, Hsin-Hsi (2000) "Similarity Meas-
ure in Backward Transliteration between Different Char-
acter Sets and Its Application to CLIR," Proceedings of
ROCLING, Taipei, Taiwan, 2000, 97-113.
Lin, Wen-Cheng and chen, Hsin-His(2002) "Merging
Mechanisms in Mult; lingual Information Retrieval,"
Procedings of 3rd Workshop of the Cross-Language
Evaluation Forum, 2002, 97-102.
Longman (1978) Longman Dictionary of Contemporary
English, Longman Group Limited.
Mandala, R.; Takenobu, T. and Hozumi, T. (1998) "The Use
of WordNet in Information Retrieval," Proceedings of
COLING/ACL Workshop on Usage of WordNet in Natural
Language Processing Systems, 1998.
Miller, G.A. (1990). "WordNet: An ON-line Lexical Data-
base," International Journal of Lexicography, 1990,
235-312.
Oard, D.W. (1996) Adaptive Vector Space Text Filtering for
Monolingual and Cross-language Applications. Ph.D.
Dissertation, University of Maryland, College Park.
Oard, D.W. (Editor) (1997a) Proceedings of AAAI-97 Spring
Symposium: Cross-Language Text and Speech Retrieval,
Stanford, California, March 24-26, 1997.
Oard, D.W. (1997b) "Serving Users in Many Languages:
Cross-Language Information Retrieval for Digital Librar-
ies," D-Lib Magazine, December 1997,
http://www.dlib.org/dlib/december97/oard/12oard.html.
Oard, D.W. (1998) "A Comparative Study of Query and
Document Translation for Cross-Language Information
Retrieval," Proceedings of Third Conference of the Asso-
ciation for Machine Translation in the Americas, Phila-
delphia, PA, October, 1998.
Powell, J. and Fox, E.A. (1998) "Multilingual Federated
Searching Across Heterogeneous Collections," D-Lib
Magazine, September 1998,
http://www.dlib.org/dlib/september98/powell/09powell.ht
ml.
Sheridan, P. and Ballerini, J.P. (1996) "Experiments in Mul-
tilingual Information Retrieval Using the SPIDER Sys-
tem," Proceedings of the 19th ACM SIGIR Conference on
Research and Development in Information Retrieval,
58-65.
Soergel, D. (1998) "WordNet," D-Lib Magazine, October,
1998,
http://www.dlib.org/dlib/october98/10bookreview.html/.
Su, Je-Jun; Ku, Lun-Wei; Lin, Chi-Ching; Chen, Hsin-Wei
and Chen, Hsin-Hsi (1998). "A Multi-Language Identi-
fication System on WWW," Bulletin of the College of En-
gineering, National Taiwan University, 73, June 1998,
155-165 (in Chinese).
28(1)19 - 32() 31
Thompson, P. and Dozier, C. (1997) "Name Searching and
Information Retrieval," Proceedings of Second Confer-
ence on Empirical Methods in Natural Language Proc-
essing, Providence, Rhode Island, 1997.
Vossen, P. (1997) Proceedings of DELOS Workshop on
Cross-Language Information Retrieval, Zurich, March 5-7,
1997.
Wan, Stephen and Verspoor, Cornelia Maria (1998) "Auto-
matic English-Chinese Name Transliteration for Devel-
opment of Multilingual Resources," Proceedings of 17th
COLING and 36th ACL, 1998, 1352-1356.
Journal of Library and Information Science 28(1):19 - 32(April, 2002) 32

·上一篇:"汉语言"
·下一篇:"语言级别"
赞助商链接
下载链接
最新文档
相关下载
最热搜索
<%=Doc.Fun.GetTemplate(Components.Template.TemplateType.Foot)%>