網(wǎng)上IA翻譯的進(jìn)展
隨著互聯(lián)網(wǎng)技術(shù)的成熟,所有信息都將會在互聯(lián)網(wǎng)上以電子形式發(fā)表,而這些電子信息又是用各種不同民族語言寫成的。對這些不同格式的電子信息進(jìn)行線上翻譯是人類突破交流障礙的一大希望。由于需要翻譯的資料越來越多,對翻譯速度的要求將明顯高于對翻譯質(zhì)量的要求。在此情況下,線上機(jī)器翻譯是信息時(shí)代全球化交流的一個(gè)解決方案。令人高興的是,幾種實(shí)用型線上機(jī)器翻譯軟件系統(tǒng)已在網(wǎng)上推出。所謂“線上機(jī)器翻譯”是指人們應(yīng)用計(jì)算機(jī)通過互聯(lián)網(wǎng)查詢,在瀏覽資料時(shí),可以借助聯(lián)機(jī)翻譯軟件,對此文本進(jìn)行實(shí)時(shí)翻譯,以獲得他們所需的信息。
機(jī)器翻譯的歷史可以追溯到1947年3月,當(dāng)時(shí)洛克菲勒基金會的自然科學(xué)部主任Warren Weaver與他的朋友在通信及會晤中正式討論·了如何應(yīng)用電子計(jì)算機(jī)翻譯自然語言的問題。從那時(shí)候開始,機(jī)器翻譯已經(jīng)走過五十年的歷程,而網(wǎng)上機(jī)器翻譯的服務(wù)系統(tǒng)僅在近兩三年才出現(xiàn)。大多數(shù)機(jī)譯系統(tǒng)并非為翻譯線上文本所設(shè)計(jì),使用者一般為懂得雙語的翻譯人員。被翻譯的原文的題材較為固定而且為專業(yè)人員所撰寫;相應(yīng)的譯文質(zhì)量要求也很高,可供正式出版。從事這種翻譯工作的譯員可以慢工出細(xì)活,先用機(jī)器翻譯得到譯文初稿,然后再進(jìn)行后期編輯的修飾加工。與這些機(jī)器翻譯軟件相比,線上機(jī)器翻譯軟件的對象完全不同。其用戶一般不懂原文的語言,他使用線上翻譯系統(tǒng)的目的僅是瀏覽和摘要網(wǎng)上信息,因此他要求有實(shí)時(shí)的文本翻譯速度,而不在乎譯文質(zhì)量。但是,在互聯(lián)網(wǎng)上交流的資料涉及的主題范圍廣泛、文章風(fēng)格各異,而且這些資料常常倉促行文,普遍存在著丈法、標(biāo)點(diǎn)及拼寫錯(cuò)誤。所以,線上翻譯軟件能夠進(jìn)行高速翻譯的同時(shí)還應(yīng)有足夠的魯捧性(robust)以能處理各種題材、風(fēng)格和各種可能的文本錯(cuò)誤。
目前已在網(wǎng)上提供的機(jī)器翻譯服務(wù)可分兩類:基于電子郵件(E-mail)的機(jī)器翻譯和基于環(huán)球網(wǎng)(World Wide Web)的機(jī)器翻譯軟件。
從嚴(yán)格定義上講,大多數(shù)基于電子郵件的機(jī)器翻譯并不是“線上”和“機(jī)譯”的。在這里,“線上”不是指實(shí)時(shí)翻譯,而是指隨著互聯(lián)網(wǎng)的出現(xiàn),聰明的廠家把生意做上了互聯(lián)網(wǎng),提供聯(lián)機(jī)服務(wù)。在這種聯(lián)機(jī)服務(wù)中,廠家往往或者為了商業(yè)宣傳而提供免費(fèi)翻譯服務(wù),或者提供軟件本地化以及產(chǎn)品說明書和技術(shù)資料本地化服務(wù),后者是為產(chǎn)品開拓國際市場而提供的專業(yè)服務(wù)。如一家設(shè)在加拿大的…快譯”公司(Express Translation Bureau)就有專業(yè)翻譯人員提供中英文雙向免費(fèi)翻譯服務(wù),用戶只需要把中文或英文文本資料通過互聯(lián)網(wǎng)用電子郵件投寄…決譯”公司,幾夭之后就可以收到由專業(yè)翻譯人員翻譯的質(zhì)量較高的譯文。而總部設(shè)在英國的SDL公司就為用戶提供包括軟件、電子出版物、多媒體產(chǎn)品在內(nèi)的本地化收費(fèi)服務(wù)。與前老一樣,翻譯過程也是由專業(yè)翻譯人員在工程師的幫助下完成的。
總之,基于電子郵件的“機(jī)器翻譯”是互聯(lián)網(wǎng)在全球范圍內(nèi)拓展,“翻譯”的過程是由專業(yè)人員完成。不論怎樣,與其它商業(yè)機(jī)構(gòu)將產(chǎn)品推上互聯(lián)網(wǎng)一樣,“線上掛牌”和“人工翻譯”這一新的翻譯經(jīng)營方式的興起也從一個(gè)側(cè)面說明:人們已經(jīng)主動接受互聯(lián)網(wǎng)迅速發(fā)展這一事實(shí),并在悄然實(shí)現(xiàn)經(jīng)營方式、工作方式與學(xué)習(xí)方式的劃時(shí)化轉(zhuǎn)變。這一轉(zhuǎn)變的直接結(jié)果,使更多的用不同種語言書寫的信息在互聯(lián)網(wǎng)上交流,也促使互聯(lián)網(wǎng)得到更廣泛的發(fā)展,從而使互聯(lián)網(wǎng)最終成為信息時(shí)代不可缺少的學(xué)習(xí)工具和學(xué)習(xí)環(huán)境,為線上機(jī)器翻譯的研究、實(shí)現(xiàn)與應(yīng)用打下堅(jiān)實(shí)的物質(zhì)基礎(chǔ)。
2.基于環(huán)球網(wǎng)(World Wide Web)的機(jī)器翻譯
所謂環(huán)球網(wǎng)是基于互聯(lián)網(wǎng)的信息表示、存儲與傳播的系統(tǒng)。互聯(lián)網(wǎng)是通過光纖電纜或微波衛(wèi)星聯(lián)接起來的巨型計(jì)算機(jī)通信網(wǎng)絡(luò)系統(tǒng)。而環(huán)球網(wǎng)則是以互聯(lián)網(wǎng)為依托的軟件系統(tǒng)。它通過互聯(lián)網(wǎng)處埋超媒體(Hypermedia)信息。超媒體是超文本(Hypertext)與多媒體(Multimedia)的結(jié)合。我們平時(shí)看到的文字資料稱為線性格式文本,如圖書和報(bào)紙等,它們都是以串行順序方式印刷的。超文本資料則是以空間方式存放,構(gòu)成非線性、非順序、無邊界的信息空間,使讀者可以通過超鏈接(Hyperlir1k)在這種信息空間內(nèi)自由翱翔。多媒體是近幾年來計(jì)算機(jī)領(lǐng)域中發(fā)展的一項(xiàng)新技術(shù)。它使計(jì)算機(jī)所處理的信息從傳統(tǒng)的數(shù)值和文字,擴(kuò)展到聲音、圖形、圖像、影視和動畫等。
下面介紹三個(gè)影響較大的網(wǎng)上機(jī)器翻譯系統(tǒng):
SYSTRAN提供的免費(fèi)網(wǎng)頁翻譯服務(wù)、Globalink開發(fā)的名為Web Translator翻譯軟件、以及compuServ,的環(huán)球公眾l2if(World Community Forum)。SYSTRAN公司開發(fā)機(jī)器翻譯系統(tǒng)的歷史悠久而且碩果累累。今天,歐共體委員會(Commission of the European Community)已使用SYSTRAN 開發(fā)的機(jī)譯系統(tǒng),實(shí)現(xiàn)了其六種官方語言:英、法、德、意、西班牙和葡萄牙文的互譯。據(jù)估計(jì),歐共體每年約有35%到40%的經(jīng)費(fèi)用于“語言問題”開銷。SYSTRAN這種實(shí)現(xiàn)不同語種相互機(jī)器翻譯的成果對歐共體的運(yùn)作法入了高效潤滑劑。
美國國家情報(bào)中心的分支機(jī)構(gòu)遍布全球,對收集到的情報(bào)要及時(shí)處理,以供決策者作決策依據(jù)。依靠sYsTRAN的機(jī)器翻譯軟件,輔以網(wǎng)絡(luò)技術(shù),國家情報(bào)中心已經(jīng)實(shí)現(xiàn)了線上翻譯。國家情報(bào)中心擁有一個(gè)名為“開放資源信息服務(wù)”(Open Source lnformation Service)的網(wǎng)絡(luò)。情報(bào)工作者只需要把要翻譯的文本提交給該網(wǎng)絡(luò),該網(wǎng)絡(luò)使用9種由sYSTRAN開發(fā)的不同語言對機(jī)器翻譯軟件完成翻譯工作,然后把結(jié)果回送給情報(bào)提交者。“開放資源信息服務(wù)”網(wǎng)絡(luò)與一個(gè)叫Interlink的高級機(jī)密網(wǎng)絡(luò)連接,而后者則直通五角大樓和中央情報(bào)局。1994年,一共有3000個(gè)用戶、35個(gè)情報(bào)機(jī)構(gòu)使用“開放資源信息服務(wù)”網(wǎng)絡(luò),實(shí)現(xiàn)了情報(bào)的線上翻譯。
1996年,sYsTRAV1推出了世界上首項(xiàng)線上環(huán)球網(wǎng)網(wǎng)頁機(jī)器翻譯服務(wù),目前該項(xiàng)服務(wù)只限于英語與德語、法語、葡萄牙語、意大利語和西班牙語的互譯,以及俄語到英語的單向翻譯。用戶只需鍵入要翻譯文件所在的網(wǎng)頁地址,選擇目標(biāo)語言語種,鍵入用戶電子郵箱地址。只要被翻譯的文本不超過10K字節(jié),此網(wǎng)頁機(jī)器翻譯系統(tǒng)會免費(fèi)為用戶翻譯丈本并隨后把譯文送回給用戶。此系統(tǒng)是以客戶/服務(wù)器(Client/server)體系為基礎(chǔ)開發(fā)的,由一臺名為SYSTRAN翻譯服務(wù)器(Translation Server)執(zhí)行翻譯工作。此臺服務(wù)器同時(shí)運(yùn)行11種語言對翻譯軟件,接受來自全球各地的翻譯服務(wù)請求。用戶在提交要翻譯的文本后,視源文本長度及服務(wù)器繁忙程度,會有不同程度的延遲,有時(shí)甚至?xí)袛喾⻊?wù)請求。
SYSTRAN 的環(huán)球網(wǎng)線上機(jī)器翻譯系統(tǒng)規(guī)定要翻譯的文本必須放在互聯(lián)網(wǎng)上,筆者曾在澳門大學(xué)用在該校網(wǎng)頁上刊載的英文版和葡文版的澳門特別行政區(qū)基本法測試此環(huán)球網(wǎng)線上機(jī)器翻譯系統(tǒng),發(fā)現(xiàn)譯文正確率達(dá)80%。眾所周知,法律文件對語言描述的準(zhǔn)確性要求甚嚴(yán),任何模棱兩可的含義都會造成嚴(yán)重后果。因此,sYsTRAN環(huán)球網(wǎng)線上機(jī)器翻譯系統(tǒng)的測試結(jié)果令人鼓舞。
Globalink公司創(chuàng)建于1989年。目前該公司的軟件僅實(shí)現(xiàn)西班牙語、法語、德語、意大利語與英語互譯。
據(jù)Globalink發(fā)表的資料稱:全世界范圍內(nèi)靠機(jī)器翻譯軟件完成的語言翻譯總額,Globalink系統(tǒng)占了80%,可見在機(jī)器翻譯市場,該公司是一一個(gè)舉足輕重的角色。
Globalink目前提供一種叫做Web Trans[ator的線上機(jī)器翻譯軟件。該軟件運(yùn)行在SUN公司出品的Netscape和微軟的Explorer上,能夠?qū)崿F(xiàn)互聯(lián)網(wǎng)上的西班牙文、法文、德文與英文信息的線上實(shí)時(shí)互譯。這意味著一個(gè)只懂英文的用戶在瀏覽用法文書目的網(wǎng)頁信息時(shí),只要運(yùn)行該軟件,便能生成該網(wǎng)頁信息的英文譯文。安裝并運(yùn)行Web Translator軟件后,用戶想要瀏覽非本民族語言書寫的網(wǎng)頁信息時(shí),具體操作是:首先用Nfetscape或Explorer瀏覽器找到要查詢的文本信息,用戶再接菜單選項(xiàng)的“翻譯’,按鈕;隨后選擇源語言與目標(biāo)語言語種;最后Web Translator產(chǎn)生翻譯草稿,并插入瀏覽器中,且譯文輸出格式與源語言版面格式保持一致。在翻譯的過程中,容許用戶自己設(shè)走存儲已翻譯出來句子的譯文量,范圍為3頁到999頁的連續(xù)文本。這些已經(jīng)翻譯出來的源語言文本與目標(biāo)語言文本同時(shí)被存儲起來,其目的是為了下次遇到同樣的句子時(shí),能夠直接從存儲器中再次取出,免去了重復(fù)性的工作,從而提高了整個(gè)系統(tǒng)的翻譯效率。一般而言,發(fā)現(xiàn)語句對采用的是模糊匹配算法,用戶可自行定義匹配權(quán)值。
另外,Web Translator為用戶提供了可對電子詞典編輯的功能,用戶能夠添加電子詞典中不存在的單詞與短語,從而提高翻譯效率。
除了上述兩種系統(tǒng)外,CompuServe公司提供了環(huán)球公眾論壇(World Community Forum)線上翻譯服務(wù)。CompuServe擁有三百萬用戶會員,遍布世界150多個(gè)國家,是全球最大一家信息服務(wù)公司。它于1994年引進(jìn)Intergraph的軟件系統(tǒng)并開拓線上機(jī)譯服務(wù),1995年2月創(chuàng)立環(huán)球大眾論壇,為其成員交流政治觀點(diǎn)、發(fā)表對交互文化的個(gè)人見解、以及發(fā)布體育旅游信息提供了方便。目前,論壇參與者可用英、法、德、西班牙語中的任何一種語言在網(wǎng)上交談,具體講,一位講英語的論壇成員登錄到英語論壇后,池既可以閱讀英文信息,也可以及時(shí)發(fā)表自己的觀點(diǎn)。一旦他發(fā)表了觀點(diǎn),這些用英文寫成的觀點(diǎn)就立即被收集起來,并翻譯成法、德、西班牙三種語言文本,三分鐘后,便可顯示在法、德、西班牙文論壇上。當(dāng)然,考慮到譯文質(zhì)量,在顯示譯文的同時(shí),也保留了源語言文本的拷貝。為避免歧義,論壇成員可隨時(shí)閱讀源語言文本。在論壇創(chuàng)建的頭四個(gè)月,已有一萬五千人次在網(wǎng)上發(fā)表了意見,每一夭論壇通過機(jī)器翻譯的信息有將近三萬詞條。
除了上述已在網(wǎng)上提供服務(wù)的文本翻譯系統(tǒng),基于語音(Speech to Speech)實(shí)時(shí)處理的線上機(jī)器翻譯系統(tǒng)也是研究的熱點(diǎn)。研究人員從早期機(jī)器翻譯研究中吸取了重要教訓(xùn):通用高質(zhì)量機(jī)器翻譯系統(tǒng)在目前只是一個(gè)夢想。所以大多數(shù)研制的語音機(jī)器翻譯系統(tǒng)只能翻譯一定主題域的語音。
1993年,在德國聯(lián)邦工業(yè)部(German Federal Ministry)主要資助下,30多所德國、美國、日本大學(xué)研究機(jī)構(gòu)及工業(yè)企業(yè)參與了一個(gè)名為Verbmobil的語言機(jī)器翻譯研究計(jì)劃。此計(jì)劃的目的是把基于一定主題域的自然語音自動翻譯成另一種自然語音,并且與說話者無關(guān)。1995年,第一臺完全集成化的Verbmobil系統(tǒng)成功地把一段基于一定主題域的德語口語翻譯成清楚的英語口語輸出。到“一期工程”結(jié)束時(shí),Verbmobil的語音識別率已達(dá)到73.3%。1996年,隨著Verbmob11原型機(jī)實(shí)現(xiàn)了一段基于一定主題域的日語到英語的口語自動翻譯,Verbmobil計(jì)劃進(jìn)入了“二期工程”。此計(jì)劃的“二期工程”準(zhǔn)備擴(kuò)大主題域范圍,增加可譯語言對,并能識別不一致信息,如“2月31日”,“早上16:00點(diǎn)”等。
與手寫文本相比,口語不存在標(biāo)點(diǎn)符號,重讀與短語代替了句號和逗號。另外,口語中存在大量如“哼,啊”等毫無意義的語氣詞。如何辨別出一個(gè)完整的句子,如何過濾掉無意義單詞,都是語音實(shí)時(shí)線上機(jī)器翻譯軟件要解決的難點(diǎn)。
可以設(shè)想,在未來,當(dāng)用戶通過互聯(lián)網(wǎng)在瀏覽一段非本民族語言發(fā)布的多媒體信息時(shí),使用文本和語音機(jī)器翻譯軟件可以實(shí)時(shí)把這段信息中的文字、聲音和圖像說明完全本地化,以致感覺不到語言障礙的存在。
漢語是世界上使用人數(shù)最多的一種語言文字,但是在互聯(lián)網(wǎng)上用中文發(fā)布的信息卻是滄海一栗。因此,對大多數(shù)僅懂自己母語的中國人來說,瀏覽互聯(lián)網(wǎng)時(shí)尤其需要外語與漢語之間的線上機(jī)器翻譯系統(tǒng)。目前,國內(nèi)已有“希望”和“網(wǎng)際金點(diǎn)Roboword)”等線上翻譯詞典推出。使用這些電腦詞典無需任何輸入文字的工作,在剎覽網(wǎng)頁時(shí),當(dāng)遇到不懂的英文詞,只需將鼠標(biāo)指向它,相關(guān)的中文解釋就隨著顯示。此外,國內(nèi)還開發(fā)有可作文本翻譯的軟件系統(tǒng),但它們尚未能在網(wǎng)上提供聯(lián)機(jī)服務(wù)。為了讓我們的同胞充分開發(fā)利用互聯(lián)網(wǎng)上的信息資源,除了加`決信息高速公路的基礎(chǔ)設(shè)施建設(shè)外,漢語與外語互譯的線上翻譯系統(tǒng)的研制和開發(fā)亦為當(dāng)務(wù)之急。
譯路通武漢漢口翻譯公司整理
2012.6.11