The GDELT Project

Experiments With Meta's SeamlessM4T Open Machine Translation Model: News Articles

Continuing our series of evaluating Meta's new SeamlessM4T multimodal translation model, let's expand our social media experiments with a full-length news article. While the factual elements of the story are correctly translated and the overall gist of the article preserved, transliteration is very different from that of Google Translate, Bing Translator and GPT-3.5. For some names, transliteration varies across sentences, with the same name being transliterated differently. Names are often translated literally into English, rather than preserved as the actual listed toponym. Overall, the SeamlessM4T provides quite strong translation, but the transliteration issue is highly problematic.

Let's take a look at this full-length news article:

在跟母亲断联12个小时后,8月2日中午,身在北京的张萌终于收到了位于涿州的母亲的“报平安”短信。母亲住在河北保定涿州市三步桥村附近,是借用别人手机发来的消息,她长舒了一口气,“悬着的心终于放下了”。 张萌母亲所在地附近的救援冲锋舟。受访者供图 7月29日以来,受台风“杜苏芮”影响,京津冀地区持续强降雨。据公开信息,7月29日8时至8月1日11时,涿州市出现明显降水天气过程。全市平均降水量355.1毫米,最大降水量为两河村435.7毫米,多个乡镇、街道降水量均超300毫米。截至8月1日上午10时,涿州市受灾人数133913人。 24岁的李志辉已经多次安慰女朋友,但女朋友的一句“家没了,那个房子是我爸妈一辈子的心血”,也瞬间让他陷入无助。目前,涿州境内北拒马河、小清河、白沟河等多条河流流量较大,小清河分洪区、兰沟洼蓄滞洪区已相继启动。涿州境内防汛形势严峻,多地遭受洪水灾害,多个村庄被洪水围困。 目前,李志辉女朋友的家人所在的涿州市刁窝镇东辛庄村仍在等待救援,包括附近的白塔村、小营村等同样或在等待救援或正在被救援。在社交平台上,也依然能看到大量求助救援的信息正在发出。告急的村庄。 “一共五位家人,其中一位老人已经80多岁,一个孩子只有五六岁,目前都在白塔村一处自建二层小楼上,水已经漫到腰部,有一米多深了,家人都在二楼等候救援。”肖俊介绍,因为到处被淹,也为了陪伴老人,他的家人们8月1日就搬去了刁窝镇白塔村,“结果今天水就涨起来了。”36岁的肖俊平时在北京工作,赶不回去的他觉得现在非常揪心,断断续续的信号也无法获知现场的情况,同时他也认为村子救援难度很大,人员分散也比较难找。“刁窝镇东辛庄村的水已经漫过了一楼。”李志辉告诉新黄河记者,他目前在沧州,女朋友是刁窝镇东辛庄村人,8月1日几位家人有的已经搬到附近的白塔村住,有的还在东辛庄村,跟张俊一样,李志辉女朋友一家也没想到,当地的水涨得如此快。

It was broken into sentences for translation:

time python scripts/m4t/predict/predict.py "在跟母亲断联12个小时后,8月2日中午,身在北京的张萌终于收到了位于涿州的母亲的“报平安”短信。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "母亲住在河北保定涿州市三步桥村附近,是借用别人手机发来的消息,她长舒了一口气,“悬着的心终于放下了”。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "张萌母亲所在地附近的救援冲锋舟。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "受访者供图 7月29日以来,受台风“杜苏芮”影响,京津冀地区持续强降雨。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "据公开信息,7月29日8时至8月1日11时,涿州市出现明显降水天气过程。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "全市平均降水量355.1毫米,最大降水量为两河村435.7毫米,多个乡镇、街道降水量均超300毫米。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "截至8月1日上午10时,涿州市受灾人数133913人。 " t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "24岁的李志辉已经多次安慰女朋友,但女朋友的一句“家没了,那个房子是我爸妈一辈子的心血”,也瞬间让他陷入无助。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "目前,涿州境内北拒马河、小清河、白沟河等多条河流流量较大,小清河分洪区、兰沟洼蓄滞洪区已相继启动。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "涿州境内防汛形势严峻,多地遭受洪水灾害,多个村庄被洪水围困。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "目前,李志辉女朋友的家人所在的涿州市刁窝镇东辛庄村仍在等待救援,包括附近的白塔村、小营村等同样或在等待救援或正在被救援。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "在社交平台上,也依然能看到大量求助救援的信息正在发出。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "告急的村庄。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "“一共五位家人,其中一位老人已经80多岁,一个孩子只有五六岁,目前都在白塔村一处自建二层小楼上,水已经漫到腰部,有一米多深了,家人都在二楼等候救援。”" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "肖俊介绍,因为到处被淹,也为了陪伴老人,他的家人们8月1日就搬去了刁窝镇白塔村,“结果今天水就涨起来了。”" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "36岁的肖俊平时在北京工作,赶不回去的他觉得现在非常揪心,断断续续的信号也无法获知现场的情况,同时他也认为村子救援难度很大,人员分散也比较难找。" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "“刁窝镇东辛庄村的水已经漫过了一楼。”" t2tt eng --src_lang cmn
time python scripts/m4t/predict/predict.py "李志辉告诉新黄河记者,他目前在沧州,女朋友是刁窝镇东辛庄村人,8月1日几位家人有的已经搬到附近的白塔村住,有的还在东辛庄村,跟张俊一样,李志辉女朋友一家也没想到,当地的水涨得如此快。" t2tt eng --src_lang cm

To ease comparison with Google Translate, the text has been chunked into sentences or groups of sentences (though it was translated sentence-by-sentence in Seamless and as a passage in Google Translate). Overall the factual elements of the story are translated fairly well, but transliteration is very different from what Google Translate, Bing Translator and GPT-3.5 yield. In some cases, transliteration varies sentence by sentence, from "Dongxingzhou" to "Dong Xingzhou" and from "Suzhou" to "Yangzhou". Note the failure mode of "such as the North River, the Little River, the Little River, the Little River, the Little River, the Little River, the Little River, the Little River, the Little River, the Little River, the Little River, the Little River, the Little River" as well.