Transcribing 2.5M Hours Of TV News: The Unusual Case Of 8 Languages In A Single Russian TV News Broadcast

As continue our explorations of the linguistic landscape of the Internet Archive's TV News Archive's 2.5 million hours of transcribed global television news, we continue to find fascinating examples of highly multilingual broadcasts. When we first came across this Russian television news broadcast containing 8 languages intermixed with one another, we initially flagged it as an example of a fascinating LSM transcription failure, since we could not contemplate a scenario in which so many languages would be intermixed in a single broadcast given how monolingual Russian television news programming typically is. Instead, we discovered that Chirp and CLD2 were absolutely correct in their transcription and language identification of the broadcast. The reason for so many languages appearing side-by-side? The broadcast was a news report about a film festival that featured back-to-back brief clips of 10-15 seconds each from some of the nominated and winning films, resulting in so many languages appearing mixed together, once again demonstrating the incredibly fascinating findings one will tumble upon when examining the world at scale.

{"lang":"RUSSIAN","txt":"Дзампино, режиссёр, сценарист Италия. Александра ребенок, актриса, Россия. Култип патель, продюсер, режиссёр Индия, переходим к основному, в основной конкурс первый "},
{"lang":"RUSSIAN","txt":"среди равных Московского фестиваля в этом году вошли 13 картин, сейчас вы получите возможность ознакомиться с ними, ну метафорически говоря, свысоты птичьего полёта, "}
{"lang":"PERSIAN","txt":"مرگش تجرب می کنه واقعی تره حتماً این مخش من مرگ زیاد دیدم شما همسرتونو از دست دادینه ای اگر این نامه به دست تورسیده است و آن را می خوانی یعنی اینکه بازگشته ای نمیخوایی که برید دلم خیلی روشن بود که شما میآید سلام من ممکنه بیام ایران فکر کردم شاید خوب باشه همدیگه رو ببینیمبعد از ۳۰ سال بیخبری سه روز فرصت نداریم برین مشهد هیچ وقت نشد بپرسم شما کدوم شهرین به هر حال من الان مشهد هستم میخوای بهت لو بدم کجاست فقطم از یه جایی به بعد دیگه پیداش نشد. "},
{"lang":"RUSSIAN","txt":"Шьёшь, шью, я там объявление повесил, спектакль новый будет, приходи, пап, что ты там со свиньями придумал? "},
{"lang":"ROMANIAN","txt":"pe ce să căutați dumneavoastră preot noaptea la securitate? De ce nu mi răspundeți? Cum poate un preot să tacă atunci când în țară sunt dărâmate biserici și în locul lor se construiesc crâșme? Libertatea este o stare a spiritului. Asta e adevărata libertate. Să înfrunți un regim care vrea să te "},
{"lang":"ENGLISH","txt":"înngenuncheze. Open your doors and windows, break down your walls, allow the wins of all lands and all cultures to blow through your house freely, but do not let this wind blow you off your feet. "},
{"lang":"SINHALESE","txt":"මංජුබල්ලි හෙට උදේට අපේ සීමාව ඉඳී නේද ඉදිරියට හොඳයි අයි අපි ඉන්නවා උඩ සවුත් එකේ 20යිඉදිරියට ඇයි මොනවහරි කෙරෙන්න ඕනද ඔව් මල්ලි අපි පණ්‍යයක් කරගෙන යනවා ඉදිරියට ඒ කට්ටාවුණ කියදේ. "},
{"lang":"RUSSIAN","txt":"Завтра к тебе подъедет Семён Иванович, чтоете, ну сюрприз мы тебе сделали, я им говорил, не надо мне никаких сюрпризов, и не с это вам, люди добрые, а мне зоя разрешает, ага, бери, заходи, что хочешь, дай мне деньги. Дай мне денег, я деньги тебе перевела, мам, ну чего ты меня всё время благодаришь, я спрашиваю, где ваше сопровождение, где сопровождение, "},
{"lang":"SERBIAN","txt":"помилуй Бога, Господи, помилуй грешных нас, Господи помилуй нас. "},
{"lang":"SPANISH","txt":"una voz que decía mata, mata, mata, yo quería matar a mi papá, quema ahora mi padre, "},
{"lang":"Chinese","txt":"二 一 開 始 。 我 觉 得 大 多 数 人 对 意 术 的 探 索 , 是 入 门 级 , 紧 现 于 抱 暴 名 字 庄 装 逼。 事 面 上 的 文 义 青 年 大 都 属 于 这 一 类 。 "},
{"lang":"SPANISH","txt":"preferido. y cuándo regreso, por la tarde, tus labios dirán que me han despedido, pero la historia me arrojar al olvido, será la peor de las condenas, y si mejor nos vamos a Huanancayo, te preguntarán por mi recorrido, ser el paisano "},
{"lang":"SERBIAN","txt":"desconocido, ovo što mi jedemo, to nije pomorandži, to su neke lopte od kartona, šta ako te uhvate, Što to ne može bez svađe, s tobom ne može nikako, šta će mama i tata da kažu a možeš da ne ispuštaš te zvukove, znači ipak si se nadrkao, pa sad se ja sam nadrkao kad me ubeđuješ da sam se nadrkao pa ne ubeđujem te uopšte samo te pitam, meni se čini da se ovde radi o jednom biološkom ratu, trava hašliš, spim umiru ljudi, jebe ga nije zajeban, sveki človek kražeo duše mi kaže da je doš. "},
{"lang":"RUSSIAN","txt":"со всех сторон меня сейчас давят, мне как никогда сила нужна, а я не знаю, кто у меня жена, парме нужен тот, кто её защитит, михал, не ходи за камень, не трасни в акул, за тобой придёт, ты моя, воин, он сильный, вот ему б"}