姓名:李艺暄 学号:14310116071
转载自:https://www.quora.com/How-does-Google-translate-work-Do-they-have-database-for-all-words-of-a-particular-language
【嵌牛导读】:当我们面对一种陌生的语言时,最便捷的翻译手段就是使用翻译软件,那么翻译软件是如何工作的呢?
【嵌牛鼻子】:Google翻译
【嵌牛提问】:谷歌翻译是如何做到高效准确地翻译的。
【嵌牛正文】:
2016年9月,谷歌宣布推出基于人工神经网络和深度学习的新型机器翻译系统 - 神经机器翻译系统Google Neural Machine Translation system(GNMT)。
通过使用这套系统,Google可以不断提高翻译质量,Google使用的递归神经网络Recurrent Neural Networks(RNN)不仅要考虑源词和短语,还要考虑句子出现的地方等等这种更广泛的背景,以及围绕它们的其他词和短语是什么。
长期以来,人们已经知道这些问题是人工翻译和机器翻译技术的关键区别。
此后不久,在2016年11月,Google发布了Google的多语言机器翻译系统(Zero-Shot Translation),它避免了繁琐的对单个语句进行翻译。也避免了将输入短语翻译为其假定含义的固定表述,而与作者所要表达的东西无关。
例如,他们在报告中使用日语 - 英语和韩语 - 英语对来训练他们的多语言系统。然后他们可以要求系统进行它以前没有进行过的翻译,比如日文-韩文的翻译。令人惊讶的是,即使如此,该系统也会对句子做出合理的翻译。
这种进步是真正伟大的,因为它清楚地表明了计算机翻译的进步和使计算机理解语言的意义的最终目标方面的改进。这不仅仅是在单个语言词组对单个语言词组的单词或短语的简单句法映射。
除了RNN之外,这种努力显然受到最近突破性的词语(和短语)分布式向量的表示法的启发,它称为词嵌入。 Mikolov先生等人在其他们的论文“Word2Vec”中描述了一个系统,该系统可以将单词从在相对较低维度的空间向多维实空间进行映射。
他们表明,具有相似含义的词语的嵌入在目标空间中是紧密相连的。这无疑是一个巨大的进步,因为简单的句式文法会对小的句法差异产生截然不同的映射,而不介意使用同义词之类的表达方式。这种系统还有其他很大的好处,因为几百个实数的向量比达数百万级别的简单的独热码one-hot encodings更容易处理。
低维度的词嵌入矢量被看作是短语的表示含义,这就是Google的零点多语翻译(Zero-Shot Multi-Lingual Translation)所使用的。
Word2vec不是一个真正的深度学习系统,因为它不是基于多层人工神经网络(multi-layer artificial neural networks)。它的强大功能来源于这样一个事实:它是一种无需监督的方法,不需要训练数据,可以很好地扩展到数十亿个单词,并且能够在目标紧致矢量空间中保持距离上的语义相似性。
Google的机器翻译项目是深度学习取得惊人进展的一个很好的例子,它不仅会使计算机翻译更加准确,还会更加接近计算机。