Traproion 自动机：关于 pr é jung é s 的算法？--翻译技术速递

Par Estelle Peuvion, étudiante M2 TSM Depuis plusieurs années, la traduction automatique connaît des avancées spectaculaires. La traduction neuronale s’impose de plus en plus face à la traduction statistique. Résultat : les moteurs de traduction machine sont capables de traiter de longues phrases, voire des textes complets, en respectant la grammaire, la syntaxe, et en conservant la cohérence terminologique. Certains moteurs de traduction automatique traduisent (presque) aussi bien que les traducteurs humains et de nombreuses entreprises n’hésitent plus à recourir à leurs services pour traduire leurs sites et leurs produits. Cependant, ces résultats remarquables connaissent leurs limites. En effet, les algorithmes sur lesquels reposent ces moteurs de traduction reproduisent en quelque sorte la manière de traduire des humains, mais ne risquent-ils pas de reproduire également nos aspects les plus négatifs ? Reproduction des préjugés La réponse est oui : les moteurs de traduction automatique reproduisent les préjugés (sexistes, racistes…) des humains. Cela a été démontré, et nous pouvons le vérifier par nous-même, en quelques clics seulement. L’exemple le plus flagrant est celui des professions, notamment lorsque l’on traduit d’une langue qui n’a pas de genre lexical vers une langue qui en a. Les femmes sont communément associées aux professions artistiques, aux métiers de soins (infirmière, sage-femme…), au foyer, alors que les hommes sont associés aux professions scientifiques, politiques, et plus globalement aux postes « importants »: le moteur de traduction machine va, dans la majorité des cas, reproduire ces clichés. Depuis plusieurs années, de nombreux internautes recensent les « dérapages » des moteurs de traduction automatique, et les exemples ne manquent pas. Sur Google Translate, incontournable de la traduction machine, il est facile de se retrouver face à des phrases reprenant des préjugés sexistes. En tapant « The engineer is from Germany », le logiciel nous propose automatiquement « L’ingénieur est allemand. » En revanche, lorsque l’on remplace engineer par nurse, nous obtenons « L’infirmière est allemande »… Au-delà de ces observations simples, qui peuvent être formulées par n’importe qui, des scientifiques ont également étudié plus en profondeur ce phénomène et sont arrivés aux mêmes conclusions. Des chercheurs des universités de Princeton et de Bath ont étudié la technologie GloVe, développée par l’université de Stanford, qui calcule les associations entre les mots. GloVe est entraîné à partir du corpus Common Crawl, qui regroupe plusieurs milliards de textes venant du web et est utilisé pour la traduction machine. Les chercheurs ont conclu que le programme GloVe associait très bien les mots, mais ils ont aussi remarqué des dérives racistes et sexistes : les personnes afro-américaines étaient associées à des mots bien plus négatifs que les personnes blanches, et les noms de femmes étaient liés à la famille, alors que les noms masculins étaient associés à la vie professionnelle. À l’université de Washington, trois chercheurs ont étudié les préjugés sexistes dans la traduction machine (Evaluating Gender Bias in Machine Translation) et ont fait une découverte « amusante ». Ils ont constitué des phrases comprenant deux professions, une communément associée aux hommes et une associée aux femmes. Ils ont féminisé la profession masculine à l’aide d’un pronom ajouté plus loin dans la phrase, et ont laissé une ambiguïté quant à la profession féminine. Par exemple, dans la phrase « The doctor asked the nurse to help her in the procedure », la profession de médecin a été féminisée grâce au pronom her, et la profession d’infirmier/infirmière est neutre. L’expérience avait deux objectifs : voir si doctor était bien féminisé, et voir si nurse était mis au masculin ou au féminin. Dans la majorité des cas, doctor était au masculin, nurse au féminin et le pronom her était traduit par un pronom féminin dans la langue cible, ce qui changeait le sens de la phrase ! Les chercheurs ont donc tenté d’ajouter un adjectif associé aux femmes au mot doctor, et dans ce cas, doctor était féminisé. Si nous reprenons l’exemple cité plus-haut et rajoutons l’adjectif pretty devant engineer, Google Translate nous propose « La jolie ingénieure est allemande ». En revanche, si l’on remplace pretty par courageous, l’ingénieur redevient un homme ! Conclusion : dans cette expérience, le cliché sexiste a été dépassé par l’ajout d’un autre cliché sexiste. Comment expliquer ce phénomène ? Pourquoi donc les moteurs de traduction automatique reproduisent-ils nos préjugés ? Les chercheurs ayant étudié cette problématique ont plusieurs réponses à nous offrir. Les moteurs de traduction automatique sont basés sur des corpus parallèles et monolingues : des textes en langue cible et des traductions. Ces textes se comptent par millions voire par milliards pour certains moteurs de traduction, et ils proviennent du web dans la majorité des cas. Par conséquent, il est tout simplement impossible de contrôler chacun des textes composant le corpus : cela demanderait trop de main-d’œuvre et de temps. Voilà la première explication à notre problème : les données qui permettent aux moteurs de traduction automatique de nous proposer des traductions fluides, quasi-parfaites dans certains cas, proviennent du web. Ce sont des données que nous, humains, produisons, et nous produisons forcément des données affectées par nos préjugés, que nous le voulions ou non. Prenons par exemple le corpus utilisé par le site de traduction Reverso Context : il contient des textes provenant de domaines différents, et notamment des sous-titres de films et de séries. Une particularité qui a amené le site à proposer début 2019 des résultats de traduction antisémites, racistes et sexistes. Le fondateur de l’outil s’est excusé et a expliqué que ces résultats pouvaient provenir de films et de séries, et qu’il était difficile de contrôler un corpus aussi conséquent. De plus, la majorité des moteurs de traduction fonctionnent grâce au word embedding, une technique d’apprentissage automatique qui représente les mots ou phrases d’un texte par des vecteurs de nombres réels. La représentation vectorielle d’un mot représente son « contexte », c’est-à-dire les mots, expressions et phrases qui entourent le plus souvent ce mot. Il est donc tout à fait logique que les moteurs de traduction reproduisent nos préjugés : ils utilisent nos textes, apprennent nos langues. Ils apprennent aussi les associations culturelles et historiques qui nous mènent à avoir ces préjugés. La seconde explication se trouve entre les corpus et le processus de traduction en lui-même : les algorithmes. En effet, les concepteurs de ces algorithmes sont en majorité des hommes, blancs, il est donc possible qu’ils prêtent moins attention à la manière dont seront traitées certaines problématiques par l’algorithme. Lutter contre les « préjugés » de la traduction automatique Maintenant que nous connaissons l’origine de ce phénomène de reproduction des préjugés sexistes, nous pouvons réfléchir à des solutions. Les entreprises ayant conçu les principaux moteurs de traduction automatique, et qui utilisent l’intelligence artificielle, se trouvent en première ligne de cette lutte. La majorité d’entre elles ont conscience du problème et ces dernières années, elles ont commencé à proposer des solutions. Facebook a annoncé il y a quelques mois la création d’un outil servant à trouver les biais dans les algorithmes, « Fairness Flow ». L’outil sera normalement capable de déterminer si un algorithme reproduit les préjugés ; il est pour l’instant en développement. Récemment, Google Translate a admis avoir proposé des traductions aux préjugés sexistes. Suite à cette annonce, le moteur de traduction prendra en compte le genre grammatical dans les traductions. En proposant un nom neutre en anglais, on peut obtenir deux traductions en français, le féminin et le masculin. Cependant, cette nouvelle fonctionnalité est pour l’instant restreinte à certaines langues et à un certain nombre de mots. La modification de la langue pourrait également être une solution : par exemple, un pronom neutre a été introduit dans la langue suédoise. Néanmoins, ce genre de modification représente un vrai défi : comment inciter des locuteurs d’une langue à changer de manière radicale leur utilisation de la langue ? De plus, le remplacement des corpus actuels prendrait un temps considérable, et les effets ne seraient pas visibles immédiatement. L’amélioration des corpus semble être un axe évident dans la résolution de ce problème. Trois chercheurs des universités de Dublin et d’Uppsala (Getting gender right in neural machine translation) ont mené une enquête et ont tenté d’atténuer la reproduction des préjugés sexistes dans la traduction automatique. Ils ont taggué le corpus utilisé par le moteur de traduction et y ont introduit des tags genrés, pour plusieurs paires de langues, aussi bien pour les accords que pour le style et le vocabulaire. Ils ont vu dans les traductions proposées des améliorations significatives, en particulier pour les accords. Cependant, ils ont noté un manque de cohérence dans certaines traductions. Nous pouvons donc améliorer les corpus en changeant la façon dont nous les utilisons (grâce aux tags, par exemple), mais également en privilégiant les textes avec une écriture non-sexiste. La diversification des équipes qui conçoivent les algorithmes représente également une idée de résolution du problème, afin qu’elles puissent plus facilement se rendre compte des préjugés reproduits par l’intelligence artificielle. Enfin, la solution qui serait évidemment la plus efficace, serait que la société change et que tous nos préjugés disparaissent. Malheureusement, c’est un objectif difficile à atteindre, mais nous, traducteurs et traductrices, pouvons apporter notre pierre à l’édifice. Utiliser l’écriture inclusive (quand nous en avons la possibilité), encourager l’amélioration des moteurs de traduction automatique, prêter attention au vocabulaire que nous utilisons, voilà des pistes simples que nous sommes tous et toutes aptes à suivre. Bibliographie : Tual M. « L’intelligence artificielle reproduit aussi le sexisme et le racisme des humains ». Le Monde (2017) https://www.lemonde.fr/pixels/article/2017/04/15/quand-l-intelligence-artificielle-reproduit-le-sexisme-et-le-racisme-des-humains_5111646_4408996.html Gershgorn D. « Facebook says it has a tool to detect bias in its artifical intelligence ». Quartz (2018) https://qz.com/1268520/facebook-says-it-has-a-tool-to-detect-bias-in-its-artificial-intelligence/ Jérôme G. « Google Traduction veut être moins sexiste ». Génération Nouvelles Technologies (2018) https://www.generation-nt.com/google-traduction-genre-grammatical-masculin-feminin-actualite-1960147.html « L’algorithme qui a rendu Google Translate sexiste ». Forbes (2018) https://www.forbes.fr/technologie/lalgorithme-qui-a-rendu-google-translate-sexiste/ Baider F. « La dimension genrée de la traduction automatique ». Le mot juste en anglais (2019) https://www.le-mot-juste-en-anglais.com/2019/08/la-dimension-genr%C3%A9e-de-la-traduction-automatique.html Tirosh O. « Are we training our translation machines to be racist? ». Tomedes (2017) https://www.tomedes.com/translator-hub/translation-machines-racist.php Tual M. « Pourquoi le site de traduction Reverso affiche parfois des résultats antisémites ? ». Le Monde (2019) https://www.lemonde.fr/pixels/article/2019/02/28/pourquoi-le-site-de-traduction-reverso-affiche-parfois-des-resultats-antisemites_5429592_4408996.html Murray J. « Racist Data? Human Bias is Infecting AI Development ». Towards Data Science (2019) https://towardsdatascience.com/racist-data-human-bias-is-infecting-ai-development-8110c1ec50c Vanmassenhove E., Hardmeier C., Way A.« Getting Gender Right in Neural Machine Translation ». Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3003–3008 (2018) Stanovsky G., Smith N., Zettlemoyer L.« Evaluating Gender Bias in Machine Translation ». (2019) Twitter Facebook

Par Estelle Peuvion ,é tudiante M2 TSM de avanca é es 眼镜公司。La traproion 神经元将 e + en 和 face 加到 la traproion statistique 上。雷苏拉特：这些汽车制造商的 traproion 机器的声音，可培训的朗格短语， voire des texts completes ，令人尊敬的 lagrammaire ， la synthex ，等保存的同事词汇。认证汽车制造商自动贸易（ presque ） aussi bien que les traduducis humans et de nombreuses enterprises'h é sitent 以及为 tradure leurs sites 和 leurs products 提供服务。塞彭特，苏拉坦夫妇还把康奈斯派来了勒鲁有限公司。Eneffet , les Algorithmes sur lesquel s recents moteurs de traproion repduisent en querque sorte la mani è re de traduire des humans , mais ne risquent-ils pas de repudire é galment nos parties 加上 n é gatfs ? 生殖技术最重要的一点是：我们的汽车制造商们的自动复制品。Cela a a é t é d é montr é, et nous povons le v é lizer par nous-m ê me , en queques clics seulement 。 L ’ example le 加上最浮夸的 celui 职业，著名的 lorsquel ’ on traduit d'une language quin ’ a pas de classical 词汇表和 language quien a . Les femmes sont common é ment association é es aux profestiques , aux m é tiers de soins ( infrmir è re , sage-femme ...), au foyer , alors que les hommes sont é s associates aux professfiques , politiques ,再加上全球定位的“重要因素”：机器 va , dans la maidrich é des cas , repdure es clich é s 。 denombreux internautes recensent les ,' d é raparges ''' des moteurs de traproion automanique , et les 示例 ne manquent pas 。Sur Google Translate ，不可巡视的 deliveon 机器，最简单的复古面部表情的短语 reprenant des pr é jung é s 性别。这位工程师来自德国，他提出了自动化的建议。“ En 重估， lorsql ’ on replace 工程师 par 护士， nous doennes ，' L'infrmi è re allemande ''。 Au-delà es 观测简单， qui peuvent ê tre formule é es par n'imparte qui , des scientifique ont é galment é tudi é加上 en proundeur ce ph é nom è ne et sont av s aux m ê mes 结论。普林斯顿大学和 Bath ont é tudi é la technology GloVe , d é developp é e par l'universit é de Stanford , qui calcule association entre mots 。GloVe est entrien à parter du collection CommonCrawy , qui regroupe plsieurs milliods texts venant du web et est utility é pour la traproducton Machine 。Les chercheurs ont concur que le program Glo Veassociait tr è s bien les mots , mais ont aussi remrqu é des d é res racists et seistes : les personnes afro-am é ricines é taint associaci é es à de mots bien el mots , en é gatfs que les personnes blanches , et les noms de femmes é taint li é s à la famille ,是一家专业的男性协会。华盛顿大学的女教师们在机器翻译中对性别歧视的评价，以及在错误的情况下对性别歧视的评价。这些词包括： comprenant deux industries , une common é ment associaci é e aux hommes 和 une associaci é e aux femmes 。职业男子气概，加上 loin dans la phase ，等等。 Par 示例， dans la 短语‘，医生要求护士帮助她进行手术，''职业为她提供帮助，职业为她提供帮助，职业为不忠/不忠。l'exp é rience avit deux objectifs : vor si Doctor é tait bien f é mines é, et vor si guard é tait mis au 阳性 ou f é minen 。女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们，女士们。最好的医生，医生，医生。Si nous repreneurons l'example cit é plus-haut et rajoutans l'adjucture of apply developant Engineering , Google Translat nous 提议′ La jorie inge é nieure est allemande »。埃恩·瑞金彻，我的位置相当勇敢，我的朋友们再也不尊敬！结论：性别歧视、性别歧视、性别歧视。点评金边? 贸易自动化的汽车制造商们？Les chercheurs ayant é tudi é cette propert é matique ont ubsieurs r é ponse à nour offir 。关于自动化的教学大纲和教学大纲：教学大纲和教学大纲。ces 的教科书组成了数百万的 voire par milliods pour certificates de traproion ，等 proviennent du web dans la mailti é des cas 。Par cons é quenct , il 最简单的吹捧不可能去 contr ô ler chamba des texts composite le collection : cela demandrait trop de main-d ’ Ultra re et de temps 。关于问题的解释：这些问题的答案是：关于贸易自动化的建议，准 parfaites dans certifies cass ， proviennent du web 。这些产品包括：新产品、新产品、新产品和新产品。前非标准示例语料库的利用， par le site de traproion 反向上下文： il content des texts 来源的 domaines differents ， et nomment des sous-tires de files et de s é ries 。不特定的是一个可供提议的地点，但2019年的人权、种族歧视和性别歧视。" Le fonteur de l'outil's est expliqu é que es r é sultatis povaient provinnir de files et de s é ries , et qu'il é tait difficile de contr ô ler un collections aussi cons é quent 。此外，单词嵌入技术的主要技术是自动测试和自动测试。La repr é senation vectiele d'un mot repr é sene son ,' context ', c'est-dir les mots , express et 短语 quientourent le le le le 加上 souven ce mot 。最重要的是，我们利用了 nos 教科书，逮捕了 nos 语言。奥西协会文化和历史协会。第二种解释方法是： s 算法。在此基础上，我们提出了一种新的算法，即最大限度地提高算法的效率。 Lutter contre ′ pr é jung é s ′ de la traproducton automation 主要租户 nous connaisesons l ’ origine de ce ph é nom è ne de replication des pr é jung é s seistes , nous povons r é f é chir à des solutions 。 Les enterprises ayant con ç u les principaux moteurs de traproion automainitiation , et qui 利用 l ’ intelligence artifielle , se current premium è re 木制 de cette lutte 。La Maurit é d'entre elles ont conience du propl è me et es dernires annes , elles ont commerce é提议解决办法。 Facebook 是一个名为“公平流动”( Fairness Flow )的社交网站。该算法能够重新计算最快的开发时间。 R é cemment , Google Translate 提供了一份招聘广告提案，内容涉及女性的职业发展。套房一次， le moteur de traproducton prendra 构成了一种语法式的舞蹈。提出了关于在 fran ç ais 、 le f é minn 和 le manulin 等地进行生产的不带中性色彩的 angelas 。最重要的是，在某些特定的语言和汽车上进行即时重组。 La modification de la language pour rait é galment ê tre une solution : par example , un prodom 中性粒细胞 a é t é introduit dans la language su é doise 。N é anmoins , ce type de reforming repr é sene un vrai d é fi : commentant des hooteurs d ’ une langue à changer de Mani è re radio leur Using de la langue ?此外，还可以考虑将 actuels prendrait un temps accord é able 等人安置在网上。 L'amliorations des semble ê tre un 斧头é visent dans la r é solution de ce problem è me 。都柏林大学和乌普萨拉大学（在神经机器翻译中获得性别权利）的学生将获得性别方面的权利。在此基础上，我们设计了一套适用于商标注册、商标注册、商标注册、商标注册、商标注册、商标注册、商标注册、商标注册、商标注册、商标注册等。在此基础上，我们提出了一系列具有重大意义的建议。在此之前，我不会去找工作。 Nous povons donc amliorerier les collection en changenant la fa ç on not nous les utilitions ( gr é ce aux tags , par exame ), mais é galment en privil é巨无霸 les texts avec une é criure non seiste 。 La diversification des é quipes qui conoivent les Algorithmes repr é sense é galment une id é e de r é solution du propert è me , afn qu'elles puissent and facisiurers se scheme competer des pr é jung é s repreduit par l'Intelligence artiele 。 Enfin , la solution qui serait é vidament la plus effectice , serait que la soci é t é change et que tous nos pr é ju é s disabent 。错误，最不客观的是难以处理的东西，新的，新的，新的，新的，新的，新的，新的。" Utiliser l é criticure inclusional ( quand nous en avons la possibilit é), incourager l'amliorationades moteurs de traproyon automation , pr ê ter focus au voire que nous utilitions , voil à des pistes simple nomes tous 等吹嘘倾向于自杀。书目： Tual M 。“ L ’ Intelligence Artifiele repduit aussi le sex isme et le racissme des humans ”。《世界报》(2017) https://www.lemonde.fr/pixels/article/2017/04/15/quand-l-Intelligence-artifielle-repduit-le-seisme-et-le-racissme-des-humanse_511646_4408996。html Gershgorn D 。Facebook 表示，它有一个工具可以检测其人工智能中的偏见。Quartz (2018年) https://qz 。com /1268520/ facebook-say-it-at-a-tool-to-test-in-it-AI / J é r ô me G .“ Google Traproion veut ê tre moins seiste ”。G é n é ration Nouveles Technologies (2018年) https://www.generation-nt 。com / google-traproion-type -语法-阳性-女性化-实施-1960147。html “ L ’ algorithme qui a rentu Google Translate seiste ”。福布斯（2018年） https://www.forbes.fr/technologye/lalgrithme-qui-a-rendu-google-translate-seiste/ 拜德 F 。“ La 维元发电机”。Lemot justete en angelas (2019年) https://www.le-mot-justet-en-angelas 。com /2019/08/ la 维数- genr % C3% A9e-de la-traproduction-automation 。html Tirosh O 。我们训练翻译机器是种族主义吗？“。Tomedes (2017) https://www.tomdes.com/translater-hub/translation-machine-racists 。php Tual M 。" Pourquoi le site de traproion Reversio Affache parfois des r é sultas anti é mites ?“。《世界报》(2019年) https://www.lemonde.fr/pixels/article/2019/02/28/ poumquoi-le-site-de traproion-reverse-affinche-parfois-des-resultates-antileemisses_5429592_4408996。html 默里 J 。《种族数据》？人类偏见正在影响人工智能的发展。迈向数据科学(2019年) https://towaardsdatascience 。com /种族主义-数据-人-偏见-感染-发展-8110c1ec50c 万马辛沃。， Hardmier C 。路 A 。《神经机器翻译中的性别问题》。2018年自然语言处理实证方法会议记录，第3003至3008页（2018年）斯坦诺夫斯基。史密斯。L 。《机器翻译中的性别偏见评估》。(2019年) Twitter Facebook

以上中文文本为机器翻译，存在不同程度偏差和错误，请理解并参考英文原文阅读。

阅读原文

机器翻译

工具

翻译管理

本地化