信息學院屠可偉課題組在自然語言處理領域取得多項成果

ON2020-12-08文章來源 信息科學與技術學院CATEGORY新聞

近日,上??萍即髮W信息學院視覺與數據智能中心屠可偉課題組在 Empirical Methods in Natural Language Processing (EMNLP 2020) 發表3篇主會論文以及4篇擴展論文集論文,展示了他們在自然語言處理領域的最新研究成果。EMNLP是自然語言處理領域三大頂級會議(ACL、EMNLP 和 NAACL)之一,在國際上享有很高的聲譽,根據Google Scholar Metrics,在人工智能領域所有期刊與會議中排名前十。EMNLP 2020的論文錄用率為22%。

在主會論文Cold-start and Interpretability: Turning Regular Expressions into Trainable Recurrent Neural Networks中,課題組提出了一種將正則表達式轉化為循環神經網絡的方法。正則表達式是自然語言處理領域最常用的符號規則形式之一,有著較高的可解釋性以及精確率,卻無法像神經網絡一樣由數據訓練從而提升效果。相較而言,神經網絡在有足夠多標注數據的情況下往往效果驚人,但當標注數據匱乏時性能就會大打折扣。此外,神經網絡也缺少可解釋性以及難以融入外部知識。屠可偉課題組將正則表達式對應的有限狀態自動機轉化為一種可學習的循環神經網絡,以結合符號規則與神經網絡的優點。在文本分類任務上的實驗表明,正則表達式轉化而成的循環神經網絡在零樣本時有著和正則表達式相當的準確率,遠高于隨機初始化的神經網絡;在小樣本的場景下也有著明顯優勢;在樣本足夠多的場景下則有著和神經網絡相當的效果。屠可偉課題組2019級碩士生蔣承越是本文第一作者,樂言科技為合作單位,屠可偉教授為通訊作者。項目獲得樂言科技和國家自然科學基金委支持。

論文鏈接:https://www.aclweb.org/anthology/2020.emnlp-main.258/

 

圖|本文提出的框架示意圖

 

在主會論文 Adversarial Attack and Defense of Structured Prediction Models 中,課題組研究了自然語言處理結構預測問題上的對抗樣本生成。對抗樣本是指目標預測器易于出錯的樣本,找到對抗樣本有利于提升模型的魯棒性并提升模型的效果。目前絕大多數對抗樣本方向的工作都是針對圖像領域和自然語言處理領域中的分類問題,針對結構預測的對抗樣本研究仍是空白。屠可偉課題組針對于這一問題,提出了一種基于強化學習的對抗樣本生成架構,超越了傳統方法的性能,并具有黑箱、在線、可變句子長度等優勢。屠可偉課題組2020屆博士畢業生(現新加坡國立大學博士后)韓文娟和2018級博士生張力文為本文的共同第一作者,屠可偉教授為通訊作者。項目獲得國家自然科學基金委支持。

論文鏈接:https://www.aclweb.org/anthology/2020.emnlp-main.182/ 

 

圖|本文提出的框架示意圖

 在主會論文AIN: Fast and Accurate Sequence Labeling with Approximate Inference Network中,課題組研究了序列標注問題的快速并行方法。序列標注是自然語言處理中一項非常重要的基礎任務,在大量的搜索推薦廣告、電商等業務場景都有廣泛的應用。而這些場景往往都需要快速地處理用戶需求,從而提升用戶體驗?,F有的序列標注模塊往往采用條件隨機場模型處理,但針對條件隨機場模型推理的常用算法如Viterbi算法,無法實現序列內部每個詞之間的并行計算,導致速度慢效率低。屠可偉課題組提出了使用平均場變分推理算法來對條件隨機場進行近似推理,通過反復迭代的方式更新其預測的概率分布達到收斂。論文將平均場變分推理算法看作一個端到端的循環神經網絡結構,使得詞之間的并行計算成為可能。實驗表明,該方法大幅度提升了序列標注模型的訓練和測試速度,同時準確度也保持在和傳統算法幾乎相同的水平。屠可偉課題組2020級博士生王新宇是本文第一作者,阿里巴巴達摩院為合作單位,屠可偉教授為通訊作者。項目獲得阿里巴巴達摩院和國家自然科學基金委支持。

論文鏈接:https://www.aclweb.org/anthology/2020.emnlp-main.485/ 

 

圖|傳統Viterbi算法(左)與本文提出的算法(右)流程對比