將現(xiàn)有的代碼庫遷移到更現(xiàn)代或更高效的語言需要大量的資源,包括財務和人力。譬如,澳大利亞聯(lián)邦銀行在5年的時間里花費了大約7.5億澳元,將其平臺從COBOL轉(zhuǎn)換為Java。而從理論上講,轉(zhuǎn)編譯器可以則幫助消除從頭重寫代碼所需的費用。但是,由于源語言和目標語言都具有不同的語法、變量類型、標準庫函數(shù)和平臺API,因此這個在實踐中其實很難構(gòu)建。
據(jù)介紹,F(xiàn)acebook的TransCoder AI則采用了一種無監(jiān)督的學習方法來應對這些挑戰(zhàn)。它可以在無人監(jiān)督的情況下不受監(jiān)督地運行,從而在沒有標簽的情況下在數(shù)據(jù)集中找到未檢測到的模式,比基于規(guī)則數(shù)據(jù)集的模型要高效得多。
無論使用哪種編程語言,神經(jīng)編譯器都可以將代表相同指令的代碼段映射到相同代碼段。一位共同作者寫道:“TransCoder可以輕松地推廣到任何編程語言,不需要任何專業(yè)知識就可以將代碼從一種編程語言轉(zhuǎn)換為另一種編程語言,并且在很大程度上優(yōu)于商業(yè)解決方案。我們的結(jié)果表明,通過向解碼器添加簡單的約束以確保生成的函數(shù)在語法上是正確的,或者通過使用專用架構(gòu),可以輕松解決該模型所犯的許多錯誤。”
TransCoder AI的準確性
Facebook研究人員在超過280萬個開源存儲庫中的公開代碼上對TransCoder AI進行了訓練,以專注于功能級別的代碼轉(zhuǎn)換。
為了評估TransCoder AI的性能,他們從GeeksforGeeks中選擇了852個C++、Java和Python并行函數(shù)。GeeksforGeeks是一個在線平臺,用于收集編寫代碼時的問題,并提供多種編程語言的解決方案。
利用以上兩個數(shù)據(jù),他們開發(fā)了一個名為"計算精度(computational accuracy)"的新指標,用于檢查翻譯后的函數(shù)在輸入相同的情況下是否會產(chǎn)生與源語言相同的輸出。
結(jié)果
這是AI從以下位置轉(zhuǎn)換代碼時獲得的結(jié)果的準確性水平:
C++to Java:74.8%
C++to Python:67.2%
Java to C++:91.6%
Java to Python:68.7%
Python to Java:56.1%
Python to C++:57.8%
研究人員表示,TransCoder AI已經(jīng)展示出對每種語言(Java、Python和C++)的語法及其數(shù)據(jù)結(jié)構(gòu)的理解。它甚至能夠正確地調(diào)整每種語言的庫,同時適應小的修改--例如,重命名輸入中的一個變量。盡管Transcoder并非十分完美,無法在代碼生成過程中考慮某些變量類型。但是,它的性能確實優(yōu)于已有的利用專家知識手動構(gòu)建的框架。