論文閱讀: Self-Training using Selection Network for Semi-supervised Learning
作者說明
?
基本信息
**1.標(biāo)題:**Self-Training using Selection Network for Semi-supervised Learning
**2.作者:**Jisoo Jeong, Seungeui Lee, Nojun Kwak
**3.作者單位:**Seoul National University, Seoul, South Korea
**4.發(fā)表期刊/會(huì)議:**ICPRAM
**5.發(fā)表時(shí)間:**2020
**6.原文鏈接:**https://pdfs.semanticscholar.org/c204/77953fcd455943a24ff30035284246bcc6a2.pdf
Abstract
半監(jiān)督學(xué)習(xí)(Semi-supervised learning, SSL)是一種有效利用大量未標(biāo)記數(shù)據(jù)來提高有限標(biāo)記數(shù)據(jù)條件下性能的研究。大多數(shù)傳統(tǒng)的SSL方法都假設(shè)未標(biāo)記數(shù)據(jù)的類包含在標(biāo)記數(shù)據(jù)的類集中。此外,這些方法沒有對(duì)無用的未標(biāo)記樣本進(jìn)行分類,將所有未標(biāo)記的數(shù)據(jù)都用于學(xué)習(xí),不適合實(shí)際情況。在本文中,我們提出了一種稱為選擇性自訓(xùn)練(selective self-training, SST)的SSL方法,它有選擇地決定是否在訓(xùn)練過程中包含每個(gè)未標(biāo)記的樣本。它被設(shè)計(jì)用于更實(shí)際的情況,即未標(biāo)記數(shù)據(jù)的類與標(biāo)記數(shù)據(jù)的類不同。對(duì)于標(biāo)記樣本和未標(biāo)記樣本共享同一類類別的傳統(tǒng)SSL問題,所提出的方法不僅性能可與其他傳統(tǒng)SSL算法相媲美,而且可以與其他SSL算法相結(jié)合。然傳統(tǒng)方法不能應(yīng)用于新的SSL問題,但我們的方法沒有顯示出任何性能下降,即使未標(biāo)記數(shù)據(jù)的類與標(biāo)記數(shù)據(jù)的類不同。
1.Introduction
近年來,機(jī)器學(xué)習(xí)在各個(gè)領(lǐng)域取得了很多成功,精細(xì)的數(shù)據(jù)集被認(rèn)為是最重要的因素之一(Everingham等人,2010;Krizhevsky等人,2012;Russakovsky等人,2015)。由于我們無法發(fā)現(xiàn)潛在的真實(shí)數(shù)據(jù)分布,我們需要大量的樣本來正確估計(jì)它(Nasrabadi,2007). 然而,建立一個(gè)大數(shù)據(jù)集需要大量的時(shí)間、成本和人力(Chapelle et al.2009;Odena等人,2018)。
半監(jiān)督學(xué)習(xí)(Semi-supervised learning, SSL)是一種緩解數(shù)據(jù)收集和標(biāo)注過程效率低的方法,它介于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)之間,因?yàn)樵趯W(xué)習(xí)過程中同時(shí)使用了有標(biāo)記和無標(biāo)記的數(shù)據(jù)(Chapelle et al., 2009;Odena等人,2018)。它可以使用大量的未標(biāo)記數(shù)據(jù)從較少的標(biāo)記數(shù)據(jù)有效地學(xué)習(xí)模型(Zhu, 2006)。因此,SSL的意義在以往的文獻(xiàn)中得到了廣泛的研究(Zhu et al., 2003;Rosenberg等人,2005年;金瑪?shù)龋?014;Rasmus et al., 2015;Odena, 2016;Akhmedova等人,2017年)。這些結(jié)果表明,在注釋數(shù)據(jù)量不足的情況下,SSL可能是一種有用的方法。
然而,最近有一項(xiàng)研究討論了傳統(tǒng)SSL方法的局限性(Odena等人,2018)。他們指出,傳統(tǒng)的SSL算法很難應(yīng)用到實(shí)際應(yīng)用中。特別是,傳統(tǒng)的方法假設(shè)所有的未標(biāo)記數(shù)據(jù)都屬于訓(xùn)練標(biāo)記數(shù)據(jù)的一類。使用未標(biāo)記樣本進(jìn)行訓(xùn)練,這些樣本的類分布與標(biāo)記數(shù)據(jù)的類分布有顯著差異,可能會(huì)降低傳統(tǒng)SSL方法的性能。此外,無論何時(shí)有一組新的數(shù)據(jù)可用,都應(yīng)該使用所有數(shù)據(jù)(包括out- class1數(shù)據(jù))從頭開始訓(xùn)練它們。
本文以分類任務(wù)為研究對(duì)象,提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的選擇性自訓(xùn)練(selective self-training, SST)方法來解決上述問題。為了使學(xué)習(xí)能夠選擇未標(biāo)記數(shù)據(jù),我們提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的選擇網(wǎng)絡(luò),該網(wǎng)絡(luò)決定是否添加每個(gè)樣本。與(Wang et al., 2018)不同,SST并沒有直接使用分類結(jié)果進(jìn)行數(shù)據(jù)選擇。此外,我們采用了一種集成方法,它類似于協(xié)同訓(xùn)練方法(Blum and Mitchell, 1998),利用多個(gè)分類器的輸出迭代地構(gòu)建新的訓(xùn)練數(shù)據(jù)集。在我們的例子中,我們不使用多個(gè)分類器,而是將時(shí)間集成方法應(yīng)用于選擇網(wǎng)絡(luò)。對(duì)于每個(gè)未標(biāo)記的實(shí)例,比較選擇網(wǎng)絡(luò)的兩個(gè)連續(xù)輸出,以保持我們的訓(xùn)練數(shù)據(jù)干凈。
此外,我們還發(fā)現(xiàn)每個(gè)類的樣本數(shù)量之間的平衡對(duì)我們的網(wǎng)絡(luò)性能非常重要。我們建議一個(gè)簡(jiǎn)單的啟發(fā)式方法來平衡在類中選擇的樣本數(shù)量。通過所提出的選擇方法,可以將可靠樣本添加到訓(xùn)練集中,并排除包括類外數(shù)據(jù)在內(nèi)的不確定樣本。該方法的主要貢獻(xiàn)可以總結(jié)如下:
- 對(duì)于傳統(tǒng)SSL問題,所提出的SST方法不僅與其他傳統(tǒng)SSL算法具有可比性,而且可以與其他算法相結(jié)合。
- 對(duì)于新的SSL問題,即使使用類外數(shù)據(jù),提出的SST也沒有顯示任何性能下降。
- SST要求的超參數(shù)少,易于實(shí)現(xiàn)。
為了證明我們提出的方法的有效性,首先,我們進(jìn)行了SST與其他幾種最先進(jìn)的SSL方法的分類誤差比較實(shí)驗(yàn)(Laine和Aila, 2016;Tarvainen和Valpola, 2017;Luo et al., 2017;Miyato et al., 2017)在傳統(tǒng)SSL設(shè)置中。其次,我們提出了一個(gè)新的實(shí)驗(yàn)設(shè)置,以調(diào)查我們的方法是否更適用于現(xiàn)實(shí)世界的情況。(Odena et al., 2018)的實(shí)驗(yàn)設(shè)置在類別內(nèi)和類別外中取樣。在本文的實(shí)驗(yàn)設(shè)置中,我們均勻地對(duì)所有類中的未標(biāo)記實(shí)例進(jìn)行采樣。我們使用三個(gè)公共基準(zhǔn)數(shù)據(jù)集:CIFAR-10、CIFAR-100 (Krizhevsky and Hinton, 2009)和SVHN (Netzer et al., 2011)來評(píng)估提出的SST的性能。
2.BACKGROUND
在這一部分中,我們介紹了我們的研究背景。首先,我們介紹一些自我訓(xùn)練的方法(McLachlan, 1975;朱,2007;朱和戈德堡,2009),這是我們工作的基礎(chǔ)。然后我們描述了基于一致性正則化的算法,如Π模型和時(shí)間集成(Laine和Aila, 2016)。
2.1 Self-training
自訓(xùn)練方法長(zhǎng)期以來被用于半監(jiān)督學(xué)習(xí)(McLachlan, 1975;Rosenberg等人,2005年;朱,2007;Zhu and Goldberg, 2009)。它是一種重采樣技術(shù),根據(jù)置信度對(duì)未標(biāo)記的訓(xùn)練樣本進(jìn)行重復(fù)標(biāo)注,并使用所選的偽標(biāo)簽數(shù)據(jù)對(duì)自身進(jìn)行重訓(xùn)練。這個(gè)過程可以形式化如下。(i)用標(biāo)記數(shù)據(jù)訓(xùn)練模型。(ii)用學(xué)習(xí)到的模型預(yù)測(cè)未標(biāo)記數(shù)據(jù)。(iii)用標(biāo)記的和選定的偽標(biāo)簽數(shù)據(jù)對(duì)模型進(jìn)行再訓(xùn)練。重復(fù)最后兩個(gè)步驟。
然而,大多數(shù)的自訓(xùn)練方法都假設(shè)有標(biāo)簽的和無標(biāo)簽的數(shù)據(jù)來自相同的分布。因此,在現(xiàn)實(shí)場(chǎng)景中,根據(jù)標(biāo)簽數(shù)據(jù)的分布情況,一些可能性較低的實(shí)例不可避免地有被誤分類的可能。因此,這些錯(cuò)誤的樣本明顯導(dǎo)致了下一個(gè)訓(xùn)練步驟中更差的結(jié)果。為了解決這一問題,我們采用集成和平衡的方法來選擇可靠的樣本。
Deep Semi-Supervised Semantic Segmentation. 標(biāo)注質(zhì)量在技術(shù)性能中起著至關(guān)重要的作用。特別是在語義分割的任務(wù)中,標(biāo)簽的開銷過大。例如,來自分割基準(zhǔn)數(shù)據(jù)集Cityspaces[6]的一張分辨率為1024x2048的圖像,涉及超過1M的像素標(biāo)簽,容易出現(xiàn)注釋錯(cuò)誤,需要考慮像素模糊的問題。SSL非常適合手頭的任務(wù),因?yàn)榍懊娴姆椒ㄒ蕾囉谝唤M很小的標(biāo)簽。用于語義分割的深層SSL最近只在少數(shù)工作中進(jìn)行了探索。
早期的技術(shù)依賴于GANs[12]原理。
[41]作者提出通過生成gan型合成圖像來擴(kuò)大訓(xùn)練集,以豐富特征空間,加強(qiáng)無標(biāo)記樣本和有標(biāo)記樣本之間的關(guān)系。Hung等人[17]提出一種基于GAN的預(yù)測(cè)概率圖與地面真值分割的區(qū)分技術(shù)。類似地,Mittal等人[31]提出了一個(gè)雙分支解決方案,包括:i)為輸入樣本生成每像素類標(biāo)簽的GAN分支和ii)多標(biāo)簽Mean Teacher[43]分支,以消除假陽(yáng)性預(yù)測(cè)。
最近,[11]的作者將CutMix[48]擴(kuò)展到語義分割的上下文中。在這篇論文中,作者應(yīng)用了強(qiáng)增強(qiáng)的原理,包括Cutout,從圖像分類的發(fā)現(xiàn)。[36]的作者強(qiáng)調(diào)了基于特征、基于預(yù)測(cè)和隨機(jī)擾動(dòng)之間的一致性。Ke等人的[20]使用了缺陷概率圖,并將雙學(xué)生[21]擴(kuò)展到像素級(jí)任務(wù)。在[10]中提出了一種基于偽標(biāo)簽的離線自訓(xùn)練方案,增強(qiáng)了有標(biāo)記集和無標(biāo)記集之間的一致性。
2.2 Consistency Regularization
?
3. METHOD
本文摘自 :https://blog.51cto.com/u