ENVI將.xml格式的感興趣區ROI文件轉換為.roi格式的方法 roi區域定位


ENVI將.xml格式的感興趣區ROI文件轉換為.roi格式的方法
??本文介紹在 ENVI 軟件中,將用戶自行繪制的 .xml 格式的感興趣區( ROI )文件轉換為 .roi 格式的方法 。
??對于 ENVI 軟件,其在早期版本中,默認將用戶所繪制的感興趣區文件保存為 .roi 格式;而在后期的軟件版本中,則默認保存為 .xml 格式 。
??例如,以 ENVI 5.3 軟件為例——通過在圖層列表中選擇“ New Region Of Interest ”選項,我們可以新建 ROI 文件,并手動繪制具體 ROI 區域 。
??繪制完畢后,我們需要通過右擊 ROI 列表,選擇“ Save As ”保存我們剛剛繪制好的 ROI 文件 。
??可是這樣保存后,軟件強制設定默認的文件格式為 .xml 格式,而非 .roi 格式;如下圖所示 。
??當然,對于新版本的 ENVI 軟件,其雖然默認保存 .xml 格式的 ROI 文件,但也完全支持對老版本 .roi 格式 ROI 文件的讀?。坏袝r由于一些原因,我們可能必須要將繪制好的 ROI 文件保存成 .roi 格式 。那么,怎樣將所繪制的 .xml 格式的 ROI 文件轉換為 .roi 格式的呢?
??其實很簡單,在 ENVI 軟件中就可以直接實現 。在我們的 ROI 文件列表中,任意選擇一個 ROI 類型并雙擊,打開 Region of Interest (ROI) Tool 窗口 。
??隨后,選擇左上角的“ File ”→“ Export ”→“ Export to Classic ” 。
??選擇我們要保存的 ROI 文件類別,并配置后文件名與路徑 。
??即可看到,我們已經成功獲得了 .roi 格式的 ROI 文件,即完成了由 .xml 格式向 .roi 格式的轉換 。

[AAAI2021]論文翻譯MANGO: A Mask Attention Guided One-Stage Scene Text Spotter
最近,端到端場景文本識別已成為一個流行的研究主題,因為它具有全局優化的優點和在實際應用中的高可維護性 。大多數方法試圖開發各種感興趣的區域(RoI)操作,以將檢測部分和序列識別部分連接到兩階段的文本識別框架中 。然而,在這樣的框架中,識別部分對檢測到的結果高度敏感(例如,文本輪廓的緊湊性) 。為了解決這個問題,在本文中,我們提出了一種新穎的“Mask Attention Guided One-stage”文本識別框架,稱為MANGO,在該框架中無需RoI操作就可以直接識別字符序列 。具體而言:
值得注意的是,MANGO自有地適應于任意形狀的文本識別,并且僅使用粗略的位置信息(例如矩形邊界框)和文本注釋就可以進行端到端的訓練 。實驗結果表明,該方法在規則和不規則文本識別基準(即ICDAR 2013,ICDAR 2015,Total-Text和SCUT-CTW1500)上均達到了有競爭力甚至最新性能 。
場景文本識別由于其各種實際應用而備受關注,例如發票/收據理解中的關鍵實體識別,電子商務系統中的產品名稱識別以及智能運輸系統中的車牌識別 。傳統的場景文字識別系統通常分三步進行:定位文字區域,從原始圖像中裁剪文字區域并將其識別為字符序列 。然而盡管這種文本識別模型帶來了許多可考慮的問題,例如:
(1)錯誤將在多個單獨的任務之間累
(2)維護多個單獨的模型的成本很高
(3)該模型難以適應各種應用程序 。
因此,提出了許多工作以端到端的方式來最終優化文本識別過程 。這些方法通常使用各種興趣區域(RoI)操作以可微分的方式橋接文本檢測和識別部分,從而形成了兩階段框架 。粗略地說,早期的端到端方法將軸對齊的矩形RoI用作連接模塊 。這些方法處理不規則的(例如,透視圖或彎曲的)文本實例能力有限,因為這種類型的RoI可能會帶來背景或其他文本的干擾 。為了解決這個問題,后來的方法(設計了一些形狀自適應RoI機制來提取不規則物體 。文本實例并將其校正為規則形狀 。
圖1:傳統的兩階段文本識別過程和提出的MANGO的圖示 。圖(a)顯示了通過RoI操作連接檢測和識別部分的兩階段文本識別策略 。圖(b)是一種提出的單階段文本識別方法,它可以直接輸出最終的字符序列 。
在兩階段方法中,識別部分高度依賴于定位結果,這就要求檢測部分必須能夠捕獲準確的文本邊界以消除背景干擾 。因此,訓練魯棒的文本檢測模型依賴于準確的檢測注釋,例如在不規則文本識別中使用的多邊形或蒙版注釋 。自然地,標記這種注釋是費力且昂貴的 。另一方面,要確保緊緊封閉的文本區域(由檢測注釋進行監督)對于以下識別任務而言是最佳形式,這并不容易 。例如,在圖1(a)中,緊密的文本邊界可能會擦除字符的邊緣紋理并導致錯誤的結果 。通常,需要手動擴展這些嚴格的檢測結果,以適應實際應用中的識別 。此外,在proposals之后執行帶有非極大抑制(NMS)的復雜RoI操作也很耗時,尤其是對于任意形狀的區域 。盡管(Xing et al.2019)提出了一種單階段采用字符分割策略的字符級別的識別框架,但很難擴展到具有更多字符類別(例如漢字)的情況 。它還會丟失角色之間的關鍵上下文信息 。
實際上,當人們閱讀時,他們不需要描繪文本實例的準確輪廓 。通過視覺注意力關注的粗略文本位置來識別文本實例就足夠了 。在這里,我們將場景文本識別重新考慮為注意力和閱讀的問題,即,一次直接讀出粗略注意的文本區域的文本內容 。
在本文中,我們提出了一種名為MANGO的“Mask Attention Guided One stage”文本監視程序,稱為MANGO,這是一種緊湊而強大的單階段框架,可直接從圖像中同時預測所有文本,而無需進行任何RoI操作 。具體來說,我們引入了一個位置感知蒙版注意力(PMA)模塊以在文本區域上生成空間注意力,該模塊包含實例級蒙版注意力(IMA)部分和字符級蒙版注意力(CMA)部分 。IMA和CMA分別負責感知圖像中文本和字符的位置 ??梢酝ㄟ^位置感知注意力譜直接提取文本實例的特征,而不必進行顯式的裁剪操作,這盡可能保留了全局空間信息 。
在這里,使用動態卷積將不同文本實例的特征映射到不同的特征譜通道(Wang等人,2020c),如圖1(b)所示 。之后,應用輕量級序列解碼器一次批量生成字符序列特征 。
請注意,MANGO可以僅使用粗略的位置信息(例如,矩形邊界框,甚至是文本實例的中心點)進行端到端優化,還可以使用序列注釋 。受益于PMA,該框架可以自適應地識別各種不規則文本,而無需任何糾正機制,并且還能夠了解任意形狀的文本的閱讀順序 。
本文的主要貢獻如下:
(1)我們提出了一種名為MANGO的緊湊而強大的一階段文本識別框架, 該框架可以以端到端的方式進行訓練 。
(2)我們開發了位置感知蒙版注意力模塊,以將文本實例特征生成為一個batch,并與最終字符序列建立一對一的映射 。只能使用粗略的文本位置信息和文本注釋來訓練該模塊 。
(3)廣泛的實驗表明,我們的方法在規則和不規則文本基準上均獲得了有競爭甚至最新的性能 。
早期場景文本發現方法(Liao,Shi,and Bai 2018; Liao et al.2017; Wang et al.2012)通常首先使用訓練有素的檢測器來定位每個文本,例如(Liao et al.2017; Zhou et al.2017; He et al.2017; Ma et al.2018; Xu et al.2019; Baek et al.2019),然后使用序列解碼器識別裁剪后的文本區域(Shi et al.2016; Shi,Bai和Yao 2017; Cheng et al.2017; Zhan and Lu 2019; Luo,Jin and Sun 2019) 。為了充分利用文本檢測和文本識別之間的互補性,已經提出了一些工作以端到端的方式優化場景文本發現框架,其中使用了模塊連接器(例如RoI Pooling(Ren等人,2015a))在(Li,Wang,and Shen 2017; Wang,Li,and Shen 2019)中,(He等人2018)中使用的RoI-Align和(Liu等人2018)中使用的RoI-Rotate的開發是為了文本檢測和文本識別部分 。請注意,這些方法無法發現任意形狀的文本 。
為了解決不規則問題,已經提出了許多最近的工作來設計各種自適應RoI操作以發現任意形狀的文本 。Sun等人(2018年)采用了透視圖RoI轉換模塊來糾正透視圖文本,但是該策略仍然難以處理彎曲度較大的文本 。(Liao et al.2019)提出了受兩階段Mask-RCNN啟發的mask textspotter,用于逐個字符地檢測任意形狀的文本,但是這種方法會丟失字符的上下文信息,并且需要字符級位置注釋 。Qin等人(2019)直接采用Mask-RCNN和基于注意力的文本識別器,該模型使用RoI-Masking模塊在識別之前消除了背景干擾 。(Feng et al.2019)將文本實例視為一組特征塊,并采用RoI-Slide操作來重建直線特征圖 。(Qiao et al 。2020)和(Wang et al 。2020a)都檢測到文本周圍的關鍵點,并應用薄板樣條變換(Bookstein 1989)糾正不規則實例 。為了獲得彎曲文本的平滑特征(Liu et al.2020),使用Bezier曲線表示文本實例的上下邊界,并提出了Bezier-Align操作以獲取校正后的特征圖 。
上述方法在兩階段框架中實現了端到端場景文本點,其中需要設計基于RoI的連接器(例如RoI-Align,RoI-Slide和Bezier-Align等),以實現以下目的:明確裁剪特征圖 。
【ENVI將.xml格式的感興趣區ROI文件轉換為.roi格式的方法 roi區域定位】在兩階段框架中,性能很大程度上取決于RoI操作獲得的文本邊界精度 。但是,這些復雜的多邊形注釋通常很昂貴,并且并不總是適合識別部分,如前所述 。
在一般的對象定位領域,許多最新進展證明了在對象檢測中研究的一階段框架的效率和有效性(Redmon等人2016; Liu等人2016; Lin等人2017b; Tian等人2019;段等人(2019)或實例分割(Wang等人2019b; Tian,Shen和Chen 2020; Wang等人2020c; Xie等人2020; Chen等人2020) 。但是,場景文本發現是一項更具挑戰性的任務,因為它涉及序列識別問題而不是單個對象分類 。這是因為場景文本具有許多特殊特征:任意形狀(例如,曲線,傾斜或透視圖等),數百萬個字符組合,甚至是不受限制的閱讀順序(例如,從右到左) 。最近,(Xing et al.2019)提出了一種通過直接分割單個字符的一種舞臺場景文本識別方法 。但是,它丟失了各個字符之間的序列上下文信息,并且很難傳遞給更多的字符類 。據我們所知,以前沒有工作可以在一個階段的框架中處理序列級別的場景文本發現任務 。
圖2:MANGO的工作流程 。我們以S = 6為例 。將輸入特征輸入到位置感知蒙版注意力模塊中,以將實例/字符的不同特征映射到不同通道 。識別器最終一次全部輸出字符序列 。Centerline Segmentation分支用于生成所有文本實例的粗略位置 。前綴“ R-”和“ C-”分別表示網格的行和列 。
我們提出了一個名為MANGO的單階段場景文本查找器,如圖2所示 。其深層特征是通過ResNet-50(He等人,2016)和特征金字塔網絡(FPN)(Lin等人,2017a)的主干提取的 。然后將生成的特征圖饋送到三個可學習的模塊中:
(1)用于學習單個文本實例的位置感知蒙版注意力(PMA)模塊,其中包括實例級蒙版注意力( IMA)子模塊和字符級掩碼注意力(CMA)子模塊 。
(2)識別器用于將注意力實例特征解碼為字符序列 。
(3)全局文本中心線分割模塊,用于在推理階段提供粗略的文本位置信息 。
單階段的文本識別問題可以視為原始圖像中的純文本識別任務 。關鍵步驟是在文本實例到最終字符序列之間以固定順序建立直接的一對一映射 。在這里,我們開發了位置感知注意力(PMA)模塊,以便為接下來的序列解碼模塊一次捕獲所有表示文本的特征 。受(Wang等人2019b)中使用的網格映射策略的啟發,我們發現可以將不同的實例映射到不同的特定通道中,并實現實例到特征的映射 。也就是說,我們首先將輸入圖像劃分為S×S的網格 。然后,通過提出的PMA模塊將網格周圍的信息映射到特征圖的特定通道中 。
具體來說,我們將特征提取后獲得的特征圖表示為x∈R C×H×W,其中C,H和W分別表示為特征圖的通道數量,寬度和高度 。然后我們將特征圖x送入PMA(包括IMA和CMA模塊)模塊,以生成文本實例的特征表示(如下所述) 。
Instance-level Mask Attention
MA負責生成實例級注意力蒙版遮罩,并將不同實例的特征分配給不同的特征圖通道 。它是通過在切片網格上操作一組動態卷積內核(Wang等人2020c)來實現的,表示為G S×S×C。卷積核大小設置為1×1 。
因此可以通過將這些卷積核應用于原始特征圖來生成實例級注意力掩碼:
Character-level Mask Attention
正如許多工作 (Chenget等人2017; Xing等人2019)所表明的那樣,字符級位置信息可以幫助提高識別性能 。這激勵我們設計全局字符級注意力子模塊,以為后續的識別任務提供細粒度的特征 。
如圖2所示,CMA首先將原始特征圖x和實例級注意力蒙版x ins 連接在一起,然后是兩個卷積層(卷積核大小= 3×3)遵循下式來預測字符級注意力蒙版:
由于將不同文本實例的注意蒙版分配給不同的特征通道,因此我們可以將文本實例打包為一批 。一個簡單的想法是進行(Wang等人2020b)中使用的注意力融合操作,以生成批處理的連續特征x seq,即
該模型現在能夠分別輸出S 2 網格的所有預測序列 。但是,如果圖像中有兩個以上的文本實例,我們仍然需要指出哪個網格對應于那些識別結果 。
由于我們的方法不依賴準確的邊界信息,因此我們可以應用任何文本檢測策略(例如RPN(Ren等人2015b)和YOLO(Redmon等人 。2016)),以獲取文本實例的粗略的幾何信息 ??紤]到場景文本可能是任意形狀的,我們遵循大多數基于分割的文本檢測方法(Long等人2018; Wang等人2019a)來學習單個文本實例的全局文本中心線區域分割(或縮小ground truth) 。
IMA和CMA模塊都用于使網絡聚焦于特定的實例和字符位置,這在理論上只能通過最后的識別部分來學習 。但是,在復雜的場景文本場景中,如果沒有位置信息的輔助,網絡可能難以收斂 。但是,我們發現,如果模型已經在合成數據集上進行了預先的字符級監督,則可以輕松轉移模型 。因此,可以分兩步對模型進行優化 。
首先,我們可以將IMA和CMA的學習視為純分割任務 。結合中心線區域分割,所有分割任務都使用二進制Dice系數損失進行訓練(Milletari,Navab和Ahmadi 2016),而識別任務僅使用交叉熵損失 。全局優化可以寫成
請注意,預訓練步驟實際上是一次性的任務,然后將主要學習CMA和IMA以適應該識別任務 。與以前需要平衡檢測和識別權重的方法相比,MANGO的端到端結果主要由最終識別任務監督 。
在推斷階段,網絡輸出一批(S×S)概率矩陣(L×M) 。根據中心線分割任務的預測,我們可以確定哪些網格應視為有效 。我們首先進行“廣度優先搜索”(BFS),以找到各個相連的區域 。在此過程中,可以過濾許多類似文本的紋理 。由于每個連接區域可能與多個網格相交,因此我們采用字符加權投票策略來生成最終的字符串,如圖3所示 。
具體來說,我們計算連接區域i與網格j之間的連接率o i,j 作為每個字符的權重 。對于實例i的第k個字符,其字符加權投票結果通過
我們列出了本文使用的數據集如下:訓練數據 。我們使用SynthText 800k(Gupta,Vedaldi和Zisserman 2016)作為預訓練數據集 。利用實例級注釋和字符級注釋對PMA模塊進行預訓練 。在微調階段,我們旨在獲得一個支持常規和非常規場景文本讀取的通用文本點 。在這里,我們構建了一個用于微調的通用數據集,其中包括來自Curved SynthText的150k圖像(Liu等人2020),從COCO-Text過濾的13k圖像(Veitet等人2016),從ICDAR-MLT過濾的7k圖像(Nayefet等人2019)以及ICDAR2013(Karatzas等人2013),ICDAR2015(Karatzas等人2015)和Total-Text(Ch'ng and Chan 2017)中的所有訓練圖像 。請注意,這里我們僅使用實例級別的注釋來訓練網絡 。測試數據集 。我們在兩個標準文本點標基準ICDAR2013(Karatzas等人2013)(IC13)和ICDAR2015(Karatzas等人2015)(IC15)中評估了我們的方法,其中主要包含水平和透視文本,以及兩個不規則的基準Total-Text(Ch'ng和Chan 2017)和SCUT-CTW1500(Liu等人2019)(CTW1500),其中包含許多彎曲文本 。車牌識別數據集CCPD中我們方法的能力(Xuet al.2018) 。
所有實驗均在Pytorch中使用8×32 GB-Tesla-V100 GPU進行 。網絡詳細信息 。特征提取器使用ResNet-50(He等人2016)和FPN(Lin等人2017a)從不同的特征圖中獲取融合特征水平 。這里,C = 256的(4×)特征圖用于執行后續的訓練和測試任務.Lis設置為25以覆蓋大多數場景文本單詞 。BiLSTM模塊有256個隱藏單元,訓練詳細信息,所有模型均由SGDoptimizer進行訓練,批處理大小= 2,動量= 0.9和重量衰減= 1×10?4 。在預訓練階段,以10個周期的初始學習比率1×10-2訓練網絡 。每3個周期將學習率除以10.在微調階段,初始學習率設置為1×10-3 。為了平衡每批中的合成圖像和真實圖像的數量,我們將Curved SynthText數據集與其他真實數據集的采樣比率保持為1:1 。微調過程持續250k次迭代,其中學習率在120k迭代和200k迭代時除以10.我們還對所有訓練過程進行數據擴充,包括1)將輸入圖像的較長邊隨機縮放為長度在[720,1800]范圍內,2)將圖像隨機旋轉[-15°,15°]范圍內的角度,以及3)對輸入圖像應用隨機的亮度,抖動和對比度 。在不同的數據集中,我們將IC15的評估值設置為S = 60,將IC13,Total-Text和CTW1500的評估值設置為S = 40 。我們將所有權重參數簡單地設置為λ1=λ2=λ3=λ= 1 。測試細節 。由于輸入圖像的尺寸是重要的重要影響性能,因此我們將報告不同輸入比例下的性能,即保持原始比例和將圖像的較長邊調整為固定值 。所有圖像都在單一尺度上進行測試 。由于當前的實現方式僅提供了粗略的定位,因此,我們通過考慮IoU> 0.1的所有檢測結果,修改(Wang,Babenko和Belongie 2011)的端到端評估指標 。在這種情況下,由于某些低等級的建議匹配而導致精度下降,先前方法的性能甚至會下降 。
常規文本的評估我們首先根據常規評估指標(Karatzas等,2015)對IC13和IC15的方法進行評估,然后基于三種不同的lexi-cons(強)對兩個評估項目( 端到端''和 單詞斑點'')進行評估,弱和通用) 。表1顯示了評估結果 。與使用常規詞典評估的先前方法相比,我們的方法在“通用”項目上獲得了最佳結果(除了IC15的端到端通用結果之外),并在其余評估項目上獲得了競爭結果(強”和“弱”) 。與最近使用特定詞典的最新MaskMaskTextSpotter(Liao et al.2019)相比,我們的方法在所有評估項目上均明顯優于該方法 。盡管推理速度很高,但FOTS的FPS最高(幀數第二),它無法處理不正常的情況 。與基于不規則的方法相比,我們的方法獲得了最高的FPS 。不規則文本的評估我們在Total-Text上測試了我們的方法,如表2所示 。我們發現我們的方法比最先進的方法高出3.2%和5.3 “無”和“滿”指標中的百分比 。請注意,即使沒有明確的糾正機制,我們的模型也只能在識別監督的驅動下才能很好地處理不規則文本 。盡管在1280的測試規模下,推理速度約為ABCNet的1/2,但我們的方法取得了顯著的性能提升 。我們還在CTW1500上評估了我們的方法 。報告端到端結果的作品很少,因為它主要包含行級文本注釋 。為了適應這種情況,我們在CTW1500的訓練集上對檢測分支進行了重新訓練,以學習線級中心線分割,并確定主干和其他分支的權重 。請注意,識別不會受到影響,仍然會輸出單詞級序列 。最終結果將根據推斷的連接區域簡單地從左到右連接起來 。漢字設置為NOT CARE 。結果如表3所示 。我們發現,在“無”和“滿”度量標準下,我們的方法明顯比以前的提升了1.9%和4.6% 。因此,我們相信,如果只有行級注解的數據足夠多,我們的模型就可以很好地適應這種情況 。
圖4可視化了IC15和Total-Text上的端到端文本發現結果 。我們詳細顯示了字符投票之前每個正網格(oi,j> 0.3)的預測結果 。我們看到我們的模型可以正確地專注于相應的位置并學習任意形狀(例如彎曲或垂直)文本實例的字符序列的復雜讀取順序 。采取字符投票策略后,將生成具有最高置信度的單詞 。我們還用可視化的CMA演示了CTW1500的一些結果,如圖5所示 。請注意,我們僅根據數據集的位置微調線級分割部分 標簽,同時固定其余部分 。在這里,我們通過將所有網格的注意圖覆蓋在相同的字符位置(k)上來可視化CMA的特征圖:
網格編號的消除網格編號S2是影響最終結果的關鍵參數 。如果太小,則占據相同網格的文本太多 。否則,太大的S會導致更多的計算成本 。在這里,我們進行實驗以找到不同數據集的S的可行值 。從表4中,我們發現IC13和TotalText的bestS均為40 。IC15的值為60 。這是因為IC15包含更多密集和較小的實例 ??偠灾擲> = 40時,總體性能隨沙的增加而穩定 。當然,FPS隨S的增加而略有下降 。信息 。為了證明這一點,我們還進行了實驗,以矩形邊框的形式轉移所有本地化注釋 。我們僅采用RPN頭作為檢測分支 。表5顯示了IC15和Total-Text的結果 。即使進行嚴格的位置監控,MANGO的性能也只能降低0%到3%,并且可以與最新技術相比 。請注意,粗略位置僅用于網格選擇,因此可以根據特定任務的要求盡可能簡化它 。
為了證明模型的泛化能力,我們進行了實驗以評估CCPD公共數據集上的端到端車牌識別結果(Xu et al.2018) 。為了公平起見,我們遵循相同的實驗設置,并使用帶有250k圖像的數據集的初始版本 。CCPD-Base數據集分為兩個相等的部分:用于訓練的100k樣本和用于測試的100k樣本 。有6個復雜的測試集(包括DB,FN,旋轉,傾斜,天氣和挑戰)用于評估算法的魯棒性,總共有50k張圖像 。由于CCPD中的每個圖像僅包含一個板,因此可以通過刪除來進一步簡化我們的模型檢測分支直接預測最終字符序列 。因此,網格數減少為S = 1,最大序列長度設置為L =8 。我們直接對模型進行微調(已通過SynthText進行了預訓練)在CCPD訓練集上僅使用序列級注釋,然后評估上述七個測試數據集的最終識別準確性 。測試階段是對尺寸為720×1160的原始圖像執行的 。
表6顯示了端到端識別結果 。盡管所提出的方法不是為車牌識別任務設計的,但仍然可以輕松地轉移到這種情況下 。我們看到,提出的模型在7個測試集中的5個中優于以前的方法,并達到了最高的平均精度 。圖6顯示了CCPD測試集的一些可視化結果 。故障樣本主要來自圖像太模糊而無法識別的情況 。該實驗表明,在許多情況下,只有一個文本實例(例如,工業印刷識別或儀表撥盤識別),可以使用良好的端到端模型無需檢測注釋即可獲得 。
在本文中,我們提出了一種名為MANGO的新穎的單階段場景文本查找器 。該模型刪除了RoI操作,并設計了位置感知注意模塊來粗略定位文本序列 。之后,應用輕量級序列解碼器以將所有最終字符序列成批獲取 。實驗表明,我們的方法可以在流行基準上獲得具有競爭力的,甚至最先進的結果 。

圖像處理中ROI是什么意思如題ROI Region Of Interest的縮寫,圖像處理中的術語“感興趣區”.就是在要處理的圖像中提取出的要處理的區域.
來自:http://zuoye.baidu.com/question/dc4cd0840df43d28b43b7ce0e4db017e.html
醫學roi是什么意思醫學roi是感興趣區的意思 。
醫學roi是region of interest的簡稱,意思是感興趣區 。在圖像處理領域,感興趣區域(ROI) 是從圖像中選擇的一個圖像區域,這個區域是你的圖像分析所關注的重點 。圈定該區域以便進行進一步處理 。使用ROI圈定你想讀的目標,可以減少處理時間,增加精度 。
醫學roi主要作用:
ROI屬于IVE技術的一種,IVE指的是Intelligent video encoding, 即智能視頻編碼,IVE技術可以根據客戶要求對視頻進行智能編碼,并在不損失圖像質量的前提下,優化視頻編碼性能,最終降低網絡帶寬占用率和減少存儲空間 。
在監控畫面中,有些監控區域是不需要被監控或無關緊要,例如天空,墻壁,草地等等監控對象,普通網絡監控攝像機對整個區域進行視頻編碼(壓縮)并傳輸,這樣就給網絡帶寬和視頻存儲帶來了壓力 。
ROI智能視頻編碼技術卻很好地解決了這個問題,ROI功能的攝像機可以讓用戶選擇畫面中感興趣的區域,啟用ROI功能后,重要的或者移動的區域將會進行高質量無損編碼,而對那些不移動,不被選擇的區域降低其碼率和圖像質量,進行標準清晰度視頻壓縮,甚至是不傳輸這部分區域視頻,達到節省網絡帶寬占用和視頻存儲空間 。
以上內容參考 百度百科-ROI
halcon求roi寬度ROI (Region of Interest),感興趣區域 。顧名思義,就是你主要想處理的區域 。Halcon中處理的對象分為三類,分別是圖像(image),區域(region),XLD(extended line description)(主要用在亞像素邊緣的提取) 。所以從這里可以知道,ROI的作用,其一是加快程序處理速度,原因在于,是程序處理只需處理ROI,其他區域直接跳過 。其二,在圖像匹配中,可以定義模板 。
ROI 的實現:
在halcon中,ROI需要兩步來完成,第一步是劃定區域,第二步是裁剪出區域 。劃分區域,有兩種方式,第一種是使用界面的create ROI,可以選擇各種框圖 。第二種是使用算子:gen_rectangle等 。裁剪出區域,
region of interest是什么意思
region of interest
[醫]興趣區,感興趣區,感興趣部位
雙語例句
1. A grid is superimposed on the region of interest.
在所考慮的區域上勾畫一個網格.
來自辭典例句
2. A Region of Interest ( ROI ) Coding method based on JPEG 2000 is presented.
文章提出基于JPEG2000標準的感興趣區域 ( ROI, RegionofInterest ) 編碼方法.
如有疑問,請追問!
關于roi區域和roi區域定位的內容就分享到這兒!更多實用知識經驗,盡在 m.apearl.cn