引言 嵌入式系統(tǒng)的核心部件是嵌入式處理器。在眾多的處理器中,ARM是專為嵌入式應(yīng)用而設(shè)計的處理器,由于其低功耗、高性價比和易擴(kuò)展性等特點(diǎn),在嵌入式系統(tǒng)中得到了最為廣泛的應(yīng)用。在許多成功的32位嵌入式系統(tǒng)中,ARM處理器都是其核心組成部分。ARM內(nèi)核已被廣泛應(yīng)用于移動電話、掌上設(shè)備以及種類繁多的便攜式消費(fèi)類產(chǎn)品中。隨著ARM處理器越來越廣泛的應(yīng)用,如何提高代碼的執(zhí)行效率已成為工程師關(guān)注的問題,同時如何在實時嵌入式應(yīng)用中,通過代碼優(yōu)化以減少消耗過多的CPU運(yùn)行時間已成為人們關(guān)注的焦點(diǎn)。軟件開發(fā)中,常用的代碼優(yōu)化技巧有“循環(huán)展開”、“減少外存訪問”、“考慮CPU帶寬”、“循環(huán)減計數(shù)”、“循環(huán)變量數(shù)據(jù)類型”、“使用SWITCH取代條件判斷”等。而圖像在不同屏幕尺寸之間縮放的程序是嵌入式領(lǐng)域常常用到的功能。這里就以實現(xiàn)這樣一個常見功能的程序為例,說明程序優(yōu)化的技巧。 1 實例分析 程序的目標(biāo)是將一個長寬為240×160,格式為RGB565的顯示緩沖區(qū)的內(nèi)容映射到長寬為320×240,格式也為RGB565的顯示緩沖區(qū)內(nèi)。因為源數(shù)據(jù)寬度是240點(diǎn),所以,放大到目的區(qū)域的時候,就需要每3個源數(shù)據(jù)點(diǎn)中,重復(fù)1點(diǎn)的數(shù)據(jù),變成4點(diǎn),放到目的顯示緩沖區(qū)中。同樣,每2行源數(shù)據(jù)也要重復(fù)1行,變成3行,放到目的顯示緩沖區(qū)中。源數(shù)據(jù)和目的數(shù)據(jù)分別定義如下(保證源顯示緩沖區(qū)和目的顯示緩沖區(qū)都是4字節(jié)對齊起始的): ![]() 注:以下所有程序均是使用ADS1.1編譯,CPU主頻為100 MHz,使用ARM7EJ-S為目標(biāo)處理器,小端編譯方式,測試的時間是以所有的程序和數(shù)據(jù)均是Cache全命中為前提測試得到的。 2 原始程序 下面這段程序是沒有經(jīng)過任何優(yōu)化的程序,僅僅實現(xiàn)了相應(yīng)的功能要求,運(yùn)行時間為10 ms。 ![]() 3 優(yōu)化步驟 第一,采用循環(huán)展開的技巧進(jìn)行優(yōu)化,也就是盡量減少內(nèi)層循環(huán)的次數(shù)。這里在行循環(huán)中,由原來的每次處理1行源數(shù)據(jù),一共循環(huán)160次,改成每次處理 2行源數(shù)據(jù),一共只需要循環(huán)80次。同時,在行內(nèi)部的列循環(huán)中,由原來的每次處理1個源像素點(diǎn),一共循環(huán)240次,改成1次處理3個源像素點(diǎn),一共只需要循環(huán) 80次。運(yùn)行時間縮短為8 ms。 ![]() ![]() 第二,因為ARM處理器的帶寬是4字節(jié),所以,取數(shù)據(jù)時也使用4字節(jié)的方式是效率最高的,程序設(shè)計時也要盡量利用這個特點(diǎn)提高效率。下面就利用這個特點(diǎn),每次取源數(shù)據(jù)時都取4字節(jié)。因為行內(nèi)部是每3點(diǎn)要重復(fù)1點(diǎn),因此,行內(nèi)部循環(huán)改為每次處理6個像素點(diǎn),這樣,又進(jìn)一步減少了循環(huán)次數(shù)。運(yùn)行時間縮短為4 ms。 ![]() 第三,訪問外存往往是程序運(yùn)行的瓶頸,因為外存的速度一般遠(yuǎn)遠(yuǎn)低于CPU運(yùn)行速度,所以,在編程的過程中,要盡量減少對外存的訪問。下面,將行循環(huán)中重復(fù)寫入的那行在上一行生成的過程中直接完成,減少了拷貝重復(fù)行過程中讀取1行的時間。運(yùn)行時間縮短為3 ms。 ![]() 結(jié)語 本文以圖像在不同屏幕尺寸之間縮放的程序為例講解了代碼優(yōu)化技巧方法,給出了源代碼進(jìn)行探討,并通過實驗得以證實。希望有助于讀者編寫出在提高執(zhí)行速度和減小代碼尺寸方面更高效的C源代碼。 參考文獻(xiàn) 1. Sloss Andrew N,Symes Dominic,Wright Chris.ARM System Developer's Guide Designing and Optimizing System Software[M].Boston:Morgan Kaufmann Publishers,2004. 2. 梁東鶯,鄭瑋琨.ARM處理器下C語言編程效率優(yōu)化[J].深圳信息職業(yè)技術(shù)學(xué)院學(xué)報,2007,6(5). 3. 馮德錦.基于ARM處理器的手持設(shè)備程序優(yōu)化[J].單片機(jī)與嵌入式系統(tǒng)應(yīng)用,2002(9). 4. 三恒星科技.ARM嵌入式系統(tǒng)入門[M].北京:中國電力出版社,2008. 5. 金麗,包志華,陳海進(jìn).基于ARM嵌入式系統(tǒng)的C程序優(yōu)化設(shè)計方法[J].南通大學(xué)學(xué)報:自然科學(xué)版,2006(3). 6. 辛鑫,蒙建波,羅根.由C到ARM匯編指令及程序優(yōu)化[J].單片機(jī)與嵌入式系統(tǒng)應(yīng)用,2007(6). 作者:武警工程學(xué)院 李靜 來源:《單片機(jī)與嵌入式系統(tǒng)應(yīng)用》 2009(8) |