需要的前置知識不多,一般計算機大學(xué)本科會(huì )學(xué)過(guò)的,信息論相關(guān),離散數學(xué)相關(guān)。
但實(shí)際了解編碼時(shí),反而是比較復雜的,目前視頻編碼的常用的是H264,H265,H266(原型中)。
視頻編碼其實(shí)一幀幀的圖像編碼,因此也可以學(xué)習一下靜態(tài)圖像編碼的一些相關(guān)知識,也會(huì )有幫助。
視頻編碼是連續的圖像編碼,因此會(huì )可以應用到前后幀圖像的參考,比如一個(gè)視頻一直對著(zhù)一個(gè)不太變化的物體,則后續幀只要簡(jiǎn)單記錄變化即可。主要用到了離散變化,宏塊這些東西。
現在新的一些方法是基于人工智能學(xué)習后的結果,用這個(gè)方法來(lái)解決一個(gè)視頻,那些區塊壓縮多一些,那些區塊壓縮少一些,說(shuō)白了,就是更符合人的視覺(jué)效果。
大家好,我是小棗君。
作為一名屌絲創(chuàng )業(yè)者,前幾天我追了一部美劇。劇名大家可能都聽(tīng)過(guò),就是「硅谷」。
劇里主要講述的,是一群美國硅谷年輕人的創(chuàng )業(yè)故事。我覺(jué)得挺好看的,一口氣追完了(貌似后面還會(huì )更新)。同為創(chuàng )業(yè)者,對里面的劇情非常有感觸。
今天這篇文章,并不是打算寫(xiě)劇評,而是和劇中男豬腳的創(chuàng )業(yè)項目有密切的關(guān)系。
男豬腳理查德是一個(gè)技術(shù)宅,他發(fā)明了一個(gè)很強的算法,可以將視頻文件的體積大大壓縮,并且并不損失視頻質(zhì)量。這個(gè)算法受到了所有投資人的關(guān)注和追捧,大家都爭相給他投資。
中間的狗血故事略過(guò)不表,到這部劇的后期,理查德的壓縮算法,甚至延伸到“分布式計算”領(lǐng)域,要構建一個(gè)“New Internet”。
更甚至,他們還利用自己的壓縮算法,搞起了區塊鏈,發(fā)行了自己的虛擬貨幣(魔笛手幣)。
為什么一個(gè)壓縮編碼算法,能有這么強大的能量?為什么視頻壓縮技術(shù)這么受追捧?圖像視頻壓縮到底是什么工作原理?
這,就是我們今天要討論的話(huà)題。
如今我們所處的時(shí)代,是移動(dòng)互聯(lián)網(wǎng)時(shí)代,也可以說(shuō)是視頻(多媒體)的時(shí)代。
從快播到抖音,從“三生三世”到“延禧攻略”,再從微信視頻通話(huà),到支付寶人臉識別,我們的生活,被越來(lái)越多的視頻元素所影響。
而這一切,離不開(kāi)視頻拍攝和制作技術(shù)的日益強大,更離不開(kāi)通信技術(shù)的飛速進(jìn)步。
試想一下,如果還是當年的56K Modem撥號,或者是2G手機,你還能享受到現在動(dòng)輒1080P甚至4K的視頻體驗嗎?顯然是不可能的嘛。
除了視頻拍攝技術(shù)和網(wǎng)絡(luò )通信技術(shù)之外,我們能享受到視頻帶來(lái)的便利和樂(lè )趣,還有一個(gè)重要因素,就是視頻編碼技術(shù)的突飛猛進(jìn)。
說(shuō)視頻之前,先要說(shuō)說(shuō)圖像。
圖像,大家都知道,是由很多“帶有顏色的點(diǎn)”組成的。這個(gè)點(diǎn),就是“像素點(diǎn)”。
像素點(diǎn)的英文叫Pixel(縮寫(xiě)為PX)。這個(gè)單詞是由 Picture(圖像) 和 Element(元素)這兩個(gè)單詞的字母所組成的。
電影《像素大戰(Pixels)》,2015年
像素是圖像顯示的基本單位。我們通常說(shuō)一幅圖片的大小,例如是1920×1080,就是長(cháng)度為1920個(gè)像素點(diǎn),寬度為1080個(gè)像素點(diǎn)。乘積是2,073,600,也就是說(shuō),這個(gè)圖片是兩百萬(wàn)像素的。
1920×1080,這個(gè)也被稱(chēng)為這幅圖片的分辨率。
分辨率也是顯示器的重要指標
那么,我們經(jīng)常所說(shuō)的PPI又是什么東西呢?
PPI,就是“Pixels Per Inch”,每英寸像素數。也就是,手機(或顯示器)屏幕上每英寸面積,到底能放下多少個(gè)“像素點(diǎn)”。
這個(gè)值當然是越高越好啦!PPI越高,圖像就越清晰細膩。
以前的功能機,例如諾基亞,屏幕PPI都很低,有很強烈的顆粒感。
后來(lái),蘋(píng)果開(kāi)創(chuàng )了史無(wú)前例的“視網(wǎng)膜”(Retina)屏幕,PPI值高達326(每英寸屏幕有326像素),畫(huà)質(zhì)清晰,再也沒(méi)有了顆粒感。
像素點(diǎn)必須要有顏色,才能組成繽紛絢麗的圖片。那么,這個(gè)顏色,又該如何表示呢?
妹紙們都知道,顏色擁有無(wú)數種類(lèi),光是你們的口紅色號,就足以讓我們這些屌絲瞠目結舌。。。
在計算機系統里,我們不可能用文字來(lái)表述顏色。不然就算我們不瘋,計算機也會(huì )瘋掉的。在數字時(shí)代,當然是用數字來(lái)表述顏色。
這就牽出了“彩色分量數字化”的概念。
懂繪畫(huà)的童鞋一定知道,任何顏色,都可以通過(guò)紅色(Red)、綠色(Green)、藍色(Blue)按照一定比例調制出來(lái)。這三種顏色,被稱(chēng)為“三原色”。
在計算機里,R、G、B也被稱(chēng)為“基色分量”。它們的取值,分別從0到255,一共256個(gè)等級(256是2的8次方)。
所以,任何顏色,都可以用R、G、B三個(gè)值的組合表示。
RGB=[183,67,21]
通過(guò)這種方式,一共能表達多少種顏色呢?256×256×256=16,777,216種,因此也簡(jiǎn)稱(chēng)為1600萬(wàn)色。而3個(gè)8次方,等于24,因此,這種方式表達出來(lái)的顏色,也被稱(chēng)為24位色。
這個(gè)顏色范圍已經(jīng)超過(guò)了人眼可見(jiàn)的全部色彩,所以又叫真彩色。再高的話(huà),對于我們人眼來(lái)說(shuō),已經(jīng)沒(méi)有意義了,完全識別不出來(lái)。
那么,如果是RGB方式,一個(gè)像素點(diǎn)需要占用多少bit?3個(gè)2的8次方,一共是24bit。請記住哈,下面會(huì )用到。
好了,剛才說(shuō)了圖像,現在,我們開(kāi)始說(shuō)視頻。
所謂視頻,大家從小就看動(dòng)畫(huà),都知道視頻是怎么來(lái)的吧?沒(méi)錯,大量的圖片連續起來(lái),就是視頻。
衡量視頻,又是用的什么指標參數呢?
最主要的一個(gè),就是幀率(Frame Rate)。
在視頻中,一個(gè)幀(Frame)就是指一幅靜止的畫(huà)面。幀率,就是指視頻每秒鐘包括的畫(huà)面數量(FPS,Frame per second)。
幀率越高,視頻就越逼真、越流暢。
有了視頻之后,就涉及到兩個(gè)問(wèn)題,一個(gè)是存儲,二個(gè)是傳輸。
而之所以會(huì )有視頻編碼,關(guān)鍵就在于此:一個(gè)視頻,如果未經(jīng)編碼,它的體積是非常龐大的。
以一個(gè)分辨率1920×1280,幀率30的視頻為例。
1920×1280=2,073,600(Pixels 像素)
每個(gè)像素點(diǎn)是24bit(前面算過(guò)的哦)
也就是每幅圖片2073600×24=49766400bit
8 bit(位)=1 byte(字節),所以,49766400bit=6220800byte≈6.22MB。
這是一幅1920×1280圖片的原始大小,再乘以幀率30,也就是說(shuō),每秒視頻的大小是186.6MB,每分鐘大約是11GB,一部90分鐘的電影,約是1000GB。。。
嚇尿了吧?就算你現在電腦硬盤(pán)是4TB的(實(shí)際也就3600GB),也放不下幾部大姐姐啊!
不僅要存儲,還要傳輸,不然視頻從哪來(lái)呢?
如果按照100M的網(wǎng)速(12.5MB/s),下剛才那部電影,需要22個(gè)小時(shí)。。。再次崩潰。。。
正因為如此,屌絲工程師們就提出了,必須對視頻進(jìn)行編碼。
什么是編碼?
編碼,就是按指定的方法,將信息從一種形式(格式),轉換成另一種形式(格式)。
視頻編碼,就是將一種視頻格式,轉換成另一種視頻格式。
編碼的終極目的,說(shuō)白了,就是為了壓縮。
各種五花八門(mén)的視頻編碼方式,都是為了讓視頻變得體積更小,有利于存儲和傳輸。
我們先來(lái)看看,視頻從錄制到播放的整個(gè)過(guò)程,如下:
首先是視頻采集。通常我們會(huì )使用攝像機、攝像頭進(jìn)行視頻采集。限于篇幅,我就不打算和大家解釋CCD成像原理了。
采集了視頻數據之后,就要進(jìn)行模數轉換,將模擬信號變成數字信號。其實(shí)現在很多都是攝像機(攝像頭)直接輸出數字信號。
信號輸出之后,還要進(jìn)行預處理,將RGB信號變成YUV信號。
前面我們介紹了RGB信號,那什么是YUV信號呢?
簡(jiǎn)單來(lái)說(shuō),YUV就是另外一種顏色數字化表示方式。
視頻通信系統之所以要采用YUV,而不是RGB,主要是因為RGB信號不利于壓縮。
在YUV這種方式里面,加入了亮度這一概念。
在最近十年中,視頻工程師發(fā)現,眼睛對于亮和暗的分辨要比對顏色的分辨更精細一些,也就是說(shuō),人眼對色度的敏感程度要低于對亮度的敏感程度。
所以,工程師認為,在我們的視頻存儲中,沒(méi)有必要存儲全部顏色信號。我們可以把更多帶寬留給黑—白信號(被稱(chēng)作“亮度”),將稍少的帶寬留給彩色信號(被稱(chēng)作“色度”)。于是,就有了YUV。
YUV里面的“Y”,就是亮度(Luma),“U”和“V”則是色度(Chroma)。
大家偶爾會(huì )見(jiàn)到的Y'CbCr,也稱(chēng)為YUV,是YUV的壓縮版本,不同之處在于Y'CbCr用于數字圖像領(lǐng)域,YUV用于模擬信號領(lǐng)域,MPEG、DVD、攝像機中常說(shuō)的YUV其實(shí)就是Y'CbCr。
YUV(Y'CbCr)是如何形成圖像的
YUV碼流的存儲格式其實(shí)與其采樣的方式密切相關(guān)。(采樣,就是捕捉數據。)
主流的采樣方式有三種,YUV4:4:4,YUV4:2:2,YUV4:2:0。
具體解釋起來(lái)有點(diǎn)繁瑣,大家只需記住,通常用的是YUV4:2:0的采樣方式,能獲得1/2的壓縮率。
這些預處理做完之后,就是正式的編碼了。
前面我們說(shuō)了,編碼就是為了壓縮。要實(shí)現壓縮,就要設計各種算法,將視頻數據中的冗余信息去除。
當你面對一張圖片,或者一段視頻的時(shí)候,你想一想,如果是你,你會(huì )如何進(jìn)行壓縮呢?
對于新垣女神,我一bit也不舍得壓縮…
我覺(jué)得,首先你想到的,應該是找規律。
是的,尋找像素之間的相關(guān)性,還有不同時(shí)間的圖像幀之間,它們的相關(guān)性。
舉個(gè)例子,如果一幅圖(1920×1080分辨率),全是紅色的,我有沒(méi)有必要說(shuō)2073600次[255,0,0]?我只要說(shuō)一次[255,0,0],然后再說(shuō)2073599次“同上”。
如果一段1分鐘的視頻,有十幾秒畫(huà)面是不動(dòng)的,或者,有80%的圖像面積,整個(gè)過(guò)程都是不變(不動(dòng))的。那么,是不是這塊存儲開(kāi)銷(xiāo),就可以節約掉了?
是的,所謂編碼算法,就是尋找規律,構建模型。誰(shuí)能找到更精準的規律,建立更高效的模型,誰(shuí)就是厲害的算法。
通常來(lái)說(shuō),視頻里面的冗余信息包括:
視頻編碼技術(shù)優(yōu)先消除目標,就是空間冗余和時(shí)間冗余。
接下來(lái),小棗君就和大家介紹一下,究竟是采用什么樣的辦法,才能干掉它們。
以下內容稍微有點(diǎn)高能,不過(guò)我相信大家耐心一些還是可以看懂的。
視頻是由不同的幀畫(huà)面連續播放形成的。
這些幀,主要分為三類(lèi),分別是I幀,B幀,P幀。
I幀,是自帶全部信息的獨立幀,是最完整的畫(huà)面(占用的空間最大),無(wú)需參考其它圖像便可獨立進(jìn)行解碼。視頻序列中的第一個(gè)幀,始終都是I幀。
P幀,“幀間預測編碼幀”,需要參考前面的I幀和/或P幀的不同部分,才能進(jìn)行編碼。P幀對前面的P和I參考幀有依賴(lài)性。但是,P幀壓縮率比較高,占用的空間較小。
P幀
B幀,“雙向預測編碼幀”,以前幀后幀作為參考幀。不僅參考前面,還參考后面的幀,所以,它的壓縮率最高,可以達到200:1。不過(guò),因為依賴(lài)后面的幀,所以不適合實(shí)時(shí)傳輸(例如視頻會(huì )議)。
B幀
通過(guò)對幀的分類(lèi)處理,可以大幅壓縮視頻的大小。畢竟,要處理的對象,大幅減少了(從整個(gè)圖像,變成圖像中的一個(gè)區域)。
如果從視頻碼流中抓一個(gè)包,也可以看到I幀的信息,如下:
我們來(lái)通過(guò)一個(gè)例子看一下。
這有兩個(gè)幀:
好像是一樣的?
不對,我做個(gè)GIF動(dòng)圖,就能看出來(lái),是不一樣的:
人在動(dòng),背景是沒(méi)有在動(dòng)的。
第一幀是I幀,第二幀是P幀。兩個(gè)幀之間的差值,就是如下:
也就是說(shuō),圖中的部分像素,進(jìn)行了移動(dòng)。移動(dòng)軌跡如下:
這個(gè),就是運動(dòng)估計和補償。
當然了,如果總是按照像素來(lái)算,數據量會(huì )比較大,所以,一般都是把圖像切割為不同的“塊(Block)”或“宏塊(MacroBlock)”,對它們進(jìn)行計算。一個(gè)宏塊一般為16像素×16像素。
將圖片切割為宏塊
好了,我來(lái)梳理一下。
對I幀的處理,是采用幀內編碼方式,只利用本幀圖像內的空間相關(guān)性。
對P幀的處理,采用幀間編碼(前向運動(dòng)估計),同時(shí)利用空間和時(shí)間上的相關(guān)性。簡(jiǎn)單來(lái)說(shuō),采用運動(dòng)補償(motion compensation)算法來(lái)去掉冗余信息。
需要特別注意,I幀(幀內編碼),雖然只有空間相關(guān)性,但整個(gè)編碼過(guò)程也不簡(jiǎn)單。
如上圖所示,整個(gè)幀內編碼,還要經(jīng)過(guò)DCT(離散余弦變換)、量化、編碼等多個(gè)過(guò)程。限于篇幅,加之較為復雜,今天就放棄解釋了。
那么,視頻經(jīng)過(guò)編碼解碼之后,如何衡量和評價(jià)編解碼的效果呢?
一般來(lái)說(shuō),分為客觀(guān)評價(jià)和主觀(guān)評價(jià)。
客觀(guān)評價(jià),就是拿數字來(lái)說(shuō)話(huà)。例如計算“信噪比/峰值信噪比”。
搞通信的童鞋應該對這個(gè)概念不會(huì )陌生吧?
信噪比的計算,我就不介紹了,丟個(gè)公式,有空可以自己慢慢研究...
除了客觀(guān)評價(jià),就是主觀(guān)評價(jià)了。
主觀(guān)評價(jià),就是用人的主觀(guān)感知直接測量,額,說(shuō)人話(huà)就是——“好不好看我說(shuō)了算”。
接下來(lái),我們再說(shuō)說(shuō)標準(Standard)。
任何技術(shù),都有標準。自從有視頻編碼以來(lái),就誕生過(guò)很多的視頻編碼標準。
提到視頻編碼標準,先介紹幾個(gè)制定標準的組織。
首先,就是大名鼎鼎的ITU(國際電信聯(lián)盟)。
1865年5月17日,為了順利實(shí)現國際電報通信,法、德、俄、意、奧等20個(gè)歐洲國家的代表在巴黎簽訂了《國際電報公約》,國際電報聯(lián)盟(International Telegraph Union ,ITU)也宣告成立。
隨著(zhù)電話(huà)與無(wú)線(xiàn)電的應用與發(fā)展,ITU的職權不斷擴大。
1906年,德、英、法、美、日等27個(gè)國家的代表在柏林簽訂了《國際無(wú)線(xiàn)電報公約》。
1932年,70多個(gè)國家的代表在西班牙馬德里召開(kāi)會(huì )議,將《國際電報公約》與《國際無(wú)線(xiàn)電報公約》合并, 制定《國際電信公約》,并決定自1934年1月1日起正式改稱(chēng)為“國際電信聯(lián)盟” ,也就是現在的ITU。
ITU是聯(lián)合國下屬的一個(gè)專(zhuān)門(mén)機構,其總部在瑞士的日內瓦。
ITU下屬有三個(gè)部門(mén),分別是ITU-R(前身是國際無(wú)線(xiàn)電咨詢(xún)委員會(huì )CCIR)、ITU-T(前身是國際電報電話(huà)咨詢(xún)委員會(huì )CCITT)、ITU-D。
除了ITU之外,另外兩個(gè)和視頻編碼關(guān)系密切的組織,是ISO/IEC。
ISO大家都知道,就是推出ISO9001質(zhì)量認證的那個(gè)“國際標準化組織”。IEC,是“國際電工委員會(huì )”。
1988年,ISO和IEC聯(lián)合成立了一個(gè)專(zhuān)家組,負責開(kāi)發(fā)電視圖像數據和聲音數據的編碼、解碼和它們的同步等標準。這個(gè)專(zhuān)家組,就是大名鼎鼎的MPEG,Moving Picture Expert Group(動(dòng)態(tài)圖像專(zhuān)家組)。
三十多年以來(lái),世界上主流的視頻編碼標準,基本上都是它們提出來(lái)的。
ITU提出了H.261、H.262、H.263、H.263+、H.263++,這些統稱(chēng)為H.26X系列,主要應用于實(shí)時(shí)視頻通信領(lǐng)域,如會(huì )議電視、可視電話(huà)等。
ISO/IEC提出了MPEG1、MPEG2、MPEG4、MPEG7、MPEG21,統稱(chēng)為MPEG系列。
ITU和ISO/IEC一開(kāi)始是各自搗鼓,后來(lái),兩邊成立了一個(gè)聯(lián)合小組,名叫JVT(Joint Video Team,視頻聯(lián)合工作組)。
JVT致力于新一代視頻編碼標準的制定,后來(lái)推出了包括H.264在內的一系列標準。
壓縮率對比
視頻編碼標準的發(fā)展關(guān)系
大家特別注意一下上圖里面的HEVC,也就是現在風(fēng)頭正盛的H.265。
作為一種新編碼標準,相比H.264有極大的性能提升,目前已經(jīng)成為最新視頻編碼系統的標配。
最后,我再說(shuō)說(shuō)封裝。
對于任何一部視頻來(lái)說(shuō),只有圖像,沒(méi)有聲音,肯定是不行的。所以,視頻編碼后,加上音頻編碼,要一起進(jìn)行封裝。
封裝,就是封裝格式,簡(jiǎn)單來(lái)說(shuō),就是將已經(jīng)編碼壓縮好的視頻軌和音頻軌按照一定的格式放到一個(gè)文件中。再通俗點(diǎn),視頻軌相當于飯,而音頻軌相當于菜,封裝格式就是一個(gè)飯盒,用來(lái)盛放飯菜的容器。
目前主要的視頻容器有如下:MPG、VOB、MP4、3GP、ASF、RMVB、WMV、MOV、Divx、MKV、FLV、TS/PS等。
封裝之后的視頻,就可以傳輸了,你也可以通過(guò)視頻播放器進(jìn)行解碼觀(guān)看。
好啦!額滴神啊,終于介紹完了。。。
其實(shí),小棗君之所以要做視頻編碼這么一個(gè)看似和通信無(wú)關(guān)的“跨界”專(zhuān)題,是有原因的。
以前我上大學(xué)的時(shí)候,就有一門(mén)專(zhuān)業(yè)課程,叫圖像識別,當時(shí)是我們學(xué)校的王牌專(zhuān)業(yè),屬于計算機系。那個(gè)時(shí)候我并不明白,圖像識別到底是什么,為什么“畫(huà)畫(huà)”這種事情,會(huì )歸為“計算機類(lèi)”。
后來(lái),我才明白,所謂的“圖像識別”,就是讓計算機看懂圖像。怎么樣才能看懂呢?就是把圖像數字化。
圖像變成了數字,計算機就能從中找到規律,也能對它進(jìn)行分析。
這么多年過(guò)去了,圖像識別取得了非常大的發(fā)展。我們漸漸發(fā)現,攝像頭開(kāi)始“認臉”了,停車(chē)場(chǎng)開(kāi)始“看懂”車(chē)牌了,生活開(kāi)始變得不一樣了。
更沒(méi)有想到的是,機器學(xué)習和AI人工智能也因此迅速崛起,開(kāi)始對傳統技術(shù)發(fā)起挑戰。
前段時(shí)間很火的谷歌“你畫(huà)我猜”程序,就是AI結合圖像識別技術(shù)的一個(gè)“人機交互”經(jīng)典案例。
運算速度足夠快,存儲空間足夠大,學(xué)習數據足夠多,計算機可以海量分析圖像和視頻數據,尋找其中的規律,構建模型。如果這個(gè)AI足夠強大,就能做出反應和處理。
在電影《鷹眼》里,也描繪到這樣的一個(gè)場(chǎng)景:強大的AI大腦,控制全球的視頻攝像頭,還有所有的計算機系統、武器系統,可以隨時(shí)在全球范圍內,找到想找到的人,并且干掉他。電影《速度與激情6》里,也有類(lèi)似的場(chǎng)景。
電影《鷹眼》,2008年
除此之外,還有3D視頻、VR/AR等,也都是和圖像視頻密切相關(guān)的應用。
總而言之,這是一個(gè)非常有前途的技術(shù)領(lǐng)域,值得深入進(jìn)行研究。也許,我們一直在尋找的5G爆款應用,就和視頻有關(guān)呢!
好啦,今天的內容就到這里,感謝大家的耐心觀(guān)看!
嘿嘿,大家看到那么優(yōu)質(zhì)的答案,不點(diǎn)下贊嘛?再來(lái)波關(guān)注更是極好的啊!