Search The Web With Google

Custom Search
   



Alfian on Facebook | Create Your Badge

Analisa Video - Transformers dan Christiano Ronaldo

Haaaa... hari ni saya nak bercerita pasal video. Video bukan sebarang video, video analysis ni... :)

Anyway, saya dok baca baca pasal Semantic Video Retrieval oleh Xiong et al (2006). Dia orang dok cerita macam mana basically orang construct index dan highlight dalam beberapa jenis video. Sebab apa dia cerita benda ni? ok... macam ni secara am nya.

Seperti mana anda semua sedia maklum... hard disk kita makin cepat membesar. Zaman2 dolu kala, 40Megabyte tu kira besar badak sumbu dah. Tapi kalau zaman sekarang, semut pon lagik besar dari 40Megabyte. Kita dah masuk era Gigabyte sekarang. Lepas ni, ntah2 tahun depan dah terabyte, dan karang petabyte pulak. Lepas tu apa byte pon saya tak periksa lagi (tak abis sekolah Byte lagi saya ni). Jadik, kita buleh simpan video (ataupun maklumat2 lain seperti imej, audio dan dokumen teks) dengan banyak nye. Kalau dah masuk petabyte... 800 movie yang di-download dari World Wide Web tu mmg ada kebarangkalian buleh simpan!!!


TAPI!!!!

Haaaaa.... bila dah simpan bebanyak tu... camne kita nak dapatkan balik. Ye la... kalau dah banyak sangat... camno? Ada orang argue buleh buat sistem folder. Buleh kategorikan kepada...contohnya:

1) Folder Cerita Seram
2) Folder Cerita Aksi
3) Folder Cerita Ikan (hehehe)
4) Folder Sukan

5) Folder Kartun
6) Folder Siri-siri dari USA

dan sebagainya...

So, ada la satu sistem pengkategorian.

Namun, dalam setiap folder tu pon, mungkin buleh ada sub-folder ye dok? Kata la dalam Folder Kartun... buleh ada Kartun Jepun? Kartun Melayu? Kartun Omputeh? Kartun German? Kartun Tak Serupa Kartun! Kartun 3-D? Dan macam2 kartun lain lagi.


Lepas tu lagi... kadang2, tak la semua bahagian kartun tu kita suka nengok! Haaaa... Kata la... kita ada kartun 3-D Transformers lawan Dinosaur. And then, kita teringat ada satu babak, di mana Transformers tu dimakan dek Dinosaur. Teringin pulak nak tengok babak tu tetiba...


Jadi sekarang, masalahnya ialah apa bila mau mencari babak berkenaan.

Kata la Transformers lawan Dinosaur tu pon ada 400 episod semuanya. Tapi kita tak ingat, episod manaa pulak si Transformer ni kena makan.

Cara paling biasa ialah... kita cari based on tajuk ye dok? Carik nama katun tu [Transformers lawan Dinosaur]. Lepas tu kita punya search-engine (ataupun enjen-pencarian) jumpak la folder Kartun 3-D, subfolder Transformers lawan Dinosaur. Langkah seterusnya ialah... mencari episod yang dikehendaki. Kata la episod tu kita tahu :) Dah hafal dah... episod 385 lah di mana Dinosaur makan Transformers... Kita pon bukak la episod 385 tu.

Langkah seterusnya? Ya betul... kita kena forward sampai la part dia kena makan. Memandangkan zaman dah berubah (kata la dah tahun 2095)... setiap episod memakan masa 12 jam! Hua hua hua! Jadik kena la browse timeline tu, carik dekat mana dalam 12 jam tu ada Transformers kena makan dek Dinasour. Lepas beberapa puluh minit... Alhamdulillaaah. JUMPAK! Kekekekeke. Kita pon layan la Transformers kena makan dek Dinosaur. Ada la 15 saat je babak tu. Kekekeke. Macam tak berbaloi carik lama lama :P

Bayangkan betapa renyah nye. Tu baru cerita pasal siri katun. At least leh ingat! Kata la kita nak cuba dapatkan babak di mana Christiano Ronaldo menjaringkan Gol!!!Haaaa... camno? Camno nak buek? Buleh ingat ko?

Jadi... kita kena lah ada index... atau summary-summary highlights. Hehehehe. Tapi, nak buat benda2 ni bukan senang! Sebab... kita nak kena cuba infer-kan... atau cuba abstrak-kan highlight dari video mentah tu sendiri. Maksudnya... dari apa yang kita NAMPAK kat video tu. Sebab apa... mana ada orang akan labelkan babak2 di mana Ronaldo jaringkan Gol! Penat ooo nak label video. Kalau tak caya tanya Mat Nabil.

Oleh yang demikian... index dan abstrak bagi highlight harus lah dihasilkan melalui analisis video... dari sudut semantik. Semantik ni boleh dikaitkan dengan ... apa ek? Pemikiran atau Kesimpulan tahap tinggi...high-level, di mana manusia biasa selalu buat. Contohnya...

Kata la kita nak dapatkan babak Ronaldo tadi. Kita tak nak video perlawanan tu... kita nak babak GOL tu je. So kita sebagey menosia akan bertanya kepada sistem dapatan maklumat tu macam ni....

"Wahey Komputer Cakerawala Andorra... Aku Alpyan, mahukan babak di mana Christiano Ronaldo telah menjaringkan Gol yang cantek itu. Cepat kasik kat aku babak itu saja. Kalau kau kasik selurh video, akan aku VIRUS-kan kau. Hua hua hua!"

Haaa... Inilah contoh query, atau soalan tahap tinggi (high-level) yang menosia akan tanya. Jadi... kenapa ada perkataan high-level ini? Ok. Ini kerna, sistem komputer mana laaa faham bahasa high-level ni secara direct. Honda punya robot tu pon, tak akan faham secara direct. Apa yang komputer akan buat, ialah menterjemahkan bahasa high-level ini ke dalam bahasa low-level yang dia faham.

Oleh yang demikian... pendek cerita... sistem dapatan maklumat akan cuba mencari dalam timbunan petabyte video tadi... video si Ronaldo jaringkan gol. Walaupun banyak video, tapi since komputer adalah 48.95-juta lebih laju dari menosia... dan komputer tak tau erti penat... jadi dia takkan malas mencari. TAPI! Dia kena lah translate, atau terjemah soalan high-level tadi, kepadal data low-level yang dia buleh faham... Haaa.. inilah namanya The Semantic Gap. Anyway... oleh yang demikian, komputer akan mencari berdasarkan INDEX yang telah dibuat. Ataupun based on HIGHLIGH SUMMARIES.

Kita cerita HIGHLIGHT je la kali ni.

Jadi, masa pembikinan sistem, para bijak pandai telah pun menjalankan proses... proses analisa video bola sepak tadi. Contoh analisa ialah...

  1. Face Recognition - Pengecaman muka. Kata la dia buleh cam muka Christiano Ronaldo. Ada sistem2 macam ni. Tuz Kuang, student FSKTM UPM dulu ada buat :)
  2. Pattern Recognition - Pengecaman corak-corak... dari sudut visual, audio dan mungkin juga teks. Contoh... Utk mengesan GOL... corak-corak yang berlaku ialah:
    1. Visual - Berlaku pandangan kamera sederhana jauh. TIBA TIBA!!! Kamera fokus dekat sorang player saja!!! Dan keadaan pergerakan player LAJU YAAMAT!!! (Tengah syok la tu, lari2 lepas jaringkan gol)
    2. Audio - TIBA TIBA... penyokong BERSORAK MAUT GABAN!!! Terdapat peningkatan dalam nada suara penyokong yang bersorak gumbira selepas jaringan dibuat.
    3. Teks - TIBA TIBA juga, muncul caption yang menunjukkan nama pemain. Dan skor-board berubah dari 0-0 menjadi 1-0.
  3. Percantuman Bahan Bukti - Dari proses face recogntion dan pattern recognition di atas... maka bukti2 visual, aural dan teks di gabungkan... dan membentuk satu jenis ukuran utk diproses oleh komputer.
  4. Kesimpulan dan Keputusan - Hasil dari bahan bukti, komputer akan membuat keputusan. Melalui kaedah Artifial Intelligence, Pemprosesan Statistikal, atau cara-cara lain. DAN!!! Akan mengsummarizekan dan indexkan babak tadi sebagai babak GOL OLEH CHRISTIANO RONALDO!!!!!!

Maka, oleh yang demikian... satu HIGHLIGHT SUMMARY iaiatu GOL oleh CHRISTIANO RONALDO telah dicipta. :)

Dan sekarang... selepas query oleh menosia tadi... sistem komputer akan dapat mencari dan mendapatkan apa yang dia ndok tadi...

Jadi, sepertimana yang tuan2 dan puan2 nampak... tak payah la menosia tadi pi cari kat video 'database' dia tu ha. Ye la... petabyte petabyte... camne nak carik. Silap2 sesat dalam timbunan data. Tenggelam dalam koleksi video sendiri...Hehehehe.

Bunyi best kan? Senang kalau ada index dan summaries ni. Cuma masalah nye... nak buat index dan summary tu yang payah! Walaupun ada sistem macam tu, mmg tak perfect lagi. Ye la, sebab komputer nak jadik macam menosia... Mana buleh! Hua hua hua!

Namun... ia adalah niat dan langkah murni. Jadi, inilah dia basically bidang research saya. Harap2 tuan2 dan puan2 faham la sikit2. Pasal saya sendiri pon tak la faham sangat details dia. HAHAHAHAHA!!!

Ok la. Sehingga di lain rancangan. Terima kasih kepada yang baca sampai abis. Assalaam aleykom WBT dan Selamat Sejahtera.

BTW, sapa2 ada cerita dinosaur makan transformers? Saya rasa, dari situlah timbulnya spesis DYNOBOTS!!!

ME GRIMLOCK WANT TO EAT METALL!!!


Taken from http://tbn0.google.com/images?q=tbn:dZg1H_oCbHXX8M:
http://www.lanceradvanced.com/Illustration/FanArt/Images/Grimlock.jpg

8 comments:

m2rs said...

Wah, bagus bagus, satu kemajuan yg sungguh memberangsangkan :)

Btw, Sama-sama, sama-sama (aku baca sampai habis, tu yg jawab welcome tuh, he he).

Btw, just some discusion on the proposed approach, You mentioned that nak gabung visual, audio and text, rite. Just a thought, bukan ka kita bole tahu about goal just directly from the scoreboard, without having to do heavy processing for the visual and audio? Sebab selalunya kalau scoreboard berubah, mmg confirm la dah goal, without ambil kisah the visual and audio properties, kan?

Or is it pernah berlaku where scoreboard meningkat but rupanya tersilap, tak ada jaringan goal sebenarnya? Pernah ka jd gitu so far? Kalau pernah, then orait la gabung dgn visual and audio tu. Kalau tak, bukan burden kan processor ka?

EyesOfNabil said...

Bagus gak bace output ko nih. BTW, kalau ko sebutkan in the long run ni...aku rase, video tersebut boleh ditagkan semasa dia diencode. Maksud aku masa kita tgh nak encode cthnya dari video raw ke format2 dvd ke vcd ...dan skrg hd dvd dan jugak blue ray (keluaran sony utk ps3..tp dia guna utk video gak yg bergiga2 byte besarnya).

Mmg masa encoding akan memakan masa la...tapi menurut hukum moore...mmg benda tu possible in the long run dan comp lak tak penat lps diencode. Maksud aku, just think about it...zaman kita dulu mana pernah terpk kita boleh carik by chapters bila tgk movie...tp budak2 skrg benda tu dah normal dah...kite je yg mcm jakun sikit.

BTW, maksud aku kita tag tu ialah setiap significant changes dlm video yg kita encode tu (ni kena kerjasama dgn para psikologi filem apa benda yg kalau kita tgk kat movie kita akan ingat dlm kepala? cth:kalau american pie, saat bilakah stiffler's mom tu tiba2 jadi significant? ahaha) Tagging ni plak...kita boleh jugak apply ilmu information hiding. Just encode probably 1 byte (cthnya 00001010) untuk that scene dan letak dlm dia punya least significant bit...now kalau dlm satu frame tu ada byk pixel...setiap pixel ada 3 kombinasi kaler (RGB), hiding that tak pakai pun space extra. :)

Macam aku kate la..tagging ni akan makan masa la sket tapi benda tu bukan manusia yg buat..komputer...dan bestnya plak...lps dah tag benda tu jadi mudah untuk dicari.

So approach aku:
Psikologi + Recognition + Info Hiding

Skop: Bukan utk real time live telecast

Tu cth je la...kalau ko tak buat skrg...lps abis phd kita buat la sama2 (interdiscipline tu)...apply grant byk2 lps tu amik cuti sabatikal kita buat kat disneyland jumpe researcher kat sana sbb kita buat atas M.O.U(tambah S.E) dgn diorang utk std video dari disney...(kalau kat Malaysia tak best sbb bazir je buat dgn Razak mohaiden).

Lps tu nnt tiap2 kali orang bukak video...akan nampak ikon kita (Skrg balik2 nampak dolby digital :D walaupun lanun)

ok tu saje input dari aku...renung2kan dan sama2 beramal. Dari prof izi hj yahya

Alfian said...

Wah.. tq tq for de feedbacks yg memberangsangkan...

M2RS: Yes. Mmg aku pon berpikiran begitu. As a matter of fact, aku mmg tengah nak tackle from that point of view. Tapi, sebab kita nak scene goal tu... lepas dah dapat bila text berubah, maka kena carik dia punya event boundaries :) Bila event start, and bila event tamat. So mmg memerlukan multi-modal punya analysis jugak. Ini dari apa yang aku rasa la... But the big problem in most cases is the detection of the text itself. Selalu ada false alarms pasal sebelum pergi ke OCR application, nak kena localize and recognize the text first. Dalam proses recognize ni kadang2 kantoi. But I think there are algos that can handle that now. Hehehe. So aku tinggal cari, apply, carik boundaries... SIAP PHD! Hua hua hua! ok. not that simple :P

EON: As for tag masa coding process... well mmg buleh buat kot. Tapi aku tak jumpa lagi mana2 literature yang buat camtu (sebab aku tak cukup baca lagi kot. hehehe). Cuma parsing and analysis of video dalam compressed domain ada la :) Meaning dia gunakan compressed domain features macam DC coefficients dan gak motion vectors, dan gak MPEG-7 descriptors. But hey, dat is a good idea and different point of view :D hehehehe. tq tq.

Tapi basically, utk tag tu... kita kena tau, what to tag ye dok. And utk komputerized tagging... mmg kena ada some sort of analysis and also decision making, in order to know what to tag. And among the things yg buleh dianalyze ialah the modalities (antara the famous Dr Hajah's 5-mmedia-elements :P), dan gak external sources, macam webcasting text (real-time on-line notes about a live game).

tapi isu sini, bukan sebab takde storage... storage makin banyak.
Putu petabyte lagi... Lepas tu Bab-byte pon logik (kekekeke. selit gak tuhs...:P)

Moore pon dah tau menda tu masa dia buat teori dia....(aku rasa moore nye teori pon leh apply kat storage.. hehehehe. Indirectly la kot). Cuma skrg kita nak kena ada cara utk pandaikan komputer utk tahu apa nak di-tag :D Lepas dah tau... buleh kita apply itu grant wahai mat EON. TApi.. aku x nak g disneyland... jom kita g Amsterdam... hua hua hua!!! Kenapa? Hmmmmm......

Arin said...

Beb..apa kata link aku tuh..ko tukar pada blogspot aku
http://lemprica.blogspot.com

-arin-

dLyn aZmi said...

ahmad alpyan albab..

aku terlalu penat utk komen bab2 ilmiah ni.. tp aku nak komen gaks.. so aku nak sentuh ttg niat murni hang nak memudahkan org mencari n mengskip unwanted scenes hehe terutama sekali if nak tgk smallville.. aku dah boikot lama cite tu tp if bley la skip je sume scene yg involve makcik lana lang-suir tu.. aku akan tgk blk cite tuh huhu

atau pun aku nak tgk jore lagu tanpa perlu tgk part mak et kuang kuang kuang

waaaa sj je nak bg tau.. tamping aku best giler... blk dr lab nanti aku update blog.... tp x ler sepanjang entry tenggiri hang kot :P

Alfian said...

hahahaha! Ampes Lyn. Tapi yang mat ET tu ape menda? Mak ET ada buat show ke? kekekeke.

Actually apa yang kau cakap mmg menunjukkan masalah video retrieval zaman sekarang :) Macam kau kata, nak skip part LANA kan? Haaa... that's exactly the type of High-Level search yang orang akan mahu buat :) Tapi most of systems yang ada mmg susah nak capai benda tu. Sebab computer can work with low level features (color info, texture, motion etc)... but when we give them that sort of high level query... kueng kueng kueeennnggg. Dia kena la translate jadik high level gak. So, that's why briding the semantic gap is of utmost importance! Jadi, bila research aku dah siap, kita sama2 jual kat Astro... dan jadik jotawan millionaireeeee!!! Lepas tu beli FSKTM dan kasik Bab sama Bab :D okes. sambung lajar :D

dLyn aZmi said...

wakkaka bukan mak pada ET la... maksud aku mak et aka tok ti.. bini nye si datuk k tu hahaha..

anyway.. cadangan hang mmg bernas skali... kite bley jd jotawan dan Bab Bab Bab dan Bab hahahah

jd kesimpulannya.. siapkan lah research itu kekeek

Alfian said...

brapa banyak baaaab daaaa. tapi takpe. nanti kita Bab gak si Bab :P

Related Posts with Thumbnails

Thanks for dropping by