Analisa Video - Transformers dan Christiano Ronaldo
Anyway, saya dok baca baca pasal Semantic Video Retrieval oleh Xiong et al (2006). Dia orang dok cerita macam mana basically orang construct index dan highlight dalam beberapa jenis video. Sebab apa dia cerita benda ni? ok... macam ni secara am nya.
Seperti mana anda semua sedia maklum... hard disk kita makin cepat membesar. Zaman2 dolu kala, 40Megabyte tu kira besar badak sumbu dah. Tapi kalau zaman sekarang, semut pon lagik besar dari 40Megabyte. Kita dah masuk era Gigabyte sekarang. Lepas ni, ntah2 tahun depan dah terabyte, dan karang petabyte pulak. Lepas tu apa byte pon saya tak periksa lagi (tak abis sekolah Byte lagi saya ni). Jadik, kita buleh simpan video (ataupun maklumat2 lain seperti imej, audio dan dokumen teks) dengan banyak nye. Kalau dah masuk petabyte... 800 movie yang di-download dari World Wide Web tu mmg ada kebarangkalian buleh simpan!!!
TAPI!!!!
Haaaaa.... bila dah simpan bebanyak tu... camne kita nak dapatkan balik. Ye la... kalau dah banyak sangat... camno? Ada orang argue buleh buat sistem folder. Buleh kategorikan kepada...contohnya:
1) Folder Cerita Seram
2) Folder Cerita Aksi
3) Folder Cerita Ikan (hehehe)
4) Folder Sukan
5) Folder Kartun
6) Folder Siri-siri dari USA
dan sebagainya...
So, ada la satu sistem pengkategorian.
Namun, dalam setiap folder tu pon, mungkin buleh ada sub-folder ye dok? Kata la dalam Folder Kartun... buleh ada Kartun Jepun? Kartun Melayu? Kartun Omputeh? Kartun German? Kartun Tak Serupa Kartun! Kartun 3-D? Dan macam2 kartun lain lagi.
Lepas tu lagi... kadang2, tak la semua bahagian kartun tu kita suka nengok! Haaaa... Kata la... kita ada kartun 3-D Transformers lawan Dinosaur. And then, kita teringat ada satu babak, di mana Transformers tu dimakan dek Dinosaur. Teringin pulak nak tengok babak tu tetiba...

Jadi sekarang, masalahnya ialah apa bila mau mencari babak berkenaan.
Kata la Transformers lawan Dinosaur tu pon ada 400 episod semuanya. Tapi kita tak ingat, episod manaa pulak si Transformer ni kena makan.
Cara paling biasa ialah... kita cari based on tajuk ye dok? Carik nama katun tu [Transformers lawan Dinosaur]. Lepas tu kita punya search-engine (ataupun enjen-pencarian) jumpak la folder Kartun 3-D, subfolder Transformers lawan Dinosaur. Langkah seterusnya ialah... mencari episod yang dikehendaki. Kata la episod tu kita tahu :) Dah hafal dah... episod 385 lah di mana Dinosaur makan Transformers... Kita pon bukak la episod 385 tu.
Langkah seterusnya? Ya betul... kita kena forward sampai la part dia kena makan. Memandangkan zaman dah berubah (kata la dah tahun 2095)... setiap episod memakan masa 12 jam! Hua hua hua! Jadik kena la browse timeline tu, carik dekat mana dalam 12 jam tu ada Transformers kena makan dek Dinasour. Lepas beberapa puluh minit... Alhamdulillaaah. JUMPAK! Kekekekeke. Kita pon layan la Transformers kena makan dek Dinosaur. Ada la 15 saat je babak tu. Kekekeke. Macam tak berbaloi carik lama lama :P
Bayangkan betapa renyah nye. Tu baru cerita pasal siri katun. At least leh ingat! Kata la kita nak cuba dapatkan babak di mana Christiano Ronaldo menjaringkan Gol!!!Haaaa... camno? Camno nak buek? Buleh ingat ko?
Jadi... kita kena lah ada index... atau summary-summary highlights. Hehehehe. Tapi, nak buat benda2 ni bukan senang! Sebab... kita nak kena cuba infer-kan... atau cuba abstrak-kan highlight dari video mentah tu sendiri. Maksudnya... dari apa yang kita NAMPAK kat video tu. Sebab apa... mana ada orang akan labelkan babak2 di mana Ronaldo jaringkan Gol! Penat ooo nak label video. Kalau tak caya tanya Mat Nabil.
Oleh yang demikian... index dan abstrak bagi highlight harus lah dihasilkan melalui analisis video... dari sudut semantik. Semantik ni boleh dikaitkan dengan ... apa ek? Pemikiran atau Kesimpulan tahap tinggi...high-level, di mana manusia biasa selalu buat. Contohnya...
Kata la kita nak dapatkan babak Ronaldo tadi. Kita tak nak video perlawanan tu... kita nak babak GOL tu je. So kita sebagey menosia akan bertanya kepada sistem dapatan maklumat tu macam ni....
"Wahey Komputer Cakerawala Andorra... Aku Alpyan, mahukan babak di mana Christiano Ronaldo telah menjaringkan Gol yang cantek itu. Cepat kasik kat aku babak itu saja. Kalau kau kasik selurh video, akan aku VIRUS-kan kau. Hua hua hua!"
Haaa... Inilah contoh query, atau soalan tahap tinggi (high-level) yang menosia akan tanya. Jadi... kenapa ada perkataan high-level ini? Ok. Ini kerna, sistem komputer mana laaa faham bahasa high-level ni secara direct. Honda punya robot tu pon, tak akan faham secara direct. Apa yang komputer akan buat, ialah menterjemahkan bahasa high-level ini ke dalam bahasa low-level yang dia faham.
Oleh yang demikian... pendek cerita... sistem dapatan maklumat akan cuba mencari dalam timbunan petabyte video tadi... video si Ronaldo jaringkan gol. Walaupun banyak video, tapi since komputer adalah 48.95-juta lebih laju dari menosia... dan komputer tak tau erti penat... jadi dia takkan malas mencari. TAPI! Dia kena lah translate, atau terjemah soalan high-level tadi, kepadal data low-level yang dia buleh faham... Haaa.. inilah namanya The Semantic Gap. Anyway... oleh yang demikian, komputer akan mencari berdasarkan INDEX yang telah dibuat. Ataupun based on HIGHLIGH SUMMARIES.
Kita cerita HIGHLIGHT je la kali ni.
Jadi, masa pembikinan sistem, para bijak pandai telah pun menjalankan proses... proses analisa video bola sepak tadi. Contoh analisa ialah...
- Face Recognition - Pengecaman muka. Kata la dia buleh cam muka Christiano Ronaldo. Ada sistem2 macam ni. Tuz Kuang, student FSKTM UPM dulu ada buat :)
- Pattern Recognition - Pengecaman corak-corak... dari sudut visual, audio dan mungkin juga teks. Contoh... Utk mengesan GOL... corak-corak yang berlaku ialah:
- Visual - Berlaku pandangan kamera sederhana jauh. TIBA TIBA!!! Kamera fokus dekat sorang player saja!!! Dan keadaan pergerakan player LAJU YAAMAT!!! (Tengah syok la tu, lari2 lepas jaringkan gol)
- Audio - TIBA TIBA... penyokong BERSORAK MAUT GABAN!!! Terdapat peningkatan dalam nada suara penyokong yang bersorak gumbira selepas jaringan dibuat.
- Teks - TIBA TIBA juga, muncul caption yang menunjukkan nama pemain. Dan skor-board berubah dari 0-0 menjadi 1-0.
- Percantuman Bahan Bukti - Dari proses face recogntion dan pattern recognition di atas... maka bukti2 visual, aural dan teks di gabungkan... dan membentuk satu jenis ukuran utk diproses oleh komputer.
- Kesimpulan dan Keputusan - Hasil dari bahan bukti, komputer akan membuat keputusan. Melalui kaedah Artifial Intelligence, Pemprosesan Statistikal, atau cara-cara lain. DAN!!! Akan mengsummarizekan dan indexkan babak tadi sebagai babak GOL OLEH CHRISTIANO RONALDO!!!!!!
Maka, oleh yang demikian... satu HIGHLIGHT SUMMARY iaiatu GOL oleh CHRISTIANO RONALDO telah dicipta. :)
Dan sekarang... selepas query oleh menosia tadi... sistem komputer akan dapat mencari dan mendapatkan apa yang dia ndok tadi...
Jadi, sepertimana yang tuan2 dan puan2 nampak... tak payah la menosia tadi pi cari kat video 'database' dia tu ha. Ye la... petabyte petabyte... camne nak carik. Silap2 sesat dalam timbunan data. Tenggelam dalam koleksi video sendiri...Hehehehe.
Bunyi best kan? Senang kalau ada index dan summaries ni. Cuma masalah nye... nak buat index dan summary tu yang payah! Walaupun ada sistem macam tu, mmg tak perfect lagi. Ye la, sebab komputer nak jadik macam menosia... Mana buleh! Hua hua hua!
Namun... ia adalah niat dan langkah murni. Jadi, inilah dia basically bidang research saya. Harap2 tuan2 dan puan2 faham la sikit2. Pasal saya sendiri pon tak la faham sangat details dia. HAHAHAHAHA!!!
Ok la. Sehingga di lain rancangan. Terima kasih kepada yang baca sampai abis. Assalaam aleykom WBT dan Selamat Sejahtera.
BTW, sapa2 ada cerita dinosaur makan transformers? Saya rasa, dari situlah timbulnya spesis DYNOBOTS!!!
ME GRIMLOCK WANT TO EAT METALL!!!

Taken from http://tbn0.google.com/images?q=tbn:dZg1H_oCbHXX8M:
http://www.lanceradvanced.com/Illustration/FanArt/Images/Grimlock.jpg






































