UIT-VSD: Hệ Thống Phát Hiện Thông Tin Bạo Lực Trong Video

1. Giới thiệu

Việc nhiều loại phim ảnh được chiếu thường xuyên trên các đài truyền hình, băng, đĩa phim, và các trang mạng Internet mà không được kiểm soát về các thông tin bạo lực có thể gây ảnh hưởng không tốt đến các đối tượng thanh thiếu niên cũng như trẻ em. Rất nhiều vụ trọng án qua xác minh, điều tra đều có nguồn gốc và kịch bản tương tự như các phim bạo lực đã được trình chiếu mà hung thủ đã xem qua. Do đó rất cần thiết để có một ứng dụng giúp các nhà quản lý phim, cơ quan chức năng và phụ huynh có thể lựa chọn phim, clip nào phù hợp với thanh thiếu niên, trẻ em bằng cách khuyến cáo tự động các thông tin bạo lực trong phim và để nhà quản lý phim, cơ quan chức năng, và phụ huynh xem qua (preview) trước khi ra quyết định.

2. Các tính năng nổi bật

Hệ thống UIT-VSD được phát triển nhằm phát hiện thông tin bạo lực với đầu vào là videos, đầu ra là danh sách các đoạn trong videos đó có chứa thông tin bạo lực. Với kết quả này, người dùng có thể:

- Duyệt qua các đoạn video trên để đánh giá mức độ bạo lực xem có phù hợp với đối tượng quan tâm hay không.

- Cắt đi các đoạn video quá bạo lực nếu cần thiết.

Do việc tìm các đoạn chứa thông tin bạo lực trong video bằng thủ công rất tốn kém thời gian, nên với hệ thống này có thể được dùng để lọc trước các videos cần thêm công đoạn thủ công để có kết quả tin cậy hơn, tăng hiệu quả của công việc kiểm duyệt, đặc biệt là khi số lượng videos lớn, ví dụ như hàng ngàn, đòi hỏi phải xử lí trong thời gian ngắn.

Minh họa hệ thống: http://youtu.be/yTOgIkI_qwI

Minh họa hệ thống UIT-VSD


3. Demo

3.1. Xem kết quả phát hiện thông tin bạo lực của hệ thống UIT-VSD trên các bộ phim của Hollywood

Link 1: Demo sẽ cho phép người dùng xem các kết quả của hệ thống UIT-VSD trên các bộ phim Hollywood trong cuộc thi MediaEval-VSD 2014. 

Kết quả (đúng/chưa đúng) sẽ được ghi bên cạnh để tiện tham khảo. 

3.2. Xem đánh giá của hệ thống với đầu vào là một ảnh

Link 2: Demo này sẽ cho phép người dùng tải một ảnh lên server, và hệ thống sẽ trả về kết quả của mức độ bạo lực. Việc đánh giá về mức độ bạo lực hay không được thực hiện tự động nhờ vào mô hình đã được huấn luyện trước đó. Lưu ý rằng: Đây là phiên bản chạy online, do đó phải sử dụng cấu hình ưu tiên cho phần tốc độ xử lí nên độ chính xác không cao.

4. Mô hình hệ thống


Hình S1: Mô hình của hệ thống phát hiện thông tin bạo lực UIT-VSD.


Hệ thống bao gồm những thành phần chính như sau:

[Comp1]. Rút trích đặc trưng

  • Nếu đầu vào là video dài, hệ thống phân đoạn video thành các phân đoạn nhỏ (shot), sau đó sẽ rút trích các khung ảnh (keyframes) từ các shot.
  • Các đặc trưng hình ảnh sẽ được rút trích trực tiếp từ các khung ảnh.
  • Các đặc trưng chuyển động và âm thanh được rút trích trực tiếp từ các phân đoạn.
  • Kết thúc quá trình rút trích đặc trưng, các phân đoạn sẽ được biểu diễn bằng các vector đặc trưng.

[Comp2]. Huấn luyện mô hình bộ phân loại (classifiers) phát hiện thông tin bạo lực

  • Chúng tôi sử dụng các dữ liệu huấn luyện đã được gán nhãn để xác định các phân đoạn bạo lực và không bạo lực có trong tập video.
  • Dựa vào tập dữ liệu đã được gán nhãn (bạo lực hoặc không bạo lực), hệ thống sử dụng các thuật toán máy học (SVM – support vector machines ) để tạo ra các bộ phân loại.

[Comp3]. Đánh giá/Dự đoán 

  • Bộ phân loại ở bước 2 sẽ được áp dụng lên các vector đặc trưng của các video cần kiểm tra và trả về các trọng số (score) tương ứng (giả sử càng bạo lực thì trọng số càng cao).
  • Chúng tôi sử dụng dữ liệu trong tập huấn luyện để xác định ngưỡng (threshold) cho mức độ bạo lực, các phân đoạn có score trên ngưỡng sẽ được xem là bạo lực và ngược lại.


5. Các kết quả thử nghiệm

Kết quả thử nghiệm được thực hiện trên bộ dữ liệu của Media Eval - Affect Task cho thấy kết quả của hệ thống UIT-VSD đạt mức tương đương với kết quả tốt nhất của các nhóm nghiên cứu trên thế giới.

Dưới đây là danh sách các video được dùng cho huấn luyện bộ phân loại (Train2014) và đánh giá/dự đoán (Test2014) của cuộc thi MediaEval-VSD 2014.

No.

VideoName

Duration(h)

 #keyframe

 #shot

 

Train 2014

                48.29

        4,345,836

            34,777

1

movie-Armageddon-1998-dvd2002-MediaEval

2.41

            217,021

              1,737

2

movie-BillyElliot-2000-dvd2003-MediaEval

1.76

            158,734

              1,270

3

movie-Eragon-2006-dvd2007-MediaEval

1.66

            149,640

              1,198

4

movie-HarryPotter5-2007-dvd2008-MediaEval

2.21

            198,868

              1,591

5

movie-IAmLegend-2007-dvd2010-MediaEval

1.61

            144,515

              1,156

6

movie-Leon-1994-dvd2004-MediaEval

1.76

            158,612

              1,269

7

movie-MidnightExpress-1978-dvd2008-MediaEval

1.93

            174,021

              1,393

8

movie-PiratesOfTheCaribbean1-2003-dvd2006-MediaEval

2.29

            206,017

              1,649

9

movie-ReservoirDogs-1992-dvd2004-MediaEval

1.59

            142,823

              1,143

10

movie-SavingPrivateRyan-1998-dvd2006-MediaEval

2.71

            243,774

              1,951

11

movie-TheSixthSense-1999-dvd2000-MediaEval

1.72

            154,450

              1,236

12

movie-TheWickerMan-2006-dvd2008-MediaEval

1.63

            146,773

              1,175

13

movie-TheBourneIdentity-2002-dvd2006-MediaEval

1.89

            170,411

              1,364

14

movie-TheWizardofOz-1939-dvd2000-Mediaeval

1.63

            146,483

              1,172

15

movie-DeadPoetsSociety-1989-dvd2002-MediaEval

2.06

            185,374

              1,483

16

movie-FightClub-1999-dvd2001-MediaEval

2.22

            200,160

              1,602

17

movie-IndependenceDay-1996-dvd2010-MediaEval

2.45

            220,875

              1,767

18

movie-FantasticFour1-2005-dvd2005-MediaEval

1.69

            152,361

              1,219

19

movie-Fargo-1996-dvd2004-MediaEval

1.57

            141,161

              1,130

20

movie-ForrestGump-1994-dvd2006-MediaEval

2.27

            204,424

              1,636

21

movie-LegallyBlond-2001-dvd2002-MediaEval

1.53

            138,086

              1,105

22

movie-PulpFiction-1994-dvd2009-MediaEval

2.47

            222,200

              1,778

23

movie-TheGodFather-1972-dvd2008-MediaEval

2.83

            254,876

              2,039

24

movie-ThePianist-2002-dvd2007-MediaEval

2.38

            214,177

              1,714

 

Test 2014

                13.89

        1,250,273

            10,006

1

V_FOR_VENDETTA

2.12

            190,663

              1,526

2

TERMINATOR_2

2.45

            220,784

              1,767

3

JUMANJI_COLLECTORS_EDITION

1.66

            149,849

              1,199

4

GHOST_IN_THE_SHELL

1.38

            124,150

                  994

5

DESPERADO

1.67

            150,324

              1,203

6

BRAVEHEART

2.84

            255,613

              2,045

7

8_MILE

1.77

            158,890

              1,272


Kết quả của cuộc thi năm 2014 như sau, nhóm chúng tôi (hợp tác với Viện Tin Học Quốc Gia Nhật Bản - NII) đứng thứ nhì sau Fudan University.



6. Các công bố khoa học

[C1]. Vu Lam, Duy-Dinh Le, Shin'ichi Satoh, Duc Anh Duong: NII, Japan at MediaEval 2014 Violent Scenes Detection Task. MediaEval 2014.

[C2]. Claire-Helene Demarty, Bogdan Ionescu, Yu-Gang Jiang, Vu Lam, Markus Schedl, Cedric Penet: Benchmarking Violent Scenes Detection in Movies. CBMI 2014.

[C3]. C.H. Demarty, C. Penet, M. Schedl, B. Ionescu, Vu Lam and Y.G. Jiang. The MediaEval 2013 Affect Task: Violent Scenes Detection. In Working Notes Proceedings of the MediaEval 2013 Workshop, Barcelona, Spain (2013).

[C4]. Vu Lam, Duy-Dinh Le, Shin'ichi Satoh, Duc Anh Duong: NII, Japan at MediaEval 2013 Violent Scenes Detection Task. MediaEval 2013.

[C5]. Vu Lam, Duy-Dinh Le, Sang Phan, Thanh Duc Ngo, Duc Anh Duong and Shin'ichi Satoh, Evaluation of Low level Features for Detecting Violent Scenes in Videos, International Conference of Soft Computing and Pattern Recognition (SoCPaR), Dec 2013.

[C6]. Vu Lam, Sang Phan, Thanh Duc Ngo, Duy-Dinh Le, Duc Anh Duong and Shin'íchi Satoh. Violent Scene Detection Using Mid-level Feature, International Symposium on Information and Communication Technology (SoICT), Dec 2013.

[C7]. Vu Lam, Duy-Dinh Le, Sang-Phan Le, Shin'ichi Satoh, Duc Anh Duong: NII, Japan at MediaEval 2012 Violent Scenes Detection Affect Task. MediaEval 2012.

[C8]. Vu Lam, Duy-Dinh Le, Shin'ichi Satoh, Duc Anh Duong: NII, Japan at MediaEval 2011 Violent Scenes Detection Task. MediaEval 2011.

7. Thành viên chủ chốt

- PGS. TS. Dương Anh Đức (ĐH. CNTT)

- PGS. TS. Lê Đình Duy (ĐH. CNTT)

- TS. Ngô Đức Thành (ĐH. CNTT)

- Ths. Lâm Quang Vũ (ĐH. KHTN)

- Ths. Phan Lê Sang (ĐH. KHTN)

- CN. Đỗ Văn Tiến (ĐH. CNTT)

Cùng với sự hợp tác của Video Processing Lab - National Institute of Informatics, Japan (http://www.satoh-lab.nii.ac.jp/)
Comments