Начало Дейности и проекти Изработване на методика за лингвистичен анализ на съдържанието на неподходящите за деца Уеб сайтове

Изработване на методика за лингвистичен анализ на съдържанието на неподходящите за деца Уеб сайтове PDF Print E-mail

Цел: За правилна (поставянето на сайта в подходящия списък) категоризация на Уеб сайтовете е необходимо задълбочен анализ на съдържанието им. Опитът на фондация „Делфин” показа, че чрез просто търсене на определени думи в съдържанието на сайтовете не се постигат задоволителни резултати. Целта на този проект е да определи начина, по който е необходимо да се извършва проверката на съдържанието.

Постигнати резултати: Фондация „Делфин” стигна до извода, че е необходим лингвистичен анализ на съдържанието, за да се постигне правилна категоризация на сайтовете. Подходящ алгоритъм е така нареченото "naive bayes"филтриране. Първоначално се съставят по два списъка за всяка една от интересуващите ни категории: списък със сайтове, които трябва да попаднат в тази категория и списък със сайтове, които не трябва да са в тази категория. Например, за категорията на порно сайтовете, ще се създаде списък, съдържащ сайтове, които знаем със сигурност, че са порно, и един списък със сайтове, за които със сигурност знаем, че не са порно. Колкото са по-големи списъците, толкова по добре. Това ще са „обучителните данни”. След това се създава софтуерна програма, която извлича съдържанието на всеки един от сайтовете в предварителните списъци, маха форматиращото съдържание (HTML, JavaScript и т.н.), разделя текста на думи и ги преброява. Така се събира статистика какви са най-често срещаните думи в порно сайтовете (и в другите интересуващи ни категории) и кои от тези думи най-рядко се срещат в не-порно сайтовете. Така се стига до изграждането на математическа вероятност при наличието на дадена дума какъв е шансът сайта да е с порнографско съдържание. След това тези математически уравнения ще бъдат имплементирани в Уеб робота, койот фондация „Делфин” създаде през 2007-2008 г. Роботът, при наличието на страница, за която няма данни ли е порно или не е, ще извлече съдържанието й, ще махне форматиращите елементи, ще разцепи текста на думи и ще ги преброи. Като постави получените резултати в математическите „Bayes’” уравнения, ще се получи вероятността дадената страница да притежава порнографско съдържание. Процесът е, разбира се, доста по-сложен. Задават се много други данни като какъв е процентът на порно сайтовете въобще, каква е вероятността потребителят да попадне случайно на порно сайт и т.н.

Фондация „Делфин” силно се надява, че резултатът ще бъде правилна категоризация на българските Уеб сайтове. Съставените от Уеб робота списъци със сайтове ще бъдат използвани в програмата Child Defender. Ще бъдат предоставяни и за безплатно сваляне от сайта www.childdef.com. Списъците ще бъдат постоянно обновявани и нова версия ще се предлага веднъж месечно.
 

Търсете

Предстоящи събития

There are no events at this time

Анкета

Влиза ли детето Ви в Интернет през мобилния си телефон?
 
delfinfnd.org | Уеб сайт изработка и дизайн от Алфа Сорс | Адвокастки услуги и правна помощ