| Изработване на методика за лингвистичен анализ на съдържанието на неподходящите за деца Уеб сайтове |
|
|
|
|
Цел: За правилна (поставянето на сайта в подходящия списък) категоризация на Уеб сайтовете е необходимо задълбочен анализ на съдържанието им. Опитът на фондация „Делфин” показа, че чрез просто търсене на определени думи в съдържанието на сайтовете не се постигат задоволителни резултати. Целта на този проект е да определи начина, по който е необходимо да се извършва проверката на съдържанието. Постигнати резултати: Фондация „Делфин” стигна до извода, че е необходим лингвистичен анализ на съдържанието, за да се постигне правилна категоризация на сайтовете. Подходящ алгоритъм е така нареченото "naive bayes"филтриране. Първоначално се съставят по два списъка за всяка една от интересуващите ни категории: списък със сайтове, които трябва да попаднат в тази категория и списък със сайтове, които не трябва да са в тази категория. Например, за категорията на порно сайтовете, ще се създаде списък, съдържащ сайтове, които знаем със сигурност, че са порно, и един списък със сайтове, за които със сигурност знаем, че не са порно. Колкото са по-големи списъците, толкова по добре. Това ще са „обучителните данни”. След това се създава софтуерна програма, която извлича съдържанието на всеки един от сайтовете в предварителните списъци, маха форматиращото съдържание (HTML, JavaScript и т.н.), разделя текста на думи и ги преброява. Така се събира статистика какви са най-често срещаните думи в порно сайтовете (и в другите интересуващи ни категории) и кои от тези думи най-рядко се срещат в не-порно сайтовете. Така се стига до изграждането на математическа вероятност при наличието на дадена дума какъв е шансът сайта да е с порнографско съдържание. След това тези математически уравнения ще бъдат имплементирани в Уеб робота, койот фондация „Делфин” създаде през 2007-2008 г. Роботът, при наличието на страница, за която няма данни ли е порно или не е, ще извлече съдържанието й, ще махне форматиращите елементи, ще разцепи текста на думи и ще ги преброи. Като постави получените резултати в математическите „Bayes’” уравнения, ще се получи вероятността дадената страница да притежава порнографско съдържание. Процесът е, разбира се, доста по-сложен. Задават се много други данни като какъв е процентът на порно сайтовете въобще, каква е вероятността потребителят да попадне случайно на порно сайт и т.н. Фондация „Делфин” силно се надява, че резултатът ще бъде правилна категоризация на българските Уеб сайтове. Съставените от Уеб робота списъци със сайтове ще бъдат използвани в програмата Child Defender. Ще бъдат предоставяни и за безплатно сваляне от сайта www.childdef.com. Списъците ще бъдат постоянно обновявани и нова версия ще се предлага веднъж месечно. |


