Blacklist do Dansguardian

Visualizando 24 respostas da discussão
  • Autor
    Posts
    • #152
      Albaney Baylão
      Participante

      Criei um filtro de conteúdo e atribuí a uma access policy no dansguardian pela web. Indiquei para o dansguardian bloquear sites adultos em “Filter pages known to have content of the following categories. (URL Blacklist)” no entanto ele não está bloqueando o site playboy.com.

      Encontrei uma blacklist no diretório /etc/dansguardian/blacklist e nos arquivos que existem lá há uma referência ao site da playboy, mas nenhum dos sites que existem lá são bloqueados.

      Alguém sabe como resolve isso?


      Wireguard_webadmin

      Sistema gratuito (Open Source) para gestão de VPN's WireGuard com uma Web interface intuitiva e fácil de usar.

      Principais funcionalidades:

      - Sistema de Firewall completo e flexível.
      - Encaminhamento de portas
      - Suporte a multi usuário com níveis diferentes de acesso
      - Múltiplas instâncias do Wireguard
      - Crypto key routing para configuração de VPN site-to-site

      O projeto é Open Source, fácil de instalar e está disponível em wireguard_webadmin

    • #3989
      Eduardo Silva
      Participante

      Siga os logs do squid / dansguardian e confirme se os acessos estão passando através do proxy.

      []’s

    • #3990
      Albaney Baylão
      Participante

      Estão passando pelo proxy, sim. Se no mesmo filtro de conteúdo eu habilitar o PICS e/ou “Filters pages containing phrases of the following categories. (Content Filtering)” ele bloqueia vários sites por estes critérios, ele só não bloqueia se eu habilitar apenas a opção da URL blacklist.

    • #3991
      Albaney Baylão
      Participante

      Por exemplo, fiz o acesso ao site da playboy e recebi apenas dois DENIED no log do filtro de conteúdo e nenhum deles do site da playboy, mas sim de do googles-analytics e um do scorecardresearch.com.

      Filtro d.. 2010-03-30 13:13:25 127.0.0.2 192.168.55.1 http://www.google-analytics.com/__utm.gif?utmwv=4.6.5&utmn=3 01763536&utmhn=www.playboy.com&utmcs=UTF-8&utmsr=1680×1050&u tmsc=32-bit&utmul=pt-br&utmje=1&utmfl=10.0%20r42&utmdt=Nude% 20Girls%2C%20Naked%20Women%2C%20Hot%20Girls%2C%20Sexy%20Wome n%2C%20Nude%20Pics%2C%20Naked%20Videos%2C%20Playmates%2C%20C yber%20Girls%2C%20Centerfolds%2C%20Playboy%20Magazine%2C%20C elebs%2C%20Entertainment%2C%20Playboy.com&utmhid=917614028&u tmr=-&utmp=%2F&utmac=UA-6729656-1&utmcc=__utma%3D3622513.157 7946117.1269892979.1269959505.1269965145.5%3B%2B__utmz%3D362 2513.1269892979.1.1.utmcsr%3D(direct)%7Cutmccn%3D(direct)%7C utmcmd%3D(none)%3B *DENIED* Banned Regular Expression URL: (adultos|adultsight|adultsite|adultsonly|adultweb|blow-?job| bondage|centerfold|cumshot|cyberlust|cybercore|hardcore|ince st|masturbat|obscene|pedophil|pedofil|playmate|pornstar|sexd ream|showgirl|softcore|striptease) GET 0 0 2 403 – Proibe Bastante content2 –

      Filtro d.. 2010-03-30 13:13:25 127.0.0.2 192.168.55.1 http://b.scorecardresearch.com/b?c1=2&c2=6151957&rn=0.622013 2885500789&c7=http%3A%2F%2Fwww.playboy.com%2F&c3=&c4=&c5=&c6 =&c10=&c15=&c16=&c8=Nude%20Girls%2C%20Naked%20Women%2C%20Hot %20Girls%2C%20Sexy%20Women%2C%20Nude%20Pics%2C%20Naked%20Vid eos%2C%20Playmates%2C%20Cyber%20Girls%2C%20Centerfolds%2C%20 Playboy%20Magazine%2C%20Celebs%2C%20Entertainment%2C%20Playb oy.com&c9=&cv=1.7 *DENIED* Banned Regular Expression URL: (adultos|adultsight|adultsite|adultsonly|adultweb|blow-?job| bondage|centerfold|cumshot|cyberlust|cybercore|hardcore|ince st|masturbat|obscene|pedophil|pedofil|playmate|pornstar|sexd ream|showgirl|softcore|striptease) GET 0 0 2 403 – Proibe Bastante content2 –

    • #3992
      Albaney Baylão
      Participante

      E já que estou pertubando, deixa eu acrescentar uma coisa. Apesar de eu ter desmarcado o PICS e não ter selecionado nenhum opção no trecho “Filters pages containing phrases of the following categories.” e só ter opções marcadas em “Filter pages known to have content of the following categories. (URL Blacklist)” eu recebo várias proibições por URLs com termos como oral ou tit. Segue um log de exemplo.

      2010-03-30 13:26:47 127.0.0.2 192.168.55.1 http://crisete.bebeblog.com.br/10253/SA-DE-ORAL-NA-INF-NCIA/ *DENIED* Banned Regular Expression URL: (^|[-.\?+=/_0-9])(all|big|cute|cyber|fake|firm|hard|huge|li ttle|mega|mini|naughty|new|old|pure|real|small|serious|soft| super|tiny|young)?(anal|babe|bharath|boob|breast|busen|busty |clit|cum|cunt|dick|fetish|fuck|hooter|lez|lust|naked|nude|o ral|orgy|porno?|pupper|pussy|rotten|sex|shit|smutpump|teen|t it|topp?les|vixen|xxx)s?(cafe|site|surf|surfing|web|website) ?([-.\?+=/_0-9]|$) GET 0 0 2 403 – Proibe Bastante content2 – o

    • #3993
      Eduardo Silva
      Participante

      Albaney qual o “Max. score for phrases” que você definiu? Jogue com este valor até ficar satisfeito com o resultado.

      Outra coisa, este bloqueio que você citou é do squid e não do dansguardian.

      Bloquear apenas por blacklist não é muito efetivo, um sistema complementa o outro.

      É normal que você encontre falsos positivos, controle de conteúdo não é uma ciência exata, sempre haverá a chance de erros.

      Por este motivo, você tem a possibilidade de criar uma blacklist / whitelist personalizada.

      []’s

    • #3994
      Albaney Baylão
      Participante

      Ok, eduardo, eu estou chamando de Dansguardian simplesmente a parte da administração Web do Endian relativa a controle de conteúdo. O meu max score é de 300.

      Deixa eu dizer exatamente o que eu preciso, e preciso bastante, para ver se você pode me ajudar:

      a) que o endian não faça bloqueio por URL

      Bloqueio por URL sempre trava mais do que deveria. (Bloquear tit e oral em português não tem sentido)

      b) que eu possa ter uma blacklist dentro de um único arquivo do endian com os sites que eu preciso bloquear, pois pela interface eu tenho que repetir a lista de sites proibidos em cada um dos profiles, e eu tenho que ter vários profiles.

    • #3995
      Albaney Baylão
      Participante

      Um detalhe, durante estes meus testes o PICS está desmarcado e portando o max score não tem função.

    • #3996
      Albaney Baylão
      Participante

      Chego a conclusão de que é efetivamente um bug do Endian. Entrei no diretório /etc/dansguardian/blacklists/porn e alterei o arquivo expressions, retirando dele as palavras tit, sex e oral, e após restartar o dansguardian ele parou de bloquear urls que possuíam estas palavras. No entanto nenhum dos domínios presentes no arquivo domains ou urls presentes no arquivo urls do mesmo diretório estão sendo bloqueadas.

    • #3997
      Albaney Baylão
      Participante

      Acabei descobrindo outro bug no Endian. Não consigo limpar a minha blacklist através da interface web. Eu consigo modificar a blacklist personalizada mas não consigo apagá-la.

    • #3998
      Eduardo Silva
      Participante

      Caro albaney,

      O Max Score é referente ao Dansguardian é válido mesmo sem habilitar o PICS

      Este valor afeta diretamente no funcionamento do dansguardian.

      Acredito que você esteja um pouco confuso com o funcionamento do dg, afinal ele não bloqueia um website inteiro por uma única ocorrência de palavra. Ele faz um somatório das palavras que encontra no site, para cada palavra, um score, ao atingir o score definido como limite, o website é bloqueado.

      Me dê alguns exemplos de endereços que estão sendo bloqueados que eu vou te ajudar a entender o motivo do bloqueio.

      Coloque os endereços sem http://www. exemplo: endian.eth0.com.br/topic/blacklist-do-dansguardian

      > b) que eu possa ter uma blacklist dentro de um único arquivo do endian

      Crie uma access policy para servir como blacklist global, nela insira os domínios que devem ser bloqueados.

      Certifique-se que esta access policy fique acima das outras politicas de conteúdo.

      > Entrei no diretório /etc/dansguardian/blacklists/porn e alterei o arquivo expressions, retirando dele as palavras tit, sex e oral,

      Muito mal, você não está resolvendo o problema, e sim tentando contornar de um forma incorreta.

      Não esqueça que mesmo falando Português, nossos “queridos” usuários tem a mania de acessar sites pornôs em qualquer lingua.

      Remover palavras do dansguardian só vai prejudicar na classificação de páginas, dando scores mais baixos do que deveria.

      acompanhe os logs do dg em /var/log/dansguardian/access.log para verificar de uma forma mais detalhada o que está se passando em cada bloqueio.

      > Acabei descobrindo outro bug no Endian. Não consigo limpar a minha blacklist através da interface web. Eu consigo modificar a blacklist personalizada mas não consigo apagá-la.

      Além das expressões do dg, você editou mais algum arquivo manualmente? Acabei de testar a minha blacklist/whitelist e está funcionando como deveria. Removendo e inserindo entradas sem problemas.

    • #3999
      Albaney Baylão
      Participante

      Vamos lá, Eduardo.

      A) PICS e Max Score

      Entendo o que você falou, mas o problema é que além de desabilitar o PICS desabiltei tambem todas as opções do “Filters pages containing phrases of the following categories. (Content Filtering)”.

      Para os testes que estou fazendo, isto é adequado e nenhuma página está sendo bloqueada por que ultrapasse o Max Score. O meu problema aqui é ele não bloquear sites como o playboy.com, apesar de eu estar com a opção Porn marcada em “Filter pages known to have content of the following categories. (URL Blacklist)”

      B) Aqui ou eu não entendi nada de Access Policy ou você não entendeu bem o que eu quero. Eu tenho uma lista razoavelmente grandes de sites que eu proibo todos os computadores de acessarem. Hoje eu tenho três filtros de acesso que eu utilizo aqui no trabalho.

      O Filtro 1 tem todos estes sites que eu proibo (uns 5000) colocados no campo blacklist

      O Filtro 2 tem todos estes sites mais o que os alunos não podem acessar de jeito nenhum (orkut, facebook, e outros deste tipo) mais uns 500

      O Filtro 3 tem todos estes sites e mais uns 500 que eles não podem acessar na biblioteca do colégio mas que podem acessar no laboratório sob supervisão.

      Como são muitos sites, colocar no campo DESTINY da access policy ficaria muito, muito confuso. Concorda?

      C) Você acha que eu fiz mal, mas eu considero que a configuração padrão do endian é que faz muito mal. O bloqueio por URL é um equivoco. Não posso proibir meus alunos de fazerem pesquisas sobre saúde oral. Até fazer uma pesquisa sobre sexo é importante que eles façam. E não posso receber um monte de mensagem de erros simplesmente por que há um tit na URL!

      Mas de qualquer forma há um equívoco na sua interpretação. O Endian faz classificação de palavras no conteúdo somando e proibindo apenas os textos que ultrapassam determinado limite (e aí realmente tirar tit, sexo e oral prejudicaria a classificação). Mas não foi isso que eu fiz. O Endian além disso ele faz bloqueios por URL e aí ele não faz classificação: tem tit na url, ele bloqueia. tem oral na url, ele bloqueia. Isso pra mim é inaceitável. Por isso mudei o arquivo expressions (que não interfere em nada na classificação) a classificação é controlada pelos arquivos no diretório phraselists.

      D) O único arquivo que eu alterei na mão foi aquele. Mais nada. A minha instalação é nova por que a antiga teve problemas.

    • #4000
      Albaney Baylão
      Participante

      Note que nos logs que eu copiei o erro é sempre “*DENIED* Banned Regular Expression URL” e do lado a expressão regular que originou o bloqueio.

      Note que quando o bloqueio é por que ele excede o Max Score a mensagem de erro no log possui sempre “*DENIED* Weighted phrase limit of XXX : YYYY”

      Eu não quero o primeiro tipo de bloqueio, e por isso mudei o expressions. Mas de qualquer forma ele não está bloqueando nenhum site que esteja no arquivo domains no mesmo diretório….

    • #4001
      Albaney Baylão
      Participante

      Com relação ao Bug, eu testei no site de demonstração do endian e o bug se repetiu.

      Passos para repetir o bug:

      A) na blacklist personalizada do filtro de conteúdo default coloque algum site

      B) crie um novo filtro de conteúdo e adicione algum site na blacklist personalizada salvando este novo filtro

      C) peça para alterar o filtro de conteúdo e esvazie a blacklist e mande salvar

      D) vefique que a blacklist não foi esvaziada e continua com o mesmo site que você havia criado.

    • #4002
      Albaney Baylão
      Participante

      Verifiquei que quando eu marco a opção “Porn” no meu dansguardian ele inclui no arquivo “/etc/dansguardian/profiles/2/bannedurllist” a linha “.Include</etc/dansguardian/blacklists/porn/urls>” mas não faz a inclusão no arquivo “/etc/dansguardian/profiles/2/bannedsitelist” da linha “.Include</etc/dansguardian/blacklists/porn/domains>” que seria necessário para que ele pudesse fazer o bloqueio dos domínios reconhecidamente pornográficos.

    • #4003
      Albaney Baylão
      Participante

      Após muito quebrar a cabeça e muita busca na Internet achei a solução para o problema:

      http://bugs.endian.com/view.php?id=2300

      Basicamente a solução é editar o arquivo /usr/local/bin/restartdansguardian.py e alterar as linhas 308 e 319:

      308: exceptionsitefile = open(“/etc/dansguardian/profiles/%s/exceptionsitelist” % number, “w”)

      319: bannedsitefile = open(“/etc/dansguardian/profiles/%s/bannedsitelist” % number, “w”)

      Substitua o “w” por “a”. Isto fará com que a lista de sites customizados seja adicionada a lista de sites padrão ao invés de sobrescrevê-la.

      Um abraço.

    • #4004
      Eduardo Silva
      Participante

      Albaney,

      Parando e relendo todo o tópico eu percebo que realmente eu te interpretei de uma forma incorreta.

      Lamento muito por isso, mas ao mesmo tempo fico satisfeito em saber que você conseguiu resolver o problema e principalmente em ver que você deu um feedback excelente sobre o assunto.

      > Observar que a fórmula de bloqueio por expressões, exige a palavra “sozinha”,

      exemplo.com.br/cat/tit/xyz seria bloqueado

      exemplo.com.br/cat/xtity não seria bloqueado.

      Neste caso, acho muito improvável que um website seja bloqueado incorretamente principalmente pela palavra tit. Também acredito que sex e oral dificilmente vão causar problemas.

      > Segui os passos que você informou e realmente ao remover todos os endereços da blacklist, esta não é atualizada corretamente.

      Anteriormente eu estava removendo apenas uma url, e por isso não via nenhum erro.

      Uma sugestão temporária para limpar a blacklist, é de manter um endereço que não influencie para os usuários ex:

      “placeholder.bogus”

      > Referente ao bug 2300, acabei de realizar esta modificação no meu endian, vou realizar novos testes.

      Novamente, muito obrigado pelo feedback de excelente qualidade.

      []’s

    • #4005
      Eduardo Silva
      Participante

      Apenas complementando,

      Uma outra sugestão não relacionada com o assunto, mas que poderia te ajudar um pouco, seria de customizar a página de bloqueio do endian e inserir um formulário para solicitar a revisão do site bloqueado.

      []’s

    • #4006
      Albaney Baylão
      Participante

      Bom dia, Eduardo. Não lamente por isso. Você se dispôs a me ajudar e pela sua ajuda eu tava topando até chute nas partes… 🙂

      Mas brincadeiras a parte deixa apenas eu ponderar um pouco as suas observações sobre o bloqueio por URL.

      Realmente ele não bloqueia a url exemplo.com.br/cat/xtity , mas em compensação ele bloqueia a url exemplo.com.br/cat/tit_relatorio_gerencial.html, assim como exemplo.com.br/cat/saude_oral_na_infancia.html. E vou te dizer, antes de mudar, 90% dos meus bloqueios eram por causa da url ter alguma coisa como “tit_”, ou seja, ele bloqueava direto títulos… A mesma coisa acontece muito com sex, principalmente em formulários que acabam gerando uma url com algo do tipo “…?sex=M”

      Com relação ao blacklist há um solução sem a necessidade de incluir um bogus. Ao limpar a blacklist altere também uma das opções do bloqueio por url. Salve que aí por causa da alteração no bloqueio por url o endian salva a blacklist vazia. Depois volte a opção alterada para o estado correto e salve novamente.

      Um abraço e obrigado pela disposição em ajudar.

    • #4007
      Bruno Vicente
      Participante

      Albaney,

      “…mas não faz a inclusão no arquivo “/etc/dansguardian/profiles/2/bannedsitelist” da linha “.Include</etc/dansguardian/blacklists/porn/domains>”

      Tentei resolver esta situação mas não consegui, baixei uma blacklist (urlblacklists) e a inseri no endian, após o procedimento notei que os bloqueios só eram executados no arquivo bannedurllist usando o aruivo urls, mas cadê o domains… mesmo gravando a linha Include<> diretamente no arquivo bannedsitelist sem sucesso.

      Só fazendo a alteração que disse no arquivo /usr/local/bin/restartdansguardian.py resolveria?

      Os endereços mais importantes para bloqueio encontram-se no arquivo domains e acho que não estou sabendo usá-lo.

    • #4008
      Albaney Baylão
      Participante

      Se você está usando a versão 2.3 você TEM QUE fazer a alteração no arquivo restartdansguardian.py senão ele NÃO vai fazer o bloqueio dos arquivos no domains.

    • #4009
      Bruno Vicente
      Participante

      Obrigado pela resposta, vou fazer as alterações que indicou e volto para postar o resultado, mas primeiro vou terminar de restaurar o backup, já que reinstalei o sistema. Solução em fase de testes é assim mesmo.

    • #4010
      Bruno Vicente
      Participante

      Mais uma vez obrigado Albaney, tudo funcionando, agora só acertar os detalhes. O meu objetivo é trabalhar com essas listas prontas, apenas fazendo ajustes manualmente quando necessário.

      Vou procurar ajustar o sistema de frases e tentar as expressões regulares. Alguma dica sobre esta última.

    • #4011
      Albaney Baylão
      Participante

      Sobre esta última uma opinião: não use. Bloquear por que na URL você possui uma ou mais palavras é pedir para ter mais falsos negativos do que deveria. Se uma URL é bloqueada por que nela constam uma ou mais palavras que indiquem a proibição, então é muito mais provável que a página já seja bloqueada pelo conteúdo.

    • #4012
      Bruno Vicente
      Participante

      Com certeza levarei em conta sua opinião, devo dizer que, farei somente os ajustes na pontuação das palavras e acrescentar algumas. Obrigado novamente.

      Estou gostando muito da solução, espero aprender bastante e poder ajudar o pessoal por aqui também.

Visualizando 24 respostas da discussão
  • O tópico ‘Blacklist do Dansguardian’ está fechado para novas respostas.