Quem garante que não usam os nossos dados? Ninguém mais vai precisar garantir: qualquer dado sensível inserido abaixo é desidentificado. O código é aberto, pode conferir.
Como usar: inclua qualquer dado sensível (verdadeiro ou falso) na forma de texto, sem qualquer organização ou formatação. A resposta será o texto limpo, sem o dado sensível, com uma máscara indicando o seu tipo. É capaz de identificar temas controversos, como raça, opinião política, religião.
Qualquer dúvida, fale comigo! (e me fala também se não funcionar!)
Sobre o Projeto
- O Tucano Voraz é uma ferramenta de anonimização de texto projetada para identificar e remover informações pessoais sensíveis (PII) de documentos em português. Em um mundo onde vazamentos de dados são cada vez mais comuns, proteger informações pessoais tornou-se essencial.
- Será que não estou roubando seus dados? O código é aberto, qualquer um pode conferir (pegue o código e coloque no ChatGPT e confira!).
Funcionalidades:
- Detecção automática de dados sensíveis em texto em português
- Mascaramento de informações pessoais com tags específicas
- Preservação da estrutura e contexto do documento original
- Compatibilidade com requisitos da LGPD (Lei Geral de Proteção de Dados)
Aplicações:
- Conformidade regulatória: atenda aos requisitos da LGPD e regulamentos de privacidade
- Compartilhamento seguro: compartilhe documentos sem expor dados sensíveis
- Proteção preventiva: reduza riscos de vazamentos de dados pessoais
- Preparação de dados: para processamento seguro por sistemas de terceiros
Tipos de Dados Detectados
O modelo detecta e mascara diversos tipos de dados pessoais, incluindo:
Tipo de Dado | Tag | Exemplo |
---|---|---|
CPF/CNPJ | [SSN_CPF] |
123.456.789-00 → [SSN_CPF] |
RG | [ID_RG] |
12.345.678-9 → [ID_RG] |
Nome | [FIRST_NAME] [MIDDLE_NAME] [LAST_NAME] |
João Silva → [FIRST_NAME] [LAST_NAME] |
Endereço | [STREET_NAME] [BUILDING_NB] |
Rua Aurora, 123 → [STREET_NAME], [BUILDING_NB] |
Bairro | [NEIGHBORHOOD] |
Jardim Paulista → [NEIGHBORHOOD] |
Cidade | [CITY] |
São Paulo → [CITY] |
Estado | [STATE] [STATE_ABBR] |
São Paulo/SP → [STATE]/[STATE_ABBR] |
CEP | [ZIPCODE_CEP] |
01234-567 → [ZIPCODE_CEP] |
Telefone | [PHONE] |
(11) 98765-4321 → [PHONE] |
Data de nascimento | [BIRTHDATE] |
15/03/1980 → [BIRTHDATE] |
Cartão de crédito | [CREDITCARD] |
5432-1098-7654-3210 → [CREDITCARD] |
PIS/PASEP | [SOCIAL_NB_PIS] |
123.45678.90-1 → [SOCIAL_NB_PIS] |
Dados médicos | [MEDICAL_DATA] |
Diagnóstico de hipertensão → [MEDICAL_DATA] |
Raça/Etnia | [RACE_OR_ETHNICITY] |
Pardo → [RACE_OR_ETHNICITY] |
Opinião Política | [POLITICAL_OPINION] |
Apoiador do partido X → [POLITICAL_OPINION] |
Convicção Religiosa | [RELIGIOUS_CONVICTION] |
Católico → [RELIGIOUS_CONVICTION] |
Afiliação Organizacional | [ORGANIZATION_AFFILIATION] |
Membro do sindicato Y → [ORGANIZATION_AFFILIATION] |
Dados Sexuais | [SEXUAL_DATA] |
Orientação sexual → [SEXUAL_DATA] |
Nota sobre Privacidade:
🔒 Todos os dados são processados localmente e não são armazenados. Seu texto e dados sensíveis não são retidos após o processamento.
Me siga no LinkedIn! LinkedIn | © Apache 2.0 2025 Arthur Souza Rodrigues