An Unsupervised Detection Framework for Chinese Jargons in the Darknet

计算机科学 行话 文字嵌入 相似性(几何) 构造(python库) 词(群论) 自然语言处理 人工智能 质量(理念) 嵌入 语言学 图像(数学) 认识论 哲学 程序设计语言
作者
Liang Ke,Xinyu Chen,Haizhou Wang
标识
DOI:10.1145/3488560.3498469
摘要

With the continuous development of the darknet technology, the scale of darknet and have increased rapidly in recent years, leading to rampant crime in these anonymous trading markets. Monitoring these markets can effectively combat the criminal forces that hide behind them. One of the difficulties in understanding the darknet is that criminals usually use jargons to disguise transactions and thus avoid surveillance. These jargons usually distort the original meaning of innocent-looking words in obscure ways, posing significant challenges for crime tracking. Current research on Chinese jargon detection mainly adopts the method of keyword filtering, however, such methods have little effect on the complex and ever-changing structure of darknet jargons. We propose a Chinese jargon detection framework based on unsupervised learning. The main idea is to compare similarity with high-dimensional word embedding features from different corpus to find jargons. Firstly, we collect data from six Chinese Tor websites to build a dark corpus dataset. Afterwards, we build a word-based pre-training model called DC-BERT, which can generate high-quality contextual word embeddings. Finally, we construct a cross-corpus jargon detection framework based on similarity analysis, which can effectively detect Chinese jargons in the darknet. The experimental results show that the proposed framework is both innovative and practical, reaching a detection accuracy of 91.5%.
最长约 10秒,即可获得该文献文件

科研通智能强力驱动
Strongly Powered by AbleSci AI
科研通是完全免费的文献互助平台,具备全网最快的应助速度,最高的求助完成率。 对每一个文献求助,科研通都将尽心尽力,给求助人一个满意的交代。
实时播报
种草匠完成签到,获得积分10
1秒前
安和桥北完成签到 ,获得积分10
1秒前
lin完成签到,获得积分10
2秒前
萨格完成签到 ,获得积分10
2秒前
yin完成签到,获得积分10
3秒前
杨宁完成签到 ,获得积分10
3秒前
lzl007完成签到 ,获得积分10
4秒前
爱吃秋刀鱼的大脸猫完成签到,获得积分10
5秒前
5秒前
sunyexuan完成签到,获得积分10
6秒前
無期完成签到 ,获得积分10
6秒前
田二亩完成签到,获得积分10
7秒前
bkagyin应助ruixuekuangben采纳,获得10
9秒前
高山我梦完成签到,获得积分10
9秒前
小兵完成签到,获得积分10
10秒前
10秒前
义气高丽完成签到 ,获得积分10
10秒前
sczsjrhyy完成签到,获得积分10
11秒前
贾舒涵发布了新的文献求助10
12秒前
忞航完成签到 ,获得积分10
12秒前
饮一杯为谁丶完成签到,获得积分10
13秒前
14秒前
小马甲应助大哥我猪呢采纳,获得10
14秒前
css完成签到,获得积分10
14秒前
xiaobai完成签到,获得积分10
15秒前
jing完成签到,获得积分10
15秒前
何果果完成签到,获得积分10
15秒前
安静的乐松完成签到,获得积分10
16秒前
动漫大师发布了新的文献求助30
16秒前
莫离完成签到,获得积分10
16秒前
希望天下0贩的0应助001采纳,获得10
16秒前
An完成签到,获得积分10
17秒前
ZS完成签到,获得积分10
18秒前
Shaw完成签到 ,获得积分10
18秒前
京城第一社恐完成签到,获得积分10
18秒前
AXEDW完成签到,获得积分10
18秒前
温暖完成签到 ,获得积分10
18秒前
19秒前
崔尔蓉完成签到,获得积分10
20秒前
张朝程完成签到,获得积分10
20秒前
高分求助中
Les Mantodea de Guyane Insecta, Polyneoptera 2500
Mobilization, center-periphery structures and nation-building 600
Technologies supporting mass customization of apparel: A pilot project 450
China—Art—Modernity: A Critical Introduction to Chinese Visual Expression from the Beginning of the Twentieth Century to the Present Day 430
Tip60 complex regulates eggshell formation and oviposition in the white-backed planthopper, providing effective targets for pest control 400
A Field Guide to the Amphibians and Reptiles of Madagascar - Frank Glaw and Miguel Vences - 3rd Edition 400
China Gadabouts: New Frontiers of Humanitarian Nursing, 1941–51 400
热门求助领域 (近24小时)
化学 材料科学 医学 生物 工程类 有机化学 物理 生物化学 纳米技术 计算机科学 化学工程 内科学 复合材料 物理化学 电极 遗传学 量子力学 基因 冶金 催化作用
热门帖子
关注 科研通微信公众号,转发送积分 3792657
求助须知:如何正确求助?哪些是违规求助? 3336933
关于积分的说明 10282572
捐赠科研通 3053784
什么是DOI,文献DOI怎么找? 1675684
邀请新用户注册赠送积分活动 803730
科研通“疑难数据库(出版商)”最低求助积分说明 761510