# Tasks **Repository Path**: CSIG-MiniProject-SYSU/Tasks ## Basic Information - **Project Name**: Tasks - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-05-06 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README week2 ## 已完成任务 ## 1. 利用winAPI设置钩子,当新窗口出现时捕获消息并获得其句柄,利用窗口句柄得到相关属性(窗口标题、类名、位置)及桌面截图供判断算法使用 2. OCR:文字不是通过 Windows 原生控件创建和显示的,则需要光学字符识别 测试腾讯OCR SDK:对于成段或在同行的规范印刷字识别成功率很高,艺术字体基本识别不出,按列沿竖直方向排列的文本识别效果不好,同时对于在同一高度的多个短句的识别很难识别出完整句子 3. 爬虫搜集广告/热点资讯/头条标题文本数据 4. 基于图像的游戏广告类弹窗判别算法:艺术字体一般存在于广告(譬如游戏广告),这类广告有个特点,就是图片色阶比较多,分布比较均匀,利用灰度直方图将其与一般弹窗区分 ## 正在进行 ## 1. 文本数据关键词提取 ## 待解决问题 ## 1. 基于图像判别骚扰弹窗的其他算法 2. 部分文本数据标注 3. 对弹窗文本(找大量广告和新闻文本)做特征提取,从比词法更高的层次入手,实现判断 4. 各部分内容(使用了不同语言)整合: