# article_quantify

**Repository Path**: konger520/article_quantify

## Basic Information

- **Project Name**: article_quantify
- **Description**: 一个使用纯数据统计的方式来做文章内容预测的系统
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-12-31
- **Last Updated**: 2026-01-07

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Article Quantify - 智能爆款内容量化系统

## 💡 项目简介

这是一个为内容创作者和运营者打造的**智能内容评估系统**。

它致力于解决一个行业痛点：**如何在没有账号后台权限（看不到粉丝数、无法追踪实时数据）的情况下，精准判断一篇文章是否属于真正的“爆款”？**

通过引入 **RPI 2.0 (相对效能指数)**、**语义向量分析** 和 **贝叶斯平滑** 技术，本系统能像“透视眼”一样，穿透账号体量（大号/小号）和发布时间（新文/旧文）的迷雾，还原内容的真实质量，帮助您发现那些被数据掩盖的优质选题。

---

## 🚀 核心价值

### 1. 突破“数据黑盒” —— 不看粉丝数也能评测
*   **痛点**：在公众号等公开平台上，我们无法得知账号的具体粉丝数。一篇阅读量 5000 的文章，在粉丝 100万 的大号上是“事故”，但在粉丝 500 的新号上是“奇迹”。
*   **解决方案**：系统采用**双重基准机制 (Dual Baseline)**。
    *   自动分析该账号的历史表现，建立专属基准。
    *   对于新账号，自动对标同赛道的平均水平。
    *   **结果**：我们不看绝对阅读量，只看它是否**超越了自身层级**。

### 2. 消除“时间偏差” —— 让新老文章同台竞技
*   **痛点**：采集数据时，有的文章刚发 1 小时，有的发了 3 天，直接对比阅读量极不公平。
*   **解决方案**：内置**生命周期投影算法 (Lifecycle Projection)**。
    *   基于大盘数据，模拟文章流量衰减曲线。
    *   自动将所有文章的阅读量“投影”为最终潜在阅读量。
    *   **结果**：刚发布的好文章也能迅速被识别出来。

### 3. 语义级精准对标 (✨ New!)
*   **痛点**：把硬核的“Python教程”和大众化的“情感鸡汤”放在一起比阅读量，不仅不公平，还会误导选题方向。
*   **解决方案**：集成 **语义向量化技术 (Semantic Vectorization)**。
    *   **原理**：系统在分析时，会自动将文章标题和分类转化为高维向量（TF-IDF）。
    *   **智能匹配**：利用 KNN 算法，在库中瞬间找到内容最相似的 5-10 篇“邻居”文章。
    *   **结果**：系统会告诉你：“相比于写过类似话题的文章，这篇的表现如何？” —— 这才是最真实的竞争力。

### 4. 解决“小样本偏差” (✨ New!)
*   **痛点**：某些冷门技巧或话题只有 1-2 篇文章，如果其中一篇偶然成为爆款，会导致该技巧在统计榜单上虚高第一，误导决策。
*   **解决方案**：引入 **贝叶斯平滑算法 (Bayesian Smoothing)**。
    *   **原理**：给所有统计数据引入一个“全局平均引力”。
    *   **智能修正**：当样本量过少时，得分会被自动“拉”向全局平均值；只有当样本量足够大且表现持续优秀时，才能真正霸榜。
    *   **结果**：彻底消除偶然性，呈现更具统计学意义的决策依据。

---

## 🛠️ 快速开始

只需简单三步，即可在本地搭建您的专属分析看板。

### 1. 环境准备
确保您的电脑已安装 Python 3.10 或以上版本。

```bash
# 安装项目依赖
pip install -r requirements.txt
```

### 2. 初始化与数据模拟
为了让您立刻体验系统能力，我们准备了一个强大的数据模拟器，它会生成包含不同权重账号、不同发布时间、不同内容质量的仿真数据。

```bash
# 重置数据库并生成 100+ 条模拟数据
python reset_db.py
```

### 3. 启动服务
启动后端 API 服务：

```bash
uvicorn app.main:app --reload
```

服务启动后，打开浏览器访问可视化看板：
👉 **http://127.0.0.1:8000/static/dashboard.html**

---

## 🧠 技术原理 (简述)

本系统采用**全自动、本地化**的高性能架构：

*   **异步高性能架构**：核心计算服务采用 `ThreadPool` 隔离 CPU 密集型任务，确保在高并发下 API 依然秒级响应。
*   **实时智能分析**：当您打开看板时，系统会实时加载数据，运行 `scikit-learn` 算法进行语义聚类、RPI 计算及贝叶斯修正。
*   **隐私安全**：所有算法均在本地运行，无需上传数据到外部 AI 接口，完全保障数据隐私。

---

## 📂 项目结构

```text
article_quantify/
├── app/
│   ├── services/analysis_service.py  # 核心大脑：包含 RPI 算法、向量化逻辑及贝叶斯平滑
│   ├── static/dashboard.html         # 可视化看板：直观展示分析结果 (四象限气泡图等)
│   └── ...
├── mock_data.py                      # 模拟数据生成器 (账号分层逻辑)
├── reset_db.py                       # 一键重置脚本
└── requirements.txt                  # 依赖列表
```