CrawlArticle(string url) { var dom = await HttpHelper.GetHtmlDocument(url); var data = new Article { Title = dom.QuerySelector("#cb_post_title_url").TextContent, Source = "来源", Content = dom.QuerySelector(".postBody").TextContent, Link = url, PublishTime = DateTime.Parse(dom.QuerySelector("#post-date").TextContent), AddTime = DateTime.Now, Author = dom.QuerySelector(".postDesc a").TextContent }; return data; } ``` 还有遇到大量数据的时候怎么办呀，这时候就要上并行任务了，C#对比python高性能的优势就体现出来了，上代码： ```c# public static async Task> CrawlList2(int page = 10) { var http = HttpHelper.Client; var parser = new HtmlParser(); var data = await Task.WhenAny( Enumerable.Range(1, page) .Select(async page => { string pageData = await http.GetStringAsync($"https://www.cnblogs.com/sitehome/p/{page}"); IHtmlDocument doc = await parser.ParseDocumentAsync(pageData); return doc.QuerySelectorAll(".post_item").Select(tag => new CnBlogListArticle { Title = tag.QuerySelector(".titlelnk").TextContent, Page = page, UserName = tag.QuerySelector(".post_item_foot .lightblue").TextContent, PublishTime = DateTime.Parse(Regex.Match(tag.QuerySelector(".post_item_foot").ChildNodes[2].TextContent, @"(\d{4}\-\d{2}\-\d{2}\s\d{2}:\d{2})", RegexOptions.None).Value), CommentCount = int.Parse(tag.QuerySelector(".post_item_foot .article_comment").TextContent.Trim()[3..^1]), ViewCount = int.Parse(tag.QuerySelector(".post_item_foot .article_view").TextContent[3..^1]), BriefContent = tag.QuerySelector(".post_item_summary").TextContent.Trim(), }); })).ConfigureAwait(true); return new List(await data); } ``` 还可以利用`IEnumerable`的`AsParallel()`方法将LINQ并行化。不展开了。 ### 其他参考 - [手把手教你用.NET Core写爬虫 - 知乎 ](https://zhuanlan.zhihu.com/p/24151412) - [1. 第一个简单的爬虫 · dotnetcore/DotnetSpider Wiki](https://github.com/dotnetcore/DotnetSpider/wiki/1.-%E7%AC%AC%E4%B8%80%E4%B8%AA%E7%AE%80%E5%8D%95%E7%9A%84%E7%88%AC%E8%99%AB) - [DotNet应用之爬虫入门系列（一）：从.Net走进爬虫世界 - 知乎 ](https://zhuanlan.zhihu.com/p/77599246) - [DotNet应用之爬虫入门系列（二）：HttpClient的前世今生 - 知乎 ](https://zhuanlan.zhihu.com/p/78688112) - [DotNet应用之爬虫入门系列（三）：常见文本结构的处理 - 知乎 ](https://zhuanlan.zhihu.com/p/81779032) ## 数据持久化数据持久化这能搞，`.net core`平台有很多好用的ORM，比如微软官方的`EF Core`，比如`SqlSugar`，比如`Dapper`这些，不过EF Core感觉比较重，而且我做这个的时候，还没学怎么单独使用。关于ORM选择： - https://www.cnblogs.com/kuangliwen/p/10210638.html - https://www.cnblogs.com/VAllen/p/Object-Relational-Mapping-Open-Source-Projects-On-Github.html 然后我找了个国人做的轻量级ORM，`Chloe`，看文档使用很简单，于是就试试，文档： http://www.52chloe.com/Wiki/Document/3325155467776229376 模型代码： ```c# [Table("ListArticles")] public class ListArticle { [Column("Id", IsPrimaryKey = true)] [AutoIncrement] public int Id { get; set; } public string Title { get; set; } public string Source { get; set; } public string Link { get; set; } } ``` 这个orm需要在模型类上加上属性，定义主键和表名什么的。EF Core这种就不用，完全按照约定来的，这点不如EF Core方便。而且它不能自动生成表，我只好手动创建表，差评。接下来常规操作，创建`DBContext`，大部分ORM都差不多： ```c# public class SQLiteConnectionFactory : IDbConnectionFactory { ///

/// 数据库连接字符串，如下 /// Data Source=dapperTest.db ///

string _connString = null; public SQLiteConnectionFactory(string connString) { this._connString = connString; } public IDbConnection CreateConnection() { // 得先安装Sqlite的驱动 // Microsoft.Data.Sqlite // System.Data.Sqlite SQLiteConnection conn = new SQLiteConnection(_connString); return conn; } } ``` 对了，要先配置连接： ```c# public static class SQLiteContextFactory { public static SQLiteContext GetContext() { string connString = "Data Source=CatSpider.db"; return new SQLiteContext(new SQLiteConnectionFactory(connString)); } } ``` 使用很简单： ```c# var context = SQLiteContextFactory.GetContext(); obj = context.Insert(obj); ``` 更多操作看文档去，本文就不展开了 ## 提供HTTP接口基本功能实现了，之前考虑到和其他语言或者模块的互操作，觉得可以用HTTP接口来交互，（~~虽然现在觉得不是最佳方案~~）这个很简单，只要找一个轻量级的服务器框架就行了，我找到一个叫`Nancy`的，听起来像人名，结果居然是Web框架。参考： - [(6条消息)C#最全最详细Nancy框架学习（常见报错，控制台应用，添加到现有ASP.Net MVC站点，ajax）_qq_37791451的博客-CSDN博客 ](https://blog.csdn.net/qq_37791451/article/details/82688684) - [ASP.NET Core开发-使用Nancy框架 - LineZero - 博客园 ](https://www.cnblogs.com/linezero/p/5672772.html) 使用很简单，直接启动： ```c# private string host = "http://localhost"; private int port = 50010; private NancyHost nancy; public Program() { var uri = new Uri($"{host}:{port}/"); nancy = new NancyHost(uri); } public void Start() { nancy.Start(); logger.Debug($"nancy server started at {host}:{port}"); Console.ReadKey(); nancy.Stop(); } static void Main(string[] args) { new Program().Start(); } ``` ### 定义接口这个框架有个`Module`的概念，就和Controller差不多吧，定义很简单，我放测试代码上来，业务代码暂时不放出来： ```c# public class MainModule : NancyModule { public MainModule() { Get("/", _ => "hello"); Get("404", _ => HttpStatusCode.NotFound); Get("test", _ => { var response = (Response)JsonConvert.SerializeObject(new int[] { 1, 2, 3 }); response.ContentType = "application/json"; return response; }); Get("test2", _ => JsonConvert.SerializeObject(new int[] { 1, 2, 3 })); } } ``` ## 日志记录最后说一下日志，我这里用了nlog这个轻量级日志引擎。首先要配置，`NLog.config`，设置生成时自动复制到目标文件夹： ```xml ``` 官方推荐每个类用一个logger实例： ```c# private static Logger logger = LogManager.GetCurrentClassLogger(); ``` 使用： ```c# logger.Debug($"列表：{obj}"); ``` 很方便。大概就这，有空继续写其他的~ ## 单元测试这部分可能需要单独拿出来记录。参考： [单元测试 - 使用 MSTest 进行 C# 单元测试 - 《.NET Core 指南》 - 书栈网 · BookStack ](https://www.bookstack.cn/read/dotnet/e3580fde327bb465.md) 这里我用的是MSTest，还有其他的测试框架，不过用起来差不多吧，这里我用MSTest和VS整合的比较好。编写测试类： ```c# [TestClass] public class CnBlogTest { [TestMethod] public void TestCrawlList() { var data = CnBlog.CrawlList(2); Assert.IsTrue(data.Count > 0); } [TestMethod] public void TestCrawlList2() { var data = CnBlog.CrawlList2(2); while (!data.IsCompleted) { } Assert.IsTrue(data.Result.Count > 0); } [DataTestMethod] [DataRow("https://www.cnblogs.com/dudu/p/11562019.html")] [DataRow("https://www.cnblogs.com/JcrLive/p/12235715.html#4490478")] [DataRow("https://www.cnblogs.com/leipDao/p/10058144.html#4131620")] public void TestCrawlArticle(string url) { var data = CnBlog.CrawlArticle(url); while (!data.IsCompleted) { } Assert.IsNotNull(data.Result); } } ```