C++ 智能指针(1.5):move 语义

C++智能指针(1.5):move语义 move语义 定义 右值引用(Rvalue Referene)是 C++ 11中引入的新特性,它实现了转移语义(Move Sementics)和精确传递(Perfect Forwarding),其主要目的有 消除两个对象交互时不必要的对象拷贝,节省运算存储资源,提高效率。 能够更简洁明确地定义泛型函数。 实现 move 语义的实现非常简单,它将传入的参数 _Tp&& __t 使用静态类型转换 static_cast<_Up&&>(__t) 转变成了成了对应类型的右值,也就是说使用 move 语义之后,编译器窃取(一般会在移动构造函数和移动赋值操作符里将原有对象指向 nullptr)了原有对象的右值,并延长了这个右值的生命周期并将其用来赋值给其他的对象,而没有对右值做任何拷贝操作。 template <class _Tp> typename remove_reference<_Tp>::type&& move(_Tp&& __t) _NOEXCEPT { typedef typename remove_reference<_Tp>::type _Up; return static_cast<_Up&&>(__t); } 测试 定义一个 Object 类和一个 MoveObject 函数使用 move 语义返回一个 Object 的类对象,可以看到在 MoveObject 函数返回右值后,obj 对象调用了移动构造函数。 class Object { public: Object() { std::cout << "Construct" << std::endl; } Object(const Object &other) { std::cout << "Copy" << std::endl; } Object(Object &&other) noexcept { std::cout << "Move" << std::endl; } ~Object() { std::cout << "Destruct" << std::endl; } void Print() { std::cout << "Print" << std::endl; } }; Object MoveObject() { Object obj; return move(obj); } int main() { Object obj = MoveObject(); return 0; } /* output: Construct Move Destruct Destruct */ 返回值优化(RVO,Return value optimisation) 返回值优化是一种编译器优化技术,允许编译器在调用点(call site)直接构造函数的返回值。 ...

January 2, 2019 · 2 min

C++ 智能指针(1):auto_ptr

C++智能指针(1):auto_ptr 分析 C++ 中经常会出现因为没有 delete 指针而造成的内存泄漏,例如有一个 Object 类 class Object { public: Object() { std::cout << "Construct" << std::endl; } Object(const Object &other) { std::cout << "Copy" << std::endl; } Object(Object &&other) noexcept { std::cout << "Move" << std::endl; } ~Object() { std::cout << "Destruct" << std::endl; } void Print() { std::cout << "Print" << std::endl; } }; 创建一个指向 Object 类型的指针 int main() { Object *o = new Object(); o->Print(); return 0; } /* output: Construct Print */ 我们没有进行delete o的操作,导致o没有被正确地析构,造成了内存泄漏。作为对比,创建一个Obj类型的对象 int main() { Object *o1 = new Object(); o1->Print(); Object o2 = Object(); o2.Print(); return 0; } /* output: Construct Print Construct Print Destruct */ 产生这样的结果是因为对象创建在栈(stack)上,编译器会自动进行对象的创建和销毁,而指针是创建在堆(heap)上,需要手动进行创建和销毁。为了规避这样的问题,我们可以封装一个智能指针类,用类来管理指针,防止造成内存泄漏,并且尽可能的模仿指针的用法。 ...

December 27, 2018 · 4 min

LeetCode Archiver(2):获取题目信息

创建爬虫 在新建好项目后,用PyCharm或其他IDE打开该项目。进入该项目文件夹,使用genspider命令新建一个爬虫: cd scrapy_project scrapy genspider QuestionSetSpider leetcode.com 其中QuestionSetSpider是爬虫的名字,leetcode.com是我们打算爬取的网站的域名。 新建好爬虫之后可以看到在项目的spiders文件夹下新增了一个名为 QuestionSetSpider.py的文件,这就是我们刚才新建的爬虫文件。这个爬虫文件会自动生成以下代码 # -*- coding: utf-8 -*- import scrapy class QuestionSetSpider(scrapy.Spider): name = 'QuestionSetSpider' allowed_domains = ['leetcode.com'] start_urls = ['http://leetcode.com/'] def parse(self, response): pass QuestionSetSpider类继承自scrapy.Spider,也就是scrapy框架中所有爬虫的基类; self.name属性是该爬虫的名字,在该爬虫文件的外部可以通过这个属性获取当前爬虫; self.allowed_domains是当前爬虫文件可以访问的域名列表,如果在爬取页面时进入了一个该域名以外的url会抛出错误; self.start_urls是一个url列表,基类中定义了start_requests函数,它会遍历self.start_urls,并对每一个url调用scrapy.Request(url, dont_filter=True),为了实现爬取题目的需求,我们需要重写self.start_urls函数 获取题目详细信息 分析 LeetCode使用了GraphQL进行数据的查询和传输,大部分页面都是通过JS渲染生成的动态页面,所以无法直接从页面上获取标签,即使使用提供JavaScript渲染服务的库(例如Splash)也无法获取全部的数据,所以只能通过发送请求来获取数据。 为了爬取题目的详细信息,我们首先要从题目列表进入每个题目对应的链接。 首先打开leetcode的problem列表,按F12打开Chrome的开发者工具,进入Network标签栏,勾选上Preserve log,刷新该页面。 可以看到,网页向 https://leetcode.com/api/problems/all/ 发送了一个名为"all/“的GET类型的Request,这就是获取所有题目链接和相关信息的请求。如果此时已经安装了Toggle JavaScript插件,我们可以直接右键点击“Open in new tab”,查看该请求返回的Response。 更方便的方法是使用postman向服务器发送一个相同的Request,并将其保存下来,这样如果我们下次需要查看相应的Response的时候就不需要再使用开发者工具了。 返回的Response是一个json对象,其中的"stat_status_pairs"键所对应的值是所有包含题目信息的list,而列表中的[“stat”][“question__title_slug”]就是题目所在的页面。以Largest Perimeter Triangle为例,将其title_slug拼接到https://leetcode.com/problems/ 后,进入页面https://leetcode.com/problems/largest-perimeter-triangle/ 。同样地,打开开发者工具,刷新页面,可以看到服务器返回了很多项graphql的查询数据,通过查看Request Payload可以找到其中operationName为"questionData"的一项,这就是当前题目的详细信息。 将Payload复制粘贴到postman的Body中,在Headers中设置Content-Type为application/json,发送请求,可以看到返回的是一个json对象,包含了该题目所对应的所有信息。 接下来我们就可以对该题目的信息进行处理了。 实现 为了获取题目列表的json对象,我们需要先重写start_requests函数。 def start_requests(self): self.Login() # 用户登录,后续会用到 questionset_url = "https://leetcode.com/api/problems/all/" yield scrapy.Request(url=questionset_url, callback=self.ParseQuestionSet) Request是scrapy的一个类对象,功能类似于requests库中的get函数,可以让scrapy框架中的Downloader向url发送一个get请求,并将获取的response交给指定的爬虫文件中的回调函数进行相应的处理,其构造函数如下 ...

December 21, 2018 · 2 min

在Google Cloud Platform上运行Jupyter Notebook

在Google Cloud Platform上运行Jupyter Notebook 简介 本文取材自 Amulya Aankul 发布在 Medium 的 Running Jupyter Notebook on Google Cloud Platform in 15 min,主要介绍如何在Google Cloud Platform上搭建服务器,并在服务器上安装和运行Jupyter Notebook。 服务器搭建 创建账号 首先在Google Cloud Platform上创建一个账号。 创建新项目 点击左上角"Google Cloud Platform"右边的三个点,点击"NEW PROJECT"创建新项目。 创建虚拟机 进入刚才创建的项目,从左侧边栏点击 Compute Engine -> VM instances 进入虚拟机页面。点击Create创建一个新的虚拟机实例(VM instance) ) 根据需求填写和选择 Name, Region, Zone, Machine Type和Boot Disk。在 Firewall 选项中选中 Allow HTTP traffic 和 Allow HTTPS traffic, 在下方的 Disks 选项卡中取消勾选 Delete boot disk when instance is deleted。最后点击 Create,虚拟机实例就创建好了。 ...

December 14, 2018 · 2 min

LeetCode Archiver(1):Scrapy框架和Requests库

简介 Scrapy官方文档对Scrapy的介绍如下: Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 其最初是为了页面抓取(更确切来说, 网络抓取)所设计的,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services )或者通用的网络爬虫。 简而言之,Scrapy是基于Twisted库开发的,封装了http请求、代理信息、数据存储等功能的Python爬虫框架。 组件和数据流 下图是Scrapy官方文档中的架构概览图: 图中绿色箭头表示数据流,其他均为组件。 Scrapy Engine(引擎) 引擎负责控制数据流在系统的组件中流动,并在相应动作发生时触发事件。 Scheduler(调度器) 调度器从引擎接收request并将其保存,以便在引擎请求时提供给引擎。 Downloader(下载器) 下载器负责下载页面数据,并将其提供给引擎,而后再由引擎提供给爬虫。 Spiders(爬虫) Spider是由用户编写的用于分析response并提取item或额外跟进url的类。一个Scrapy项目中可以有很多Spider,他们分别被用于爬取不同的页面和网站。 Item Pipeline(管道) Item Pipeline负责处理被爬虫提取出来的item。可以对其进行数据清洗,验证和持久化(例如存储到数据库中)。 Downloader middlewares(下载器中间件) 下载器中间件是在引擎及下载器之间的组件,用于处理下载器传递给引擎的response。更多内容请参考下载器中间件。 Spider middlewares(爬虫中间件) Spider中间件是在引擎及Spider之间的组件,用于处理爬虫的输入(response)和输出(items和requests)。更多内容请参考爬虫中间件。 Data flow(数据流) Scrapy中的数据流由引擎控制,其过程如下: 1.引擎打开一个网站,找到处理该网站的爬虫并向该爬虫请求要爬取的url。 2.引擎从爬虫中获取到要爬取的url并将其作为request发送给调度器。 3.引擎向调度器请求下一个要爬取的url。 4.调度器返回下一个要爬取的url给引擎,引擎将url通过下载器中间件发送给下载器。 5.下载器下载页面成功后,生成一个该页面的response对象,并将其通过下载器中间件发送给引擎。 6.引擎接收从下载器中间件发送过来的response,并将其通过爬虫中间件发送给爬虫处理。 7.爬虫处理response,并将爬取到的item及跟进的新的request发送给引擎。 8.引擎将爬虫返回的item发送给管道,将爬虫返回的新的request发送给调度器。 9.管道对item进行相应的处理。 10.重复第二步,直到调度器中没有更多的request,此时引擎关闭该网站。 安装 1.下载安装最新版的Python3 2.使用pip指令安装Scrapy pip3 install scrapy 创建项目 首先进入你的代码存储目录,在命令行中输入以下命令: scrapy startproject LeetCode_Crawler 注意项目名称是不能包含连字符 ‘-’ 的 新建成功后,可以看到在当前目录下新建了一个名为LeetCode_Crawler的Scrapy项目,进入该目录,其项目结构如下: scrapy.cfg #该项目的配置文件 scrapy_project #该项目的Python模块 __init__.py items.py #可自定义的item类文件 middlewares.py #中间件文件 pipelines.py #管道文件 settings.py #设置文件 __pycache__ spiders #爬虫文件夹,所有爬虫文件都应在该文件夹下 __init__.py __pycache__ 至此Scrapy项目的创建就完成了。 ...

December 4, 2018 · 1 min