scrapy-redis 每小时抓取百万数据，该如何快速插入mysql表中？

loyalist

目前写的爬虫每小时采集量在150万左右，但是在插入mysql数据库时确花了8小时，令人发指，已使用了
from twisted.enterprise import adbapi
的异步插入，每个事务有5条sql语句，分别插入到5张关系表中，先存前3张不关联的表，成功插入后获取到id值，再插入到后两张表中。

想请教各位：这种情况我该怎么提高插入速度？

试过异步批量插入1000条数据，但出现了死锁问题！

zengyd · 发表于 2020-7-10 16:21:20

pymysql里面有个manyinsert，这个不知道楼主说过没有

loyalist · 发表于 2020-7-10 18:52:31

试过的，效果没提高多少

yagamil · 发表于 2020-9-9 20:54:19

优化sql语句和写入逻辑，能用1句sql的就不要用多句。可以试试dbutil这个连接池。

scrapy-redis 每小时抓取百万数据，该如何快速插入mysql表中？

loyalist LV1