wushiguize 发表于 2022-5-22 15:33:57

求教爬取丁香医生网页的隐藏信息

网站:https://drugs.dxy.cn/

想要抓取每个‘药类分类’下面的具体药品信息,但是在F12查看之后发现,当前页面只能看到第一个分类中“消化道及代谢”的数据,后面的类别都被隐藏起来了,见下图。
想问下碰到这种问题,应该怎么办?

shinsbo 发表于 2022-5-23 09:40:53

所有的隐藏数据都写在源代码里面呀,你查看源代码,然后搜索__NEXT_DATA__

wushiguize 发表于 2022-5-23 13:00:06

shinsbo 发表于 2022-5-23 09:40
所有的隐藏数据都写在源代码里面呀,你查看源代码,然后搜索__NEXT_DATA__

那怎么把源代码里的nextdata后面的内容爬出来呢?

shinsbo 发表于 2022-5-23 23:06:06

wushiguize 发表于 2022-5-23 13:00
那怎么把源代码里的nextdata后面的内容爬出来呢?

:L这就是个json,读取一下数据就出来了。
建议你先学习一下正则和json,这些都是爬虫的基础。

wushiguize 发表于 2022-5-24 11:52:28

shinsbo 发表于 2022-5-23 23:06
这就是个json,读取一下数据就出来了。
建议你先学习一下正则和json,这些都是爬虫的基础。 ...

嗯,我看了下源代码确实是json,已经解决啦~本来以为会有其他的问题呢,谢谢咯

sunset535 发表于 2023-5-6 19:45:58

读取一下数据就出来了
页: [1]
查看完整版本: 求教爬取丁香医生网页的隐藏信息