求教爬取丁香医生网页的隐藏信息

wushiguize

网站：https://drugs.dxy.cn/

想要抓取每个‘药类分类’下面的具体药品信息，但是在F12查看之后发现，当前页面只能看到第一个分类中“消化道及代谢”的数据，后面的类别都被隐藏起来了，见下图。
想问下碰到这种问题，应该怎么办？

shinsbo · 发表于 2022-5-23 09:40:53

所有的隐藏数据都写在源代码里面呀，你查看源代码，然后搜索__NEXT_DATA__

wushiguize · 发表于 2022-5-23 13:00:06

shinsbo 发表于 2022-5-23 09:40
所有的隐藏数据都写在源代码里面呀，你查看源代码，然后搜索__NEXT_DATA__

那怎么把源代码里的nextdata后面的内容爬出来呢？

shinsbo · 发表于 2022-5-23 23:06:06

wushiguize 发表于 2022-5-23 13:00
那怎么把源代码里的nextdata后面的内容爬出来呢？

这就是个json，读取一下数据就出来了。
建议你先学习一下正则和json，这些都是爬虫的基础。

wushiguize · 发表于 2022-5-24 11:52:28

shinsbo 发表于 2022-5-23 23:06
这就是个json，读取一下数据就出来了。
建议你先学习一下正则和json，这些都是爬虫的基础。 ...

嗯，我看了下源代码确实是json，已经解决啦~本来以为会有其他的问题呢，谢谢咯

sunset535 · 发表于 2023-5-6 19:45:58

读取一下数据就出来了