突然有一个需求,需要获取近期网络热词。找了找百度贴吧百度新闻都觉得词汇不佳,最终发现可以从搜狗输入法的官方词汇来抓取信息。

到官网词库页面发现有一些词库可以直接点开:

然而有一些却根本没有查看词条的按钮:

下载下来后也无法转换地库文件,于是尝试了下如何开启一个类似的弹窗。

Solution

其实很简单,Inspect一下就看到了弹窗的onClick事件


	查看词条	

然后根据对应的URL:

http://pinyin.sogou.com/dict/detail/index/6

明显可以猜到ajax后面的数字是词库编号

因此只要跑到我需要的热词网页,复制URL最后的数字,然后粘贴到上面的JS代码里面执行


	jQuery.facybox({ajax:'/dict/dialog/word_list/15206'})

立刻就能强行打开弹窗:

最终再用JQuery批量获取一下词汇


	arr = $('#words td').map(function(i, el) {
	    console.log( $(el).text());
	})

就能够在console复制词库里面的所有词汇了:

  • 文章标题: 《Web端强行抓取特定搜狗词库词条》
  • 发布日期: 2016-05-06
  • 文章分类: Tech
  • 相关标签: JS