最新消息:20210816 当前crifan.com域名已被污染,为防止失联,请关注(页面右下角的)公众号

【记录】爬取小花生app中自主阅读馆和亲子阅读馆中的有音频的绘本数据

app crifan 1590浏览 0评论
需求是:
下载小花生-》花生团-》自主阅读馆和亲子阅读馆中,
选:有音频
后的
书 + 音频
的数据
其中:
兰登:美国出版商
-》兰登分级:1,2,3级
类似于牛津
且只要有音频的-》对应的书的信息
没有音频的 不要
目的是用于后续音频+绘本文字 对的上,用于训练英文难度算法
先去下载app
小花生app
App-小花生 – 简书
为什么新版小花生App值得每一个重视孩子阅读的家长下载?
https://www.xiaohuasheng.cn/blog/31962d1f5109f39e
去下载安卓版的小花生app:
【记录】下载注册和试用小花生app安卓版
此处想要抓取到:
全部分类中带音频的:绘本和音频文件
然后去尝试用之前的夜神安卓模拟器去登录小花生app,然后看看能否抓包到需要的数据。
【已解决】小花生app中api请求返回json的C,J,M,ST的含义和如何破解解密
去试试:
【已解决】找小花生app的旧版本apk并尝试能否安装使用
尝试的结果是:
虽然v1.5的旧版本apk可以安装和使用,但是返回数据还是加了密的J,还是无法得到明文数据。
且部分接口都失效了,比如获取单个book详情的接口。所以也没法用。
小花生
小花生,书香中和孩子一起成长
https://www.xiaohuasheng.cn
小花生书友会,移动应用
https://www.xiaohuasheng.cn/app
那只能去试试:
【已解决】尝试破解小花生app安卓apk希望看到api返回的json中的J的解密算法得到明文
另外也去看看:
对于此处请求,比如:
http://www.xiaohuasheng.cn:83/Reading.svc/parentChildReadingBookQuery2

    POST /Reading.svc/parentChildReadingBookQuery2 HTTP/1.1
Content-Type    application/json
Authorization    NSTp9~)NwSfrXp@\
userId    1134723
timestamp    1552615679
signature    9a2c878c9a78e9e1f05a27562fb7171e
Content-Length    202
Host    www.xiaohuasheng.cn:83
User-Agent    Mozilla/5.0 (Linux; U; Android 4.4.2; zh-cn; A0001 Build/KOT49H) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
Cookie    ASP.NET_SessionId=rvnrv51m4avi2wldelejirbg
Cookie2    $Version=1
Accept-Encoding    gzip
Connection    keep-alive

{
    "J": "{\"userId\":\"1134723\",\"fieldName\":\"\",\"fieldValue\":\"全部类别\",\"theStageOfTheChild\":\"\",\"parentalEnglishLevel\":\"\",\"supportingResources\":\"\",\"offset\":0,\"limit\":10}",
    "C": 0
}


    HTTP/1.1 200 OK
Cache-Control    private
Content-Length    1976
Content-Type    application/json; charset=utf-8
Server    Microsoft-IIS/7.5
X-AspNet-Version    4.0.30319
X-Powered-By    ASP.NET
Date    Fri, 15 Mar 2019 02:07:59 GMT
Connection    keep-alive

{
    "C": 2,
    "J": "H4sIAAAAAAAEALVXW0\/bSBj9K1Ze9oVdYjtOnD6WbbdoL0SlfVrtg5tMg7eJjWynW7SqFFbcuqQQSrmkgdJCubRLCiy3XEHqT6k8Y+epf2E\/xyFXmy2VKkWRx554vjlnzjlffv3TM\/zAc43zMj2e8JAoIRXdEbUY8lzz4NIirrwlq7Pm9IG5l8PpPfNZRi9s4acLnh4PkqIxUR26mAx37iuypPXJD5EC48ERVUPx3hv2rEGkiEgNiWEtoaBexkvzNM0wtJflaT8fDHz3+3AUXnBPlh\/0yQlJ81yjmWCPRxOiKrwK1iZja3itgMdL1IdTyigtk5Xd6vK4uVcb24WZ798Ya5u158\/XyFGJTKWrC+fN+dZVdfWlmXlBXo5ZA\/sKllUT8bigjPRLAxIaRJKGpLC1o4\/JFeP5Dll5gjf2rV2nd\/FksQ7F39mPyVXrp3IsMpCw6n3cYwPJ0t04ju8bmRKemjCK23bV3fANamiY6pc0mbqNhIgoRTvxrAP5E3qIYjcbDwaUfklCSkiIot5AsBfvj1ZX1x3Q9AZ6PEIiIsr1GyzrbcDbWpiFSwhKS4gSdVuQInKcuiUnVFSDuTYPJrmDaV0BYNW1w+r6XO03s3vGXwV7x3FRCimiBS3L8zAUHtWHviCcPVkRo40JPON1pcU4m8HZip4vkePRRknGk7eeCwY4OthNQfqILMwCEV\/nKLPwzfiZAO\/zOR1l+suP8vYczm01n1\/1aDcxZyxBNTGvDdsw93H8ZVIwJ98ZYydQNixug2hXVZdCA3yLuQ7wycE72LExW\/maPuLz+gN0N\/gM4\/188DuE8H++0imIJhkO+NNM25mnLQm04c8EuMvwt8vGubc4lzZejAGUZHHSTB6SleNW\/IMO9pM9A7CrWxPGIZjQUjfkd4YQdVe9JysSunAfKqTIUUWIx9HVfYhnfa5GxLGutnNRQShxz1rAKsIBYwefabcWv78VZtYCtQ1mmgv6XXEmy\/OwFJwTcyeJn6X08rKxnSQL43pxGjC3nGcrY5TmcXqqAThr8dqBONBFpub08gt4mV6cAH7M41OS24Sd6IXp6mYZF\/41ph2Y6Kf6BKnGAfXzCHVTVFSNqiFNXRfVcELUrs4GwzPuscC3p4I1dmHnlqAMI6VPjsVESf18Ytqg93vdXR2\/P8GLoK1TkpmvQ52ttNr7p3JKLxbhAlfWzYPXthDwm21j6sA5h30OQqhYy6zsG+kJvD+Hx84vz+RfBE2UJSFG\/YAsMQwPiWHqRzGi1ghCinp1MmiGcyUjyLmC35kCToXdiCTCtduXRnV7JNBcq1Y4plMrftpdKnizUh1dIhNnQIx12Eu7eH+WLJ3gZEbPPyXZMzgGZKUIIiAzm+b2lnmeIa9OgVrwok\/l0YZ+fBzXRZTxJEuONu39kldzeGq1unzSzc\/Ao\/uyEmlY1h0Fobpa6G\/Zy3OkgyM7SbwsDWkCHWmA5xzEEmyqww5DMl12SY56ZXclEV6uitoI+ClSHXXj3CHRbFta82yXjfkD7mICunE+j2eXyO66eT5jx0Ujsc3zLMCJx3fIYoG8bjqZL9Ad3ZbAUv+0bg8XypZwsrluPi7c4boYBR\/TgJgwGraO5NWF4qdddcJ3mBbvblr2Fajd3N6wxhcFfp5W2l2tmhmzXa3v+\/oQvAQaAZKaxHvl9gwKtpHnYzqjng5aHa+bsMZ37KAGzizHym2RV6\/tdreuiIUMWU03afN2BxAwRHKp6tox9Ajk6CV8QHUOhMUEVQXvuA7oqtQfojYE3X4MdRmbg3ZaAqYmHToA3ywDbbDTnzn+ixvgviExFvlGpUIxYcSpx6pxUdunu5iY9r8bTFfrxQUu8bn9CWNjx2609PyMjaZ5soHnDvXKfPVdCpoBvZjS80U9n\/Q8\/u0\/UDEtQFAPAAA=",
    "M": "1001",
    "ST": null
}
中的:
后端服务器是:
Server    Microsoft-IIS/7.5
X-AspNet-Version    4.0.30319
X-Powered-By    ASP.NET
不知道和此处的
Microsoft-IIS/7.5
的ASP.NET
和Reading.svc
此处的
C,J,M,ST
是否有逻辑上的关联
Microsoft-IIS/7.5 ASP.NET svc
Microsoft-IIS/7.5 ASP.NET svc rest api
Microsoft-IIS  ASP.NET svc rest api
Microsoft-IIS  svc
如何:开发在 IIS 上运行的 WCF 数据服务 | Microsoft Docs
Microsoft-IIS  svc C J M ST
好像是没啥关系。
然后解决了J字段的加密问题,再去Charles抓包所有的api请求。
再去尝试用Postman中模拟
然后继续去:
【已解决】用Charles+Postman+Python解密脚本分析小花生app中绘本接口和返回信息
接着去:
【已解决】PySpider中用Python代码爬取小花生app中绘本数据

转载请注明:在路上 » 【记录】爬取小花生app中自主阅读馆和亲子阅读馆中的有音频的绘本数据

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
90 queries in 0.370 seconds, using 22.15MB memory