1.vrp产品体系
2.原神各角色Pixiv涩图统计(二) Python爬虫爬取Pixiv上各角色涩图并统计.
vrp产品体系
VRP虚拟现实仿真平台,源码历经多年研发与探索,源码围绕VRP引擎,源码形成了包含九个软件平台的源码全面产品体系。其中,源码VRP-BUILDER虚拟现实编辑器与VRPIE3D互联网平台(VRPIE)是源码氧登陆源码广泛应用于国内VR和WEB3D制作的两大工具,连续三年引领行业,源码用户数量始终居首。源码
VRP-BUILDER虚拟现实编辑器是源码一款三维场景制作、后期编辑、源码交互制作、源码特效制作、源码界面设计及打包发布工具,源码主要面向三维内容制作公司。源码
VRPIE-3D互联网平台,源码又称VRPIE,将VRP-BUILDER的编辑成果发布至互联网,供用户通过互联网浏览和互动,面向所有互联网用户。
VRP-PHYSICS物理模拟系统精确模拟物理学现象,如碰撞、重力、摩擦、阻尼、陀螺、粒子等,遵循牛顿定律等物理原理,主要服务于院校和科研单位。
VRP-DIGICITY数字城市平台具备建筑设计与城市规划功能,如数据库查询、实时测量、通视分析、热血无赖源码高度调整、分层显示、动态导航、日照分析等,主要服务于建筑设计和城市规划相关领域。
VRP-INDUSIM工业仿真平台通过模型化、角色化、事件化的虚拟仿真,降低演练和培训成本,提高演练的真实性和安全性,主要应用于石油、电力、机械、重工、船舶、钢铁、矿山、应急等行业。
VRP-TRAVEL虚拟旅游平台激发学生兴趣,培养导游职业意识,积累讲解知识,提供互动教学与考核,主要面向导游与旅游规划。
VRP-MUSEUM虚拟展馆结合互联网与三维虚拟技术,为科博馆、体验中心、大型展会等行业提供三维互动体验解决方案,打破时空限制,提升宣传效果与社会价值,主要面向各类展馆与体验中心。
VRP-SDK系统开发包提供C++源码级开发函数库,index主页源码供工业仿真研究与设计单位开发高效仿真软件,主要面向水利电力、能源交通等单位。
VRP-STORY故事编辑器操作灵活、界面友好、易于学习,无需编程或美术设计能力即可进行3D制作,成本低、速度快,能够高效产出3D作品,支持与VRP平台所有软件模块无缝对接,实现更丰富交互功能。
扩展资料
VRP(Virtual Reality Platform,简称VR-Platform或VRP)即虚拟现实平台,VRP是一款由中视典数字科技有限公司独立开发的具有完全自主知识产权的直接面向三维美工的一款虚拟现实软件。是目前中国虚拟现实领域,市场占有率最高的一款虚拟现实软件。原神各角色Pixiv涩图统计(二) Python爬虫爬取Pixiv上各角色涩图并统计.
统计结果详情请参阅前一篇文章。
已将代码开源至GitHub。
诚然,此项目为我完成过的最具挑战性的爬虫任务,耗时两天半,全无进展。
Pixiv的反爬机制使我不得不面对复杂的代码编写。
为了统计各角色的涩图数量,我们需要在Pixiv搜索角色名称。对于爬虫而言,正确的链接应为:
Pixiv主要使用的语言包括简体中文、繁体中文、日文、英文和韩文。浪漫满屋源码考虑到《原神》没有俄语版本,我们不统计俄语。
同时,应注意,搜索出的角色名称可能与《原神》无关,因此不能将其纳入统计。
综上,我们的统计逻辑如下:
使用的库包括:
首先,我们需要获取《原神》各角色名称,这可以从《原神》官网爬取。
在实际爬取过程中,网站的语言切换经常失败或自动根据IP地址跳转,甚至返回一半英语一半日文内容。因此,我手动保存了网站各语言的源代码。简体中文名称可直接在《原神》国内官网找到,与国际版类似,但注意,一定注意。
国内官网上刻晴和七七的顺序有误,需要在保存的源代码中调整。
之后,用正则表达式识别各角色的各语言名称,并对一些稻妻角色名称进行适当调整,以增加搜索内容。
注意,原神官网上没有荧和空,需进行特殊处理。
判断作品是否与特定《原神》角色相关的方法是:如果作品中出现其他《原神》角色名称、除本语言外的本角色名称,或包含特定元素(如列表中的raft算法 源码元素),则认为其与该角色相关。
忽略大小写。
判断标签如下:
标签包括:原神、Genshin、Impact、米哈游、HoYoLAB、원신、HOYOVERSE、miHoYo、蒙德、璃月、须弥、稻妻、枫丹、纳塔、至冬、提瓦特、Mondstadt、Liyue、Inazuma、Sumeru、Fontaine、Natlan、Snezhnaya、爷、派蒙、Paimon、旅行者、履刑者、屑、森林书、兰纳罗、双子、愚人众、Traveller、Traveler、雷音权现、七星、水、火、岩、冰、风、雷、草、タル蛍、雷**、雷电真、雷**、黄金梦乡、深渊、Abyss、七圣召唤、Twins、崩坏、星穹铁道、爱莉希雅、Elysia、女仆、旅人、Travel、公子、捷德、风花节、海灯节、纠缠、Wish、Pull、海祈岛、珊瑚宫、渊下宫、尘歌、萍姥姥、龙脊雪山、苍风高地、风啸山坡、明冠山地、坠星山谷、珉林、璃沙郊、云来海、碧水原、甜甜花、层岩巨渊、Status、天理、琪亚娜、食岩之罚、仙跳墙、佛跳墙、野菇鸡肉串、珊瑚宫、心海、Pyro、Cyro、Hydro、Nature、Anemo、Geo、Dendro、Electro、Swirl、原石、Primogem、Jade、God、Fate、Intertwined、纠缠之缘、Serenitea、Artifact、圣遗物、博士、doctor、同人。
随后,便是核心环节:爬取Pixiv。
由于Pixiv不接受未登录的爬虫,但我们可以巧妙绕过登录接口。我们通过复制登录后浏览器的cookie并写入header。
(关于使用多个cookie的原因,我将在后面解释)
有了cookie,我们在爬取tags时才能获取正常内容。请注意,内容并非直接在HTML页面中返回,而是需要通过请求另一个页面才能获得有意义的信息。特定链接用于生成请求,然后请求获取内容。
链接生成方式简单,通过字符串拼接。
之后,加载JSON数据,使用正则表达式筛选出有用信息。
注意,Pixiv的响应速度较慢,短时间内的请求量过大,会返回空内容,因此需要判断内容是否为空。同时,如果某个tag下面没有内容,返回的也是空值。此外,网络不稳定也可能导致收到空内容或不完整内容。
有时网络状况良好,Pixiv正确处理响应,但返回的内容不完整或与预期不符。
最后,爬取完所有内容后,将page加1,继续爬取下一页内容。Pixiv不会返回错误,而是返回空值。
还需注意,返回的内容可能包含重复信息,需要处理。
如需自写代码,上述问题都需要考虑。我的代码中已考虑并测试通过。
之前提到,Pixiv爬取速度慢,因此我们使用多线程。但多线程容易导致cookie失效,因此采用多个cookie,并设计算法决定使用哪个cookie。如果一次请求失败,该cookie的sleep time增加秒。更换cookie时,需睡眠对应cookie的睡眠时间。成功处理完6个角色(所有语言名称)后,将sleep time重置,避免退化为单cookie模式。
至于main.py运行后的结果可视化,这部分内容较长且主要涉及matplotlib绘图,如有问题可至评论区询问。
代码开源地址:
前一篇文章:
封面(AI):
荧 / Lumine