首 页尾 页

利用PYTHON 爬虫爬出自己的英语单词库(内附python教程分享)

发布者: PHPYuan | 发布时间:2019-03-17

为什么要建立自己的单词库

用过各种的背单词软件,总是在使用其他人的词库或者软件自己提供的词库,基本是人家提供什么自己就用什么,要想有更多的自主基本没有,最近看一个 COCA的按单词使用频率来提取的2万单词表,但没有对应的单词库,知米里倒是可以直接导入英文单词,系统帮你匹配上音标、读音、例句及解释,然而匹配后的结果你却无法导出。

特别是最近准备利用AnkiDroid来进行单词背诵,所以有种要建立自己的单词库的需求。更进一步或许可以自己开发一个背单词的软件也是有可能的。“万里长征第一步,先来建立单词库”,走一步看一步吧。

词库的需求分析

根据需求,词库应该包括如下内容

英文:对应英语单词音标及读音:分为美语音标,读音,英语音标,读音词性,中文释义:单词多个含义的不同词性和中文例句:单词的例句助记:比如词根或者其他有助于记忆的说明输出一个文本文件好了,方便以后进行各种处理

使用技术的选择

获得单词的相关信息,目前可以通过百度翻译,有道翻译,必应翻译,谷歌翻译,金山词霸等方式,在综合考虑后选择通过必应字典模式获得相关数据。

数据爬取上,目前最为流行的并且相对成熟的是使用python(也就懂python),所以选择python

对于使用python爬取数据,一般有两种模式,一种是pyth

想读更多 ->

Python数据可视化的10种技能

发布者: PHPYuan | 发布时间:2019-03-17

今天我来给你讲讲Python的可视化技术。

如果你想要用Python进行数据分析,就需要在项目初期开始进行探索性的数据分析,这样方便你对数据有一定的了解。其中最直观的就是采用数据可视化技术,这样,数据不仅一目了然,而且更容易被解读。同样在数据分析得到结果之后,我们还需要用到可视化技术,把最终的结果呈现出来。

可视化视图都有哪些?

按照数据之间的关系,我们可以把可视化视图划分为4类,它们分别是比较、联系、构成和分布。我来简单介绍下这四种关系的特点:

比较:比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图;

联系:查看两个或两个以上变量之间的关系,比如散点图;

构成:每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼图;

分布:关注单个变量,或者多个变量的分布情况,比如直方图。

同样,按照变量的个数,我们可以把可视化视图划分为单变量分析和多变量分析。

单变量分析指的是一次只关注一个变量。比如我们只关注“身高”这个变量,来看身高的取值分布,而暂时忽略其他变量。多变量分析可以让你在一张图上可以查看两个以上变量的关系。比如“身高”和“年龄”,你可以理解是同一个人的两个参数,这样在同一张图中可以看到每个人的“身高”和“年龄”的取值,从而分析出来这两个变量之间是否存

想读更多 ->

资深Python程序员,教你Python语言中的逻辑思维,附学习资料

发布者: PHPYuan | 发布时间:2019-03-17

对于Python的学习,现在已经是一个比较火热的话题,那么要学好Python编程,就需要积累一定的量,虽然在Python中有很多现成的函数或者是方法,但其中的逻辑依然是非常重要的,要不断的实践练习。

在Python编程中,往往需要我们去理解实际问题,在编程的过程中,我们需要用逻辑思维去思考,一步一步去编程!

这样才能完美地解决问题,下面和大家分享一个数学编程,就是求一个整数的逆序数!

资深Python程序员,教你Python语言中的逻辑思维,附学习资料

程序的代码如下:

资深Python程序员,教你Python语言中的逻辑思维,附学习资料

最近使用Pip安装Python的第三方库时,下载速度再次击穿我的认知,于是有了这篇的短文……

国内pip源镜像Python Pip国内镜像设置

用pip安装时,默认使用的是国外源文件,在国内使用下载速度会不稳定,有时可能只有几十KB每秒。因此需要考虑如何将pip源设置为国内镜像。

阿里云

http://mirrors.aliyun.com/pypi/simple/

豆瓣

http://pypi.douban.co

想读更多 ->

如何在 Linux 中安装、配置和使用 Fish Shell?

发布者: PHPYuan | 发布时间:2019-03-17

如何在 Linux 中安装、配置和使用 Fish Shell?

每个 Linux 管理员都可能听到过 shell 这个词。你知道什么是 shell 吗? 你知道 shell 在 Linux 中的作用是什么吗? Linux 中有多少个 shell 可用?

-- Magesh Maruthamuthu

每个 Linux 管理员都可能听到过 shell 这个词。你知道什么是 shell 吗? 你知道 shell 在 Linux 中的作用是什么吗? Linux 中有多少个 shell 可用?

shell 是一个程序,它是提供用户和内核之间交互的接口。

内核是 Linux 操作系统的核心,它管理用户和操作系统之间的所有内容。Shell 可供所有用户在启动终端时使用。终端启动后,用户可以运行任何可用的命令。当 shell 完成命令的执行时,你将在终端窗口上获取输出。

Bash(全称是 Bourne Again

想读更多 ->

linux——shel的特殊变量

发布者: PHPYuan | 发布时间:2019-03-17

特殊的shell变量

Linux——Shell脚本中自定义变量的应用(基础)2

除了用户自定定义的shell变量以外,还有一系列的特殊的变量——环境变量、位置变量、预定义变量。

一、特殊的变量

1.环境变量

环境变量指的是出于运行需要而由linux系统提前创建的一类变量,主要用于设置用户的工作环境,包括用户宿主目录、命令查找路径、用户当前目录、登录终端等。环境变量的值由linux系统自动维护,会随着用户状态的改变而改变。

使用env命令可以查看到当前工作环境下的环境变量,对于常见的一些环境变量应了解其各自的用途。例如,变量USER表示用户名称,HOME表示用户的宿主目录,LANG表示语言和字符集,PWD表示当前所在的工作目录,PATH表示命令搜索路径等。如下图:

想读更多 ->

动态链接的相关结构

发布者: PHPYuan | 发布时间:2019-03-17

在了解了共享对象的绝对地址的引用问题后,我们基本上对动态链接的原理有了初步的了解,接下来的问题是整个动态链接具体的实现过程了。动态链接在不同的系统上有不同的实现方式。ELF的动态链接的实现方式会比PE的简单一点,在这里我们先介绍ELF的动态链接过程在LINUX下的实现,最后我们会专门的章节中介绍PE在Windows下的动态链接过程和它们的区别

我们在前面的章节已经看到,动态链接情况下,可执行文件的装载与静态链接情况基本样。首先操作系统会读取可执行文件的头部检查文件的合法性,然后从头部中的“ Program Header”中读取每个“Segment”的虚拟地址、文件地址和属性,并将它们映射到进程虚拟空间的相应位置,这些步骤跟前面的静态链接情况下的装载基本无异。在静态链接情况下,操作系统接着就可以把控制权转交给可执行文件的入口地址,然后程序开始执行,一切看起来非常直观。

但是在动态链接情况下,操作系统还不能在装载完可执行文件之后就把控制权交给可执行文件,因为我们知道可执行文件依赖于很多共享对象。这时候,可执行文件里对于很多外部符号的引用还处于无效地址的状态,即还没有跟相应的共享对象中的实际位置链接起来。所以在映射完可执行文件之后,操作系统会先启动个动态链接器( Dynamic Linker)

在 Linux下,动态链接器ld.so实际上是一个共

想读更多 ->

「理论新视野·解读新时代」从两会的新科技表情所想到的

发布者: PHPYuan | 发布时间:2019-03-17

这几天关注点一直在全国两会,从海量的两会消息中发现了不少有趣的新闻。比如,人民日报新媒体中心首次使用5G投入新闻报道,持续进行全景VR直播,从采集、传输、制作到播出,全链条视频信号均由5G实现。中央广播电视总台通过5G传输技术将4K超高清电视节目接入人民大会堂、梅地亚两会新闻中心、代表委员驻地等区域。

在我的印象中,当着全国两会这样十分重大的政治活动,主流媒体更新传播科技手段是不多见的。而本次两会一反常态,主流媒体开始大范围使用新科技来进行新闻报道,并且把新科技作为宣传的重要组成部分。这反映了本届政府对科技创新的态度,绝不只是喊口号,甚至不仅仅是给政策,而是从政府开始身体力行拥抱新科技、使用新科技。

抓创新就是抓发展、谋创新就是谋未来。回顾历史我们可以非常明显地认识到,科学技术创新带来的既有生产力的发展、产品服务的提升、企业利润的快速增长,更有社会结构的重组、一国命运的兴衰、世界格局的变化。只需要一个简单的例子就能说明,没有蒸汽机哪有工业革命,没有工业革命哪有19世纪的大英帝国,没有大英帝国后续的一系列历史事件更不会如此发生,世界格局也就不会发展成现在这副模样。所以,科学技术创新从来不是一个公司、一个行业的事,而是一个国家、整个世界,甚至是与人类命运息息相关的事。

科技创新也分大小,其中尤其不能忽视的是底层技术革新。对当下来说,5G可

想读更多 ->

代码审计从入门到放弃(三) & phplimit

发布者: PHPYuan | 发布时间:2019-03-16

原创: 一叶飘零 合天智汇

前言

接着前面的代码审计从入门到放弃(一) & function、代码审计从入门到放弃(二) & pcrewaf

本次是phplimit这道题,本篇文章提供了3种解法,即如何利用无参数函数进行RCE/任意文件读取

题目概述

题目源码如下:

<?php if(';' === preg_replace('/[^\W]+\((?R)?\)/', '', $_GET['code'])) { eval($_GET['code']); } else { show_source(__FILE__); }

代码非常清晰,首先

preg_replace('/[^\W]+\((?R)?\)/', '', $_GET['code'])

代码会将$_GET['code']中满足正则/[^\W]+((?R)?)/的部分,替换为空,然后查看是否剩下的部分强等于;

想读更多 ->

shell脚本操作mysql数据库删除重复的数据

发布者: PHPYuan | 发布时间:2019-03-16

今天扣丁学堂Linux培训老师给大家介绍一下关于shell脚本操作mysql数据库删除重复数据的详细介绍,首先由于之前的业务,造成数据库上产生了脏数据,写个脚本删除重复的数据。由于是开发测试环境,所以选择任意删除相同uid中的一条。由于每次执行只删除重复数据的一条,需要重复执行,如果本轮没有数据被删就OK。

shell脚本操作mysql数据库删除重复的数据

Linux培训

#!/bin/sh

# delete all company's duplicate uid

MYSQL_BIN_PATH=/data/mysql/server/mysql_3306/bin

MYSQL_SOCK_PATH=/data/mysql/server/mysql_3306/tmp

DBUSER=dbuser

DBPWD=userpwd

D

想读更多 ->