Python関連のことを調べてみた2022年08月09日

Python関連のことを調べてみた2022年08月09日
目次

戸建て住宅マーケティングAI 開発 (6) 宅地建物取引業者検索システムからの不動産会社情報収集

※ 開発中ですが、以下のロゴのリンクから、ご利用可能です。
[![タイトルなし.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/2639/63b93891-adeb-5247-cef0-d85216d0c58e.png)](https://15db.end0tknr.jp/)

先日の記事では、不動産の物件情報を収集しました。
不動産物件情報の掲載ページには、販売する不動産会社の名称も記載されていますが、
フランチャイズチェーン等の場合、宅建業者の免許番号と社名が一致しないケースがあるようです。

そこで、国交省が提供する「宅地建物取引業者検索システム」で不動産会社情報を収集することにしました。

download_and_save_master() で、このシステムにある不動産会社情報を一括抽出 & DB登録することもできますし、
find_licence_def(licence_no) で、免許番号を検索し、該当する不動産会社情報を抽出 & DB登録することもできます。

ただし?、「宅地建物取引業者

元記事を表示

【matplotlib】グラフの色を連続的に変えてカラーバー付きでプロットする方法

# 概要
matplotlibでグラフを作っていると、色を連続的に変えてプロットしてカラーバーも付けたい場合がある。そんなときに便利なのが、[“matplotlib.collections.LineCollection“](https://matplotlib.org/stable/api/collections_api.html#matplotlib.collections.LineCollection)である。この“LineCollection“を使ったカラーバー付きグラフの作成方法について紹介する。

# 実装
Google Colabで作成した本記事のコードは、[こちら](https://colab.research.google.com/drive/1c7SlXt73lP58nUtedBcL3UrrNNSIiStO?usp=sharing)にあります。

## 各種インポート
“`Python:各種インポート
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.cm as cm
f

元記事を表示

【トリビアのDelta Lake】#7 Pysparkでカラム内のjsonデータを取り出す

Sparkはさまざまなフォーマットのデータに対応しており、jsonデータも勿論readし、Databframeにすることができます。
“`
{“a”: 123,”b”:”hello”},
{“a”: 789,”b”:”world”}
“`
こんなjsonファイルがあったとして、こんな感じで読める。
“`Python:read_json.py
df_from_json = (
spark
.read
.format(“json”)
.load(“.json”)
)
“`

https://spark.apache.org/docs/latest/sql-data-sources-json.html

# 値の中身にjsonがある場合

ここまでは「そりゃそうじゃん」って内容なのですが、じゃあ、カラム内の値がjsonだとしたら?
“`
+—+——————————+
|no |value |
+—+——————

元記事を表示

【E資格対策】画像データ拡張

# はじめに
今回記事作成者のE資格受験勉強のために記事を作成しています
間違いなどありましたらコメントにてご指摘いただけると幸いです。

# 目的
E資格受験対策としてデータ拡張の種類について学ぶ

# 参考書籍

元記事を表示

heapを使ったダイクストラ法の計算量について考える

# はじめに
タイトルにもある通り、heapを使用したダイクストラ法の計算量について考えてみます。
ダイクストラ法について知らない方は[こちら](https://products.sint.co.jp/topsic/blog/dijkstras-algorithm)などが分かりやすいです。
heapについて知らない方は[こちら](https://medium.com/@yasufumy/data-structure-heap-ecfd0989e5be)などが分かりやすいです。

# 結論

計算量は以下のようになります。

– 頂点の数V、辺の数Eとすると
“`math
O((V+E)log(V))
“`
– V≒E(頂点と辺の数がほぼ同じ)の場合
“`math
O(Vlog(V))
“`
– 各頂点から全ての頂点に辺があるような場合
“`math
O(V^2 log(V))
“`

# なぜ(V+E)log(V)になるのか

ダイクストラ法で、値を更新していくコードの主要部分は以下のようになります。

“`python
# 既にその頂点までの最低コストが確定している

元記事を表示

Coreserver v2で_ctypesが発生した時の対処方法

# Coreserver v2で_ctypesが発生した時の対処方法
coreserver v2のレンタルサーバで、pythonとflaskの組み合わせでWEBシステムを公開していたが、pythonライブラリをインストールをするときなどに、_ctypesのエラーが発生した時、対処に相当苦労しましたが、何とかエラーを回避することが出来たので、皆さんの参考になればと思い対処方法を紹介いたします。

## 発生したエラー

pythonライブラリをpipでインストールする時やimportでライブラリを読み込んだ時に以下のメッセージで実行が出来ないことがあります。

ModuleNotFoundError: No module named ‘_ctypes’

対処の方法は「libffi」が存在していない状態でpythonをインストールしたことが原因であることが多く、レンタルサーバでなければ、「libffi」をインストールした後にpython環境をもう一度インストールすれば解決するようです。

Coreserverでは管理者権限が利用できないため、手作業でインストールを行わなければなり

元記事を表示

Boto3 > DynamoDBクライアント > Waitersメソッド ドキュメント概要部分翻訳(3/5)

Boto3 > DynamoDB 各クラスのドキュメントについて、メソッドの概要部だけDeeplに突っ込んで翻訳しました。

[Clientクラス](https://qiita.com/Mohrey/items/6dca843de5e2b75a7f7b)
[Pagenatorクラス](https://qiita.com/Mohrey/items/d0bebf9e1b2289151df0)
Waitersクラス(この記事)
[Service Resourceクラス](https://qiita.com/Mohrey/items/caa0b614227aed803d55)
[Tableクラス](https://qiita.com/Mohrey/items/cd32e836ff1c7e7aaba4)

各メソッドの説明文のみ翻訳しています。引数とレスポンスもリファレンスにはまとまっていますが、その部分は翻訳してません。あくまでざっと全体を見て何ができるか、必要なメソッドはどれかを拾うために使ってください。

https://boto3.amazonaws.com/v1/documenta

元記事を表示

Boto3 > DynamoDBクライアント > Paginatorsメソッド ドキュメント概要部分翻訳(2/5)

Boto3 > DynamoDB 各クラスのドキュメントについて、メソッドの概要部だけDeeplに突っ込んで翻訳しました。

[Clientクラス](https://qiita.com/Mohrey/items/6dca843de5e2b75a7f7b)
Pagenatorsクラス(この記事)
[Waitersクラス](https://qiita.com/Mohrey/items/f1377d7bc59a65074b09)
[Service Resourceクラス](https://qiita.com/Mohrey/items/caa0b614227aed803d55)
[Tableクラス](https://qiita.com/Mohrey/items/cd32e836ff1c7e7aaba4)

各メソッドの説明文のみ翻訳しています。引数とレスポンスもリファレンスにはまとまっていますが、その部分は翻訳してません。あくまでざっと全体を見て何ができるか、必要なメソッドはどれかを拾うために使ってください。

https://boto3.amazonaws.com/v1/document

元記事を表示

Boto3 > DynamoDBクライアント > Tableメソッド ドキュメント概要部分翻訳(5/5)

Boto3 > DynamoDB 各クラスのドキュメントについて、メソッドの概要部だけDeeplに突っ込んで翻訳しました。

[Clientクラス](https://qiita.com/Mohrey/items/6dca843de5e2b75a7f7b)
[Pagenatorクラス](https://qiita.com/Mohrey/items/d0bebf9e1b2289151df0)
[Waitersクラス](https://qiita.com/Mohrey/items/f1377d7bc59a65074b09)
[Service Resourceクラス](https://qiita.com/Mohrey/items/caa0b614227aed803d55)
Tableクラス(この記事)

各メソッドの説明文のみ翻訳しています。引数とレスポンスもリファレンスにはまとまっていますが、その部分は翻訳してません。あくまでざっと全体を見て何ができるか、必要なメソッドはどれかを拾うために使ってください。

https://boto3.amazonaws.com/v1/documentat

元記事を表示

Boto3 > DynamoDBクライアント > Service Resourceメソッド ドキュメント概要部分翻訳(4/5)

Boto3 > DynamoDB 各クラスのドキュメントについて、メソッドの概要部だけDeeplに突っ込んで翻訳しました。

[Clientクラス](https://qiita.com/Mohrey/items/6dca843de5e2b75a7f7b)
[Pagenatorクラス](https://qiita.com/Mohrey/items/d0bebf9e1b2289151df0)
[Waitersクラス](https://qiita.com/Mohrey/items/f1377d7bc59a65074b09)
ServiceResourceクラス(この記事)
[Tableクラス](https://qiita.com/Mohrey/items/cd32e836ff1c7e7aaba4)

各メソッドの説明文のみ翻訳しています。引数とレスポンスもリファレンスにはまとまっていますが、その部分は翻訳してません。あくまでざっと全体を見て何ができるか、必要なメソッドはどれかを拾うために使ってください。

https://boto3.amazonaws.com/v1/documenta

元記事を表示

Apple M1 に miniforgeをインストールする

Apple M1搭載Macでminiforgeをインストールしたので、インストール方法についてご紹介します。
現状Apple M1で機械学習を試みようとすると、miniforgeが最適解みたいなので、自分も一体なんなんだろうか程度にやってみました。
完全初心者なので複雑な説明は避け、何も考えずにとりあえず打ちましょう程度で。

## PC環境
– MacBook Pro (M1 Max, 2021)
– mac OS Monterey (ver 12.5)
– SSD 2TB
– RAM 32GB

## インストール方法
[ここから](https://github.com/conda-forge/miniforge)、Miniforge3-MacOSX-arm64 をクリックしてダウンロードします。
![スクリーンショット_2022-08-08_15_38_52.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/2779582/e46e7a62-89e6-42de-757f-4fadef8dae11.

元記事を表示

Python3エンジニア認定データ分析模試試験2回目 -間違えた問題-

獲得点数 475/1000点


正答率: 47.5 % ( 19問 / 40問 正解 )

“`python
行列Aのサイズが(n,m)、行列Bのサイズが(m,n)のとき、この2つの行列の積ABのサイズとして正しいものを選べ
A,(n,n)
“`
:::note info
2行3列と3行2列の行列の積は、2行2列である
:::

“`python
以下のコードを実行した際の出力として正しいものを選べ
import numpy as np

a = np.array([[0,1,10],[0,1,10]])
b = a.copy()
a2 = a.reshape(3,2)
b*a2

A,エラーになり、計算は実行できない
“`

:::note info
numpy.reshape()関数は、既に存在するNumPy配列を、
任意のシェイプ(=行数と要素数)の二次元配列に
形状変換した新しいNumPy配列を生成する関数です。
:::

“`python
サポートベクターマシンについて説明している以下の文章のうち正しいものを選べ

A,カーネルを

元記事を表示

Pytorch有用情報まとめ

[Pytorchチュートリアル](https://yutaroogawa.github.io/pytorch_tutorials_jp/)

[Pytorch入門](https://atmarkit.itmedia.co.jp/ait/subtop/features/di/pytorch_index.html)

[Pytorch nkmk](https://note.nkmk.me/pytorch/)

[PytorchでCNNを徹底解説](https://qiita.com/mathlive/items/8e1f9a8467fff8dfd03c)

元記事を表示

python環境の中身

![Screen Shot 2022-08-08 at 15.55.30.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/2655515/8856ecb1-9b0e-4edd-ef2e-488ccf880c6b.png)

python環境の中身

誤ってたら教えてください。

元記事を表示

ポアソン回帰の結果がsklearnとstatsmodelsで異なる理由

同じところでつまった方向けに残しておきます。

ポアソン回帰をsklearnのPoissonRegressor、statsmodelsのGLMの2つで実行(デフォルトのパラメータで実行)して、実行結果を比べてみたところ、回帰係数の値が微妙にずれてしまっていました。

調べたところ、原因はsklearnのPoissonRegressorでは正則化パラメータaplhaの値がデフォルトで1.0となっていることによるものでした。
参考文献 : https://runebook.dev/ja/docs/scikit_learn/modules/generated/sklearn.linear_model.poissonregressor

なので、sklearnのPoissonRegressorを使うときに、
“`python
model = PoissonRegressor(alpha = 0.0)
model = model.fit(X, y)
“`
のように、正則化パラメータaplhaの値を0.0にしてやれば、sklearnのPoissonRegressor、statsmodels

元記事を表示

Google Maps APIを用いたジオコーディングで精度をチェックしよう

# はじめに
ジオコーディングをするときの変換した座標の精度を見るために、変換前の住所と変換後の座標についてくる住所データを比較します。

# 背景と目的
## 背景
当社ではガスや灯油の個人宅への配送を支援するサービスを提供しています。
そのサービスの中に配送順を算出する機能がありますが、とりわけ重要となるのが個人宅の座標取得(ジオコーディング)となります。
座標がずれると「おかしな配送順序になる」、「ナビアプリへ連携したときに変なところに案内される」などの問題が発生します。

### 基本的なジオコーディングの流れ
+ お客様から住所一覧のExcel/CSVファイルを受領
+ Google MapsのGeocoding APIを利用して座標を取得

### 課題
このとき、以下のような課題から座標がずれるケースが発生します。
+ 受領した住所の番地が何らかの理由で存在しない場合に、その地域の中心座標が返ってくる
+ 受領した住所の表記揺れ(漢字間違いや地元特有の記載)で、正確に変換できない

## 目的
前述の課題を軽減するためにジオコーディングする際に変換前後の住所を比較した精度

元記事を表示

Deep learningとXGBoost – 「レンタル自転車の利用者予測」を題材に

# 目的
SIGNATEさんの練習問題として公開されている[「レンタル自転車の利用者予測」](https://signate.jp/competitions/114) に挑戦します。レンタル自転車の利用者数を予測します。[「重回帰分析」](https://qiita.com/Ambition_TY/private/34ee1b0eb932b6ec82f0)を試しましたが、あまり良い精度のモデルを得られませんでした。Deep leariningをやって、良い精度のモデルを作りたいです。

# 目的変数と説明変数を選択する
利用者数を予測するコンペですので、説明変数は今回も利用者数(‘cnt’)です。

時間(‘hr’)を説明変数で使うのをやめて、曜日(‘weekday’)を代わりに使います。土日と平日で明確な特徴がありました。

![output_graph_1.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/688182/d658ed17-6df4-3f03-2209-9c18ff20ca8b.png)

元記事を表示

回帰分析 – 「レンタル自転車の利用者予測」を題材に

# 目的
SIGNATEさんの練習問題として公開されている[「レンタル自転車の利用者予測」](https://signate.jp/competitions/114) に挑戦します。レンタル自転車の利用者数を予測します。

# 目的変数と説明変数を選択する
[「データを理解する – データを解析する前にすること」](https://qiita.com/Ambition_TY/private/4229065704815f0cb031)でデータの特徴や傾向を表やグラフを作りながら確認しました。

利用者数を予測するコンペですので、説明変数は自動的に利用者数(‘cnt’)になります。

説明変数は、利用者数(‘cnt’)と相関や関係がありそうな変数を選びます。時間(‘hr’),温度(‘temp’),体感温度(‘atemp’)が利用者数(‘cnt’)と相関や傾向がありそうでした。それに加えて、天気(‘weathersit’)も追加します。天気(‘weathersit’)はカテゴリーデータなので相関関係を確認していませんが、関係あると思って投入します。

目的変数・・・利用者(‘cnt’)
説明

元記事を表示

データを理解する – データを解析する前にすること

# 目的
SIGNATEさんの練習問題として公開されている[「レンタル自転車の利用者予測」](https://signate.jp/competitions/114) に挑戦します。レンタル自転車の利用者数を予測するコンペです。

予測する手段として、回帰分析やDeep learning、XBBoostをやってみようと思いますが、その前に、教師データ(train data)の中身を確認します。データ数の確認や基本統計量、グラフなどを出力してデータの特徴や傾向を探ります。

# 使用するデータ
データはコンペのサイトにある[データ](https://signate.jp/competitions/114/data)で入手します。学習用データ(train.tsv)、評価用データ(test.tsv)そして提出用のフォーマットとして応募用のサンプルファイル(sample_submit.csv)が提供されています。tsvはダウンロードした時に、csvに保存し直しました。

# データを読み込む
train dataを読み込みます。いつもnumpy、pandas、matplotlib.pyplot

元記事を表示

discord.pyで使ったものを置いておこう(随時更新)

# はじめに
discord.pyで使った関数とかをここにそっと置いておきます
自分用でもあり、誰かの役に立てばいいな、と思います

# 重要事項
:::note alert
これから解説するコードたちは
[Discord Developer Portal](https://discord.com/developers/applications/)から
intentsの欄をオンにする必要がある場合があります

その上で、
“`python
intents = discord.Intents.all()
client = discord.Client(intents=intents)
“`
を記述してください。
これらを行っていないと動かないコードがあるので
“`python
AttributeError: ‘NoneType’ object has no attribute ‘status’
“`
といったエラーが出た場合は上記を行ってください。
:::
細かい手順等は以下のサイトを参考にしてみてください

https://qiita.com/disneyresidents/i

元記事を表示

OTHERカテゴリの最新記事