Webページからテキストを抽出する方法

Webページからテキストを抽出する方法はいくつかあります。 あなたが選ぶ方法はあなたがテキストのために念頭に置いている目的に依存するべきです。 業務上の必要性がすべて、指示またはガイドラインとして使用するためにテキストを印刷することである場合は、そのテキストをHTMLのみとして抽出できます。 Webページに画像やテキストがあり、そのページを元の形式のままにしたい場合は、Webページ全体を抽出する必要があります。 テキストを抽出する方法は3つあり、テキストとイメージを一緒に抽出する方法は2つあります。
テキストのみを抽出
1。
テキストを抽出したいWebページを開きます。 [ファイル]メニューをクリックし、[名前を付けて保存]または[ページに名前を付けて保存]オプションをクリックします。 [ファイルの種類]ドロップダウンメニューから[Webページ、HTMLのみ]を選択し、ファイルの名前を入力して[保存]をクリックします。テキストが抽出され、元のページフォーマットオプションをそのまま使用してHTMLファイルとして保存されます。 ファイルはWebブラウザで表示でき、メモ帳などのテキストエディタで編集できます。
2。
[名前を付けて保存]または[ページに名前を付けて保存]オプションをクリックし、[ファイルの種類]ドロップダウンメニューから[テキストファイル]を選択します。 テキストファイルの名前を入力して[保存]をクリックします。Webページからのテキストが抽出され、テキストエディタやMicrosoft Wordなどのドキュメントプログラムで表示できるテキストファイルとして保存されます。
3。
クリックしてドラッグし、抽出したいWebページ上のテキストを選択し、「Ctrl + C」を押してテキストをコピーします。 テキストエディタまたはドキュメントプログラムを開き、「Ctrl + V」を押してWebページのテキストをテキストファイルまたはドキュメントウィンドウに貼り付けます。 テキストファイルまたは文書をコンピュータに保存してください。
テキストと画像の抽出
1。
Webブラウザの[ファイル]メニューをクリックし、[名前を付けて保存]または[ページに名前を付けて保存]オプションをクリックします。 [ファイルの種類]ドロップダウンメニューから[Webページ、完全]を選択し、ファイルの名前を入力します。 「保存」をクリックします。ウェブページからテキストと画像が抽出され保存されます。 テキストはHTMLファイルに配置され、画像はHTMLファイルと同じ場所にあるフォルダーに配置されます。
2。
HTMLファイルをダブルクリックして、抽出されたテキストと画像を表示します。 それらはあなたのWebブラウザで開くでしょう。 テキストと画像を抽出する他の方法は、Internet Explorerブラウザでのみ利用可能です。 次の手順に進む前に、Internet Explorerで目的のWebページを開きます。
3。
[ファイル]メニューの[名前を付けて保存]オプションをクリックし、[ファイルの種類]ドロップダウンメニューから[Webアーカイブ、単一ファイル(* .mht)]を選択します。 ファイル名を入力して「保存」ボタンをクリックしてください。 テキストと画像はWebページからファイルに抽出されます。 ファイルをダブルクリックしてWebブラウザに抽出されたテキストと画像を表示します。