秀丸エディタによるテキストの整形処理

パソコンあまり使いこなしていないような文系さん向けの記事。

秀丸というテキストエディタは検索置換やgrepの機能が結構強力で,うまく使いこなすとデータの整形が楽にこなせるようになる。たとえば新聞データベースから記事見出しの一覧をエクセルに移したいとしよう。

日経テレコンからひっぱってくると,

大型船、インド洋沖で大破・火災、海難事故揺れる商船三井、三菱重工と原因究明急ぐ。
2013/07/11 日経産業新聞 20ページ 絵写表有 1465文字
任天堂ファミコン30年(上)「中年」マリオ、再び跳べるか(NewsEdge)
2013/07/11 日経産業新聞 20ページ 絵写表有 1780文字 PDF有 [PDFを表示]
ネットが揺らす世界の政治(眼光紙背)
2013/07/11 日経産業新聞 20ページ 587文字 PDF有 [PDFを表示]

コピペすると2行で1記事のデータを,

大型船、インド洋沖で大破・火災、海難事故揺れる商船三井、三菱重工と原因究明急ぐ。 2013/07/11 日経産業新聞 20ページ 絵写表有 1465文字
任天堂ファミコン30年(上)「中年」マリオ、再び跳べるか(NewsEdge) 2013/07/11 日経産業新聞 20ページ 絵写表有 1780文字 PDF有 [PDFを表示]
ネットが揺らす世界の政治(眼光紙背) 2013/07/11 日経産業新聞 20ページ 587文字 PDF有 [PDFを表示]

エクセルで処理しやすいように1行1記事に整形したいとする。秀丸は正規表現での検索置換が可能で,例えば検索「n2」を置換「t2」。nは改行を意味していて,改行直後に2がくる場合に,その改行をタブ(t)に置換する。こうやってタブ区切りテキスト(csv)をつくってやって,エクセルやらにコピペするとらくちん。検索置換でだーっとゴミ取りをして速く綺麗なデータを。

タイトルとURLをコピーしました